Статья для репортажных видеографов
ИИ работают в сто раз быстрее и в тысячу раз лучше, чем ковыряние в Аудишене или Изотопе. Один минус - платные. И работают только с различимой речью. Как только бабушка опускает микрофон к животу, сетка додумывает сама что не расслышала. Додумывает плохо и переходит на вавилонский язык.
Поэтому не получится просто скормить ей 6 часов банкета и нажать рендер, увы - готовый звук нужно отслушивать и местами править напильником.
1. https://auphonic.com - топ для пакетной обработки голоса. Идеально выравнивает большой исходник по громкости и бережно очищает от шума, максимально сохраняя полезный сигнал. Есть разные настройки - например, можно просто почистить голос, а можно полностью вырезать музыку и атмосферу (об этом ниже). Для всех настроек разработчики заботливо написали пояснительные статьи, которые всплывают при наведении курсора.
Есть 3 главных пресета (Drop audio -> Edit Production):
. Static - убирает шум. Подходит для лайв-съёмок со словами, музыкой и другими звуками вперемешку (выкуп, плохой звук в ЗАГСе, интерактивы и т.д.).
. Dynamic - убирает всё кроме голоса и музыки. Подходит для чистого голоса, записанного через микшер или петличку (без музыкальной подложки).
. Speech isolation - оставляет только голос. Подходит для ситуаций, когда нужно очистить речь от всего лишнего (шума, музыки и т.д.). Убирает аплодисменты и другие живые звуки, делая голос слишком стерильным и неестественным. Поэтому я не советую его для чисто записанного голоса.
По умолчанию включён компрессор, который выравнивает весь звук (Adaptive Leveler).
Остальные настройки я тоже оставляю по дефолту, кроме нескольких: . WAV 24-bit - потому что по умолчанию обработанный файл сохраняется в .mp3 . Filename Suffix - добавляет текст к имени обработанного файла (чтобы не перепутать с оригиналом). . Loudness Target. В России стандарт -23 LUFS, но я ставлю в районе -16 LUFS - на мой взгляд, это оптимальная компрессия для речи. . Normalization Method - разработчики советуют выбирать Dialog loudness.
2. https://vocalremover.org - для более сложных задач, когда другие нейросети не вывозят. Кушает и очень плохую речь, артефактов гораздо меньше. Сохраняет голос без изменений. Громкость не выравнивает. Файл ограничен: 10 минут / 100 mb.
3. Встроенные в монтажки:
. Final Cut - Voice isolation
. DaVinchi Resolve - Voice isolation
P.S. Остальные нейросети хуже (или обработкой, или возможностями, или платными функциями только через иностранные карты и т.д.). Поэтому их не расписываю, но упомяну списком: