Нейросети для обработки голоса⁠⁠

Статья для репортажных видеографов

ИИ работают в сто раз быстрее и в тысячу раз лучше, чем ковыряние в Аудишене или Изотопе. Один минус - платные. И работают только с различимой речью. Как только бабушка опускает микрофон к животу, сетка додумывает сама что не расслышала. Додумывает плохо и переходит на вавилонский язык.  Поэтому не получится просто скормить ей 6 часов банкета и нажать рендер, увы - готовый звук нужно отслушивать и местами править напильником.

1. https://auphonic.com - топ для пакетной обработки голоса. Идеально выравнивает большой исходник по громкости и бережно очищает от шума, максимально сохраняя полезный сигнал. Есть разные настройки - например, можно просто почистить голос, а можно полностью вырезать музыку и атмосферу (об этом ниже). Для всех настроек разработчики заботливо написали пояснительные статьи, которые всплывают при наведении курсора. 

Есть 3 главных пресета (Drop audio -> Edit Production):  

. Static - убирает шум. Подходит для лайв-съёмок со словами, музыкой и другими звуками вперемешку (выкуп, плохой звук в ЗАГСе, интерактивы и т.д.). 

. Dynamic - убирает всё кроме голоса и музыки. Подходит для чистого голоса, записанного через микшер или петличку (без музыкальной подложки).

 . Speech isolation - оставляет только голос. Подходит для ситуаций, когда нужно очистить речь от всего лишнего (шума, музыки и т.д.). Убирает аплодисменты и другие живые звуки, делая голос слишком стерильным и неестественным. Поэтому я не советую его для чисто записанного голоса.

По умолчанию включён компрессор, который выравнивает весь звук (Adaptive Leveler).

Остальные настройки я тоже оставляю по дефолту, кроме нескольких: . WAV 24-bit - потому что по умолчанию обработанный файл сохраняется в .mp3 . Filename Suffix - добавляет текст к имени обработанного файла (чтобы не перепутать с оригиналом). . Loudness Target. В России стандарт -23 LUFS, но я ставлю в районе -16 LUFS - на мой взгляд, это оптимальная компрессия для речи. . Normalization Method - разработчики советуют выбирать Dialog loudness.

2. https://vocalremover.org - для более сложных задач, когда другие нейросети не вывозят. Кушает и очень плохую речь, артефактов гораздо меньше. Сохраняет голос без изменений. Громкость не выравнивает. Файл ограничен: 10 минут / 100 mb.

3. Встроенные в монтажки:
. Final Cut - Voice isolation
. DaVinchi Resolve - Voice isolation

P.S. Остальные нейросети хуже (или обработкой, или возможностями, или платными функциями только через иностранные карты и т.д.). Поэтому их не расписываю, но упомяну списком: 

. https://podcast.adobe.com/enhance
. https://huggingface.co/spaces/ResembleAI/resemble-enhance
. https://crumplepop.com/
. https://www.lalal.ai/voice-cleaner/
. https://elevenlabs.io/app/voice-isolator

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества