11

Нейросети для обработки голоса

Серия Записки видеографа

Статья для репортажных видеографов

ИИ работают в сто раз быстрее и в тысячу раз лучше, чем ковыряние в Аудишене или Изотопе. Один минус - платные. И работают только с различимой речью. Как только бабушка опускает микрофон к животу, сетка додумывает сама что не расслышала. Додумывает плохо и переходит на вавилонский язык. 
Поэтому не получится просто скормить ей 6 часов банкета и нажать рендер, увы - готовый звук нужно отслушивать и местами править напильником.

1. https://auphonic.com - топ для пакетной обработки голоса. Идеально выравнивает большой исходник по громкости и бережно очищает от шума, максимально сохраняя полезный сигнал. Есть разные настройки - например, можно просто почистить голос, а можно полностью вырезать музыку и атмосферу (об этом ниже). Для всех настроек разработчики заботливо написали пояснительные статьи, которые всплывают при наведении курсора.


Есть 3 главных пресета (Drop audio -> Edit Production): 


. Static - убирает шум. Подходит для лайв-съёмок со словами, музыкой и другими звуками вперемешку (выкуп, плохой звук в ЗАГСе, интерактивы и т.д.).


. Dynamic - убирает всё кроме голоса и музыки. Подходит для чистого голоса, записанного через микшер или петличку (без музыкальной подложки).


. Speech isolation - оставляет только голос. Подходит для ситуаций, когда нужно очистить речь от всего лишнего (шума, музыки и т.д.). Убирает аплодисменты и другие живые звуки, делая голос слишком стерильным и неестественным. Поэтому я не советую его для чисто записанного голоса.

По умолчанию включён компрессор, который выравнивает весь звук (Adaptive Leveler).

Остальные настройки я тоже оставляю по дефолту, кроме нескольких: . WAV 24-bit - потому что по умолчанию обработанный файл сохраняется в .mp3 . Filename Suffix - добавляет текст к имени обработанного файла (чтобы не перепутать с оригиналом). . Loudness Target. В России стандарт -23 LUFS, но я ставлю в районе -16 LUFS - на мой взгляд, это оптимальная компрессия для речи. . Normalization Method - разработчики советуют выбирать Dialog loudness.

2. https://vocalremover.org - для более сложных задач, когда другие нейросети не вывозят. Кушает и очень плохую речь, артефактов гораздо меньше. Сохраняет голос без изменений. Громкость не выравнивает. Файл ограничен: 10 минут / 100 mb.

3. Встроенные в монтажки:
. Final Cut - Voice isolation
. DaVinchi Resolve - Voice isolation

P.S. Остальные нейросети хуже (или обработкой, или возможностями, или платными функциями только через иностранные карты и т.д.). Поэтому их не расписываю, но упомяну списком:


. https://podcast.adobe.com/enhance
. https://huggingface.co/spaces/ResembleAI/resemble-enhance
. https://crumplepop.com/
. https://www.lalal.ai/voice-cleaner/
. https://elevenlabs.io/app/voice-isolator

Записки видеографа

22 поста20 подписчиков

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества