Заставил ИИ-озвучку дышать как живой диктор - помог Claude
Делал озвучку для ролика через ElevenLabs и бесился: голос чистый, но мёртвый. Ровный, как метроном, без единого вздоха - сразу слышно робота. Пока не наткнулся на приём: перед озвучкой прогонять текст через Claude. Разница реально слышна, рассказываю.
Почему голос мёртвый
Почему так. Движок слишком ровно раскладывает ритм: одинаковые паузы, одинаковая длина фраз. Живой диктор так не читает - он дышит и тормозит на важном. Раньше для этого учили SSML, но новые модели отлично понимают обычную пунктуацию. Значит, дыханием можно рулить прямо запятыми и тире.
Главный приём
Фокус в том, чтобы сделать Claude редактором пауз. Отдаёшь ему скрипт, он натыкивает многоточия, тире и разбивает на абзацы. ElevenLabs читает это как вздохи и микропаузы. Вот промпт, которым я гоняю текст:
Ты редактор дикторского текста. Возьми мой скрипт и расставь в нём паузы для естественного звучания: многоточия там, где диктор берёт дыхание; тире для коротких пауз; разбей длинные предложения на короткие абзацы. Не меняй смысл и слова - только пунктуацию и разбивку. Верни готовый текст. Скрипт: [вставь свой текст]
А вот что вышло на выходе - короткая реплика женским голосом после обработки. Слышно, как голос дышит:
Связка тупо рабочая: Claude дирижирует паузами, ElevenLabs - голосом. Оба есть в боте, так что весь путь от текста до дорожки в одном окне. Кто делает озвучку - какой голос у вас заходит лучше?
