Сегодня, благодаря открытым (open-source) моделям искусственного интеллекта, любой желающий может «научить» свой компьютер говорить — причём на чистом русском языке и без необходимости арендовать дорогие серверы. Мечтаете озвучивать видео, создавать аудиокниги или просто экспериментировать с голосовыми технологиями? В этой статье рассмотрим варианты.
Нагуглил по этой теме кое-какие новинки (или не совсем новинки) в мире Text-to-Speech (TTS) и отобрал модели, которые можно запустить локально даже на бюджетной видеокарте. Главные критерии отбора: высокое качество синтеза, поддержка русского языка и скромные системные требования.
Забудьте о роботизированных голосах из прошлого. Современные нейросети способны генерировать речь, неотличимую(почти) от человеческой. Вот четыре открытые модели, на которые стоит обратить внимание в 2025 году.
1. Piper TTS: Чемпион по эффективности
Если вы ищете максимально быстрый и нетребовательный к ресурсам вариант, Piper TTS — ваш выбор. Эта модель оптимизирована до такой степени, что отлично работает даже на CPU или на одноплатных компьютерах вроде Raspberry Pi, что делает её абсолютным чемпионом по эффективности.
Русский язык: Piper предлагает несколько готовых русскоязычных голосов, которые сообщество высоко оценивает за естественность и приятное звучание.
Что с железом? Piper — самая «лёгкая» модель в нашем списке. Ей требуется менее 3 ГБ видеопамяти (VRAM), а это значит, что она без проблем запустится практически на любой видеокарте, выпущенной за последние несколько лет.
Идеально для: Быстрой озвучки текстов, использования в проектах для слабого оборудования, голосовых ассистентов.
2. Silero TTS: Простота и качество
Модели от Silero давно зарекомендовали себя как простой и качественный инструмент для синтеза речи. Разработчики изначально уделили большое внимание поддержке русского языка, что делает их одними из лучших для русскоязычных пользователей.
Русский язык: Silero предлагает несколько высококачественных моделей и голосов, специально обученных на огромных массивах русских текстов. Качество произношения и интонаций — на высоте.
Что с железом? Модели Silero очень эффективны. Хотя для сопутствующих ИИ-задач может потребоваться больше ресурсов, сама по себе TTS-модель комфортно себя чувствует на видеокартах с 6 ГБ VRAM, а часто может работать и на более скромных конфигурациях.
Идеально для: Стабильных и качественных результатов, интеграции в различные приложения благодаря простому API.
3. Coqui TTS (модель XTTS-v2): Мастер клонирования голоса
Хотите, чтобы нейросеть заговорила вашим голосом? Coqui TTS и её флагманская модель XTTS-v2 делают это возможным. Главная «фишка» этой модели — способность к «клонированию голоса» (voice cloning) всего по 5-10 секундам аудиозаписи.
Русский язык: XTTS-v2 является многоязычной моделью и хорошо справляется с синтезом русской речи, сохраняя при этом тембр и интонации исходного голоса.
Что с железом? Клонирование голоса требует ресурсов. Для комфортной работы понадобится видеокарта с минимум 4-6 ГБ VRAM, при этом пиковое потребление при генерации длинных фраз может достигать 10 ГБ. К счастью, существуют способы оптимизации, позволяющие переносить часть нагрузки на оперативную память (RAM).
Идеально для: Создания уникальных голосов, озвучки персонажей, персонализированных проектов.
4. Bark: Творческий генератор звуков
Bark от лаборатории Suno — это не просто TTS-модель, а полноценный генератор аудио. Она умеет не только говорить, но и добавлять в речь невербальные звуки: смех, вздохи, плач и даже пение или фоновую музыку. Это открывает невероятный простор для творчества.
Русский язык: Bark поддерживает русский и позволяет генерировать речь с высокой степенью эмоциональной выразительности.
Что с железом? Это самая требовательная модель в нашем списке. Полная версия потребует около 12 ГБ VRAM. Однако разработчики предлагают и облегчённые варианты, которые могут уместиться в 8 ГБ, а с определёнными настройками и оптимизациями энтузиасты умудряются запускать её даже на картах с 2-4 ГБ VRAM.
Идеально для: Экспериментов со звуком. Мне не удалось избавиться от шумов и каких-то бульканий при генерации диалогов. Пробовал, на урезанной версии и полной при запуске на CPU - голоса прикольные, но шум очень сильный для озвучивания книг, вероятно не подойдет. Если кто знает как убрать шумы в этой модели поделитесь. Она может хихикать и по описанию даже добавлять музыку. Но неточно следует инструкциям и часто проглатывает эти описания.
Как выбрать модель под свою задачу?
Для новичка или владельца слабого ПК: Начинайте с Piper TTS. Вы получите отличные результаты без головной боли с настройками и требованиями.
Нужен стабильно качественный русский голос: Silero TTS — ваш надёжный выбор.
Хотите создать уникальный голос или озвучить что-то своим тембром: Готовьтесь осваивать Coqui TTS.
Для творческих экспериментов и озвучки с эмоциями: Если у вас мощная видеокарта, попробуйте Bark.
Будущее уже здесь
Развитие открытых моделей синтеза речи идёт семимильными шагами. Инструменты, которые ещё пару лет назад были сложными и доступными лишь единицам, сегодня может запустить любой энтузиаст. Локальный синтез речи — это не только увлекательное хобби, но и шаг к большей приватности и независимости от облачных сервисов. Попробуйте сами — ваш компьютер способен на большее, чем вы думаете!
Напишите, какие модели используете локально. Может я упустил что-то хорошее.