Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Уникальная игра, объединяющая популярные механики Match3 и пошаговые бои!

Магический мир

Мидкорные, Ролевые, Три в ряд

Играть

Топ прошлой недели

  • AlexKud AlexKud 38 постов
  • Animalrescueed Animalrescueed 36 постов
  • Oskanov Oskanov 7 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
0 просмотренных постов скрыто
4
Kreinto
Kreinto
2 дня назад
Искусственный интеллект

Почему досих пор нет ИИ для озвучивания книг? (И я не про монотонный синтез речи)⁠⁠

С появлением ИИ как грибы после дождя начали появляться всякие сервисы, порой бесполезные, но делающие довольно сложные вещи - апогеем на данный момент можно считать генерацию видео.

Так почему же досих пор ученые и программисты, работающие в сфере разработки нейросетей досих пор не скормили существующие озвучки и сами эти книги нейросетям, не научили интонации и "пониманию" смысла текста для корректной интонации?

Вопрос Книги Технологии Синтез речи Текст
25
3
NeuralNet.2025
NeuralNet.2025
2 месяца назад
Искусственный интеллект

Лучшие открытые модели ИИ для синтеза русской речи на домашнем ПК⁠⁠

Сегодня, благодаря открытым (open-source) моделям искусственного интеллекта, любой желающий может «научить» свой компьютер говорить — причём на чистом русском языке и без необходимости арендовать дорогие серверы. Мечтаете озвучивать видео, создавать аудиокниги или просто экспериментировать с голосовыми технологиями? В этой статье рассмотрим варианты.

Нагуглил по этой теме кое-какие новинки (или не совсем новинки) в мире Text-to-Speech (TTS) и отобрал модели, которые можно запустить локально даже на бюджетной видеокарте. Главные критерии отбора: высокое качество синтеза, поддержка русского языка и скромные системные требования.

Герои локального синтеза речи

Забудьте о роботизированных голосах из прошлого. Современные нейросети способны генерировать речь, неотличимую(почти) от человеческой. Вот четыре открытые модели, на которые стоит обратить внимание в 2025 году.

1. Piper TTS: Чемпион по эффективности

Если вы ищете максимально быстрый и нетребовательный к ресурсам вариант, Piper TTS — ваш выбор. Эта модель оптимизирована до такой степени, что отлично работает даже на CPU или на одноплатных компьютерах вроде Raspberry Pi, что делает её абсолютным чемпионом по эффективности.

  • Русский язык: Piper предлагает несколько готовых русскоязычных голосов, которые сообщество высоко оценивает за естественность и приятное звучание.

  • Что с железом? Piper — самая «лёгкая» модель в нашем списке. Ей требуется менее 3 ГБ видеопамяти (VRAM), а это значит, что она без проблем запустится практически на любой видеокарте, выпущенной за последние несколько лет.

  • Идеально для: Быстрой озвучки текстов, использования в проектах для слабого оборудования, голосовых ассистентов.

2. Silero TTS: Простота и качество

Модели от Silero давно зарекомендовали себя как простой и качественный инструмент для синтеза речи. Разработчики изначально уделили большое внимание поддержке русского языка, что делает их одними из лучших для русскоязычных пользователей.

  • Русский язык: Silero предлагает несколько высококачественных моделей и голосов, специально обученных на огромных массивах русских текстов. Качество произношения и интонаций — на высоте.

  • Что с железом? Модели Silero очень эффективны. Хотя для сопутствующих ИИ-задач может потребоваться больше ресурсов, сама по себе TTS-модель комфортно себя чувствует на видеокартах с 6 ГБ VRAM, а часто может работать и на более скромных конфигурациях.

  • Идеально для: Стабильных и качественных результатов, интеграции в различные приложения благодаря простому API.

3. Coqui TTS (модель XTTS-v2): Мастер клонирования голоса

Хотите, чтобы нейросеть заговорила вашим голосом? Coqui TTS и её флагманская модель XTTS-v2 делают это возможным. Главная «фишка» этой модели — способность к «клонированию голоса» (voice cloning) всего по 5-10 секундам аудиозаписи.

  • Русский язык: XTTS-v2 является многоязычной моделью и хорошо справляется с синтезом русской речи, сохраняя при этом тембр и интонации исходного голоса.

  • Что с железом? Клонирование голоса требует ресурсов. Для комфортной работы понадобится видеокарта с минимум 4-6 ГБ VRAM, при этом пиковое потребление при генерации длинных фраз может достигать 10 ГБ. К счастью, существуют способы оптимизации, позволяющие переносить часть нагрузки на оперативную память (RAM).

  • Идеально для: Создания уникальных голосов, озвучки персонажей, персонализированных проектов.

4. Bark: Творческий генератор звуков

Bark от лаборатории Suno — это не просто TTS-модель, а полноценный генератор аудио. Она умеет не только говорить, но и добавлять в речь невербальные звуки: смех, вздохи, плач и даже пение или фоновую музыку. Это открывает невероятный простор для творчества.

  • Русский язык: Bark поддерживает русский и позволяет генерировать речь с высокой степенью эмоциональной выразительности.

  • Что с железом? Это самая требовательная модель в нашем списке. Полная версия потребует около 12 ГБ VRAM. Однако разработчики предлагают и облегчённые варианты, которые могут уместиться в 8 ГБ, а с определёнными настройками и оптимизациями энтузиасты умудряются запускать её даже на картах с 2-4 ГБ VRAM.

  • Идеально для: Экспериментов со звуком. Мне не удалось избавиться от шумов и каких-то бульканий при генерации диалогов. Пробовал, на урезанной версии и полной при запуске на CPU - голоса прикольные, но шум очень сильный для озвучивания книг, вероятно не подойдет. Если кто знает как убрать шумы в этой модели поделитесь. Она может хихикать и по описанию даже добавлять музыку. Но неточно следует инструкциям и часто проглатывает эти описания.

Как выбрать модель под свою задачу?

  • Для новичка или владельца слабого ПК: Начинайте с Piper TTS. Вы получите отличные результаты без головной боли с настройками и требованиями.

  • Нужен стабильно качественный русский голос: Silero TTS — ваш надёжный выбор.

  • Хотите создать уникальный голос или озвучить что-то своим тембром: Готовьтесь осваивать Coqui TTS.

  • Для творческих экспериментов и озвучки с эмоциями: Если у вас мощная видеокарта, попробуйте Bark.

Будущее уже здесь

Развитие открытых моделей синтеза речи идёт семимильными шагами. Инструменты, которые ещё пару лет назад были сложными и доступными лишь единицам, сегодня может запустить любой энтузиаст. Локальный синтез речи — это не только увлекательное хобби, но и шаг к большей приватности и независимости от облачных сервисов. Попробуйте сами — ваш компьютер способен на большее, чем вы думаете!


Напишите, какие модели используете локально. Может я упустил что-то хорошее.

Показать полностью
[моё] Синтез речи Модели
1
7
vaan37
vaan37
3 месяца назад
Книжная лига

Помогите с выбором синтезатора речи⁠⁠

Здравствуйте, возможно есть какие то сборки включающие в себя синтезатор и набор лучших голосов для озвучивания txt и fb2 книг? Море книг без озвучки но очень хороших.
Проблема в телефоне без плеймаркета и поддержки гугла, многие синтезаторы как я понял, завязаны на гугл и тд и нормально не работают через Gbox.
Телефон honor 30s
По возможности, бесплатный вариант

[моё] Книги Синтез речи Телефон Текст
17
75
Nerual.Dreming
Nerual.Dreming
6 месяцев назад
Stable Diffusion & Flux

Три бесплатных портативных нейросети для работы со звуком | MM-Audio, Fish Speech, LatentSync⁠⁠

🎵 Друзья, вы готовы к настоящей революции в мире аудио? В этом видео я покажу вам три невероятные нейросети, которые перевернут ваше представление о работе со звуком! MM-Audio создаст потрясающие звуковые эффекты для ваших видео и игр всего за пару кликов, Fish Speech поразит вас качеством клонирования голоса по минутному образцу, а LatentSync идеально синхронизирует сгенерированную речь с любым видео.

Я покажу все хитрости настройки, поделюсь личным опытом и научу пользоваться каждым инструментом. А самое крутое - все они доступны в удобных портативных версиях! 🚀

Альтернативный плеер YouTube:

Ссылки из видео:

🎨 MM-Audio - генерация звуков

  • Скачать портативную версию: https://t.me/neuroport/119

  • Исходный код: https://github.com/hkchengrex/MMAudio

  • Онлайн демо: https://huggingface.co/spaces/hkchengrex/MMAudio

🗣️ Fish Speech - клонирование голоса

  • Скачать портативную версию: https://t.me/neuroport/134

  • Исходный код: https://github.com/fishaudio/fish-speech

  • Онлайн демо: https://huggingface.co/spaces/fishaudio/fish-speech-1

🎬 LatentSync - синхронизация губ

  • Скачать портативную версию: https://t.me/neuroport/129

  • Исходный код: https://github.com/bytedance/LatentSync

  • Онлайн демо: https://huggingface.co/spaces/fffiloni/LatentSync

🛠️ Полезные инструменты:

  • Whisper для транскрибации: http://github.com/Const-me/Whisper

  • Ultimate Vocal Remover: https://github.com/Anjok07/ultimatevocalremovergui

  • Audacity для редактирования: https://www.audacityteam.org

  • База голосов для TTS: https://t.me/neuroportchat/6633

📱 Мои ссылки:

  • Поддержать донатом: https://www.donationalerts.com/r/nerual_dreming

  • Основной Telegram: https://t.me/neuro_art0

  • Эксклюзивы на Boosty: https://boosty.to/neuro_art

  • Курс по нейросетям: https://fooocus.ru

  • Клуб "Нейро-музыка": https://neuromusic.club

  • Все Telegram каналы: https://t.me/addlist/LQ-fUTyhVjEzYjIy

Буду рад вашей подписке и поддержке. Всех обнял и удачных генераций.

Показать полностью 1
[моё] Нейронные сети Липсинк Синтез речи Искусственный интеллект Обработка звука Звуковые нейросети Звуковые эффекты Видео Видео ВК YouTube
25
1
snakers4
snakers4
7 месяцев назад

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие⁠⁠

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие Искусственный интеллект, Озвучка, Чат-бот, Синтез речи, Инновации

Фонтан "Дружба народов"

Привет, Пикабу!

Наверное ни для кого не секрет, что в последнее время усиливаются как интеграционные, так и дезинтеграционные процессы у нас в стране и вокруг неё. Вот, например, в метро можно увидеть вот такую рекламу (затёр логотипы):

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие Искусственный интеллект, Озвучка, Чат-бот, Синтез речи, Инновации

Понятно, что нынче Пикабу состоит из баянов, розжига, сисек, срачей про мигрантов и бездомных собак (вы сами знаете всё остальное), но остались же тут адекватные люди, кто ещё верит в дружбу народов и всё подобное, хотя бы в рамках нашей страны?

В этом году мы делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ. Возможно, вы знаете нас через одного популярного бота для озвучки в Телеграме.

Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.

По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT). Мы бы хотели покрыть как минимум 10 популярных языков. Всего популярных языков (более 100 тысяч носителей) 30+, так что, в принципе, тут есть, где разгуляться.

Поэтому ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:

  • Помощь в поиске актуальных текстов на родном языке;

  • Запись голоса (как на русском, так и на втором родном языке);

  • Минимальные консультации по фонетике, ударениям и грамматике.

✉️ Контакты для связи, условия участия оговариваем в каждом случае отдельно.

Показать полностью 1
[моё] Искусственный интеллект Озвучка Чат-бот Синтез речи Инновации
1
5
AlphaGeek
AlphaGeek
7 месяцев назад

Обзор доступного инструмента для клонирования голоса в Telegram⁠⁠

Будучи человеком, который интересуется современными технологиями, я давно увлекаюсь различными инструментами для работы с голосом. Меня особенно привлекает возможность создания реалистичной речи с использованием искусственного интеллекта. В последнее время эта технология стремительно развивается: от роботизированных голосов мы перешли к созданию речи, которая практически неотличима от человеческой.

Недавно, исследуя возможности Telegram-ботов, я случайно наткнулся на интересный инструмент для клонирования голоса. Честно говоря, сначала отнесся скептически - мол, очередная игрушка. Но решил попробовать - всё же планирую в будущем заняться созданием видеоконтента, а качественное озвучивание всегда остаётся актуальной задачей.

Забегая вперед скажу - результаты меня удивили, но обо всём по порядку.

Обзор доступного инструмента для клонирования голоса в Telegram Технологии, Искусственный интеллект, Синтез речи, Озвучка, Нейронные сети, Тренд, Бот, Telegram, Длиннопост

Главные особенности

Бот предлагает два основных режима работы:

  • Синтез речи из текста с использованием готовых голосов

  • Клонирование голоса из аудиозаписи

Что касается качества синтеза речи - оно на достойном уровне. Особенно порадовало, что бот очень понятно взаимодействует с пользователем и даже имеет встроенный индикатор, который показывает, достаточно ли аудиоматериала для качественного клонирования голоса.

Личный опыт использования

Из личного опыта по клонированию: минимально достаточный объем аудио - около 2 минут, но для действительно качественного результата лучше использовать 3-4 минуты записи. Бот сам подсказывает с помощью специального индикатора, хватает ли материала для создания качественного клона голоса.

Обзор доступного инструмента для клонирования голоса в Telegram Технологии, Искусственный интеллект, Синтез речи, Озвучка, Нейронные сети, Тренд, Бот, Telegram, Длиннопост

К сожалению, технические ограничения Пикабу не позволяют прикрепить аудио непосредственно в пост, чтобы продемонстрировать результаты. Поэтому оставлю ссылку на аудио-результат гугл драйв, сможете прослушать, что у меня получилось :)

Заключение

Технология действительно впечатляет своими возможностями. Думаю, она будет особенно полезна для:

  • Создателей видеоконтента

  • Разработчиков обучающих материалов

  • Тех, кто занимается озвучкой текстов

Буду рад ответить на ваши вопросы в комментариях!

Показать полностью 2
[моё] Технологии Искусственный интеллект Синтез речи Озвучка Нейронные сети Тренд Бот Telegram Длиннопост
11
21
Shiller2017
Shiller2017
8 месяцев назад
Уголок ретрогеймера

Синтезатор голоса на Денди⁠⁠

В 90-х китайцы прокачали Денди до уровня, о котором мы и не мечтали — добавили синтезатор речи! Специальный чип устанавливали то в картриджи, то в сами приставки, и всё это для образовательных программ. Вот пример: обучающий картридж для компьютера Магистр от Gamestar с уроками английского и синтезированным голосом на русском языке!

Если кому интересно, пытаюсь делать обзоры на ретро-игры:
Канал ютуб
Группа ВК

[моё] Ретро-игры Олдскул Детство 90-х Ностальгия Синтез речи Dendy 90-е Олдфаги Вертикальное видео Видео
2
1
KOT.HECPET
10 месяцев назад

Голос из детства⁠⁠

Голос из детства Magic gooddy, Синтез речи, Переводчик, Ностальгия, Видео, Видео ВК

Привет, друзья. Решил поностальгировать. Может кому-то будет интересно услышать голос из прошлого. Просто напишите в чат трансляции, гусь долго молчал и жаждет общения!


https://vk.com/club227962370?z=video-227962370_456239041/videos-227962370

Показать полностью 1
[моё] Magic gooddy Синтез речи Переводчик Ностальгия Видео Видео ВК
8
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии