Tts: истории из жизни, советы, новости, юмор и картинки — Горячее

0 просмотренных постов скрыто

Zarudnev14

Инди игры

Генератор Русской Озвучки для Игр⁠⁠

16 дней назад

Процесс запущен.

Создал инструмент для автоматической локализации аудио в играх. Изначально делал для себя — для перевода небольших старых проектов.

Качество, конечно, до профессиональной озвучки не дотягивает: пока использую один голос и накладываю его на оригинальное аудио. Зато эмоции персонажей сохраняются, получается как в фильмах 90-х — та самая одноголосая озвучка на кассете, немного ностальгии.

Пару обработанных файлов тут (тут аудио не выкладываются)

🔹 Фильтрует смех и звуки — не озвучивает "ха-ха", "вуху", "смеется", "wow" и подобное. Смех остается оригинальным.

🔹 Исправляет ударения — ставит правильные ударения в русском тексте, особенно в игровых терминах (атака́, защи́та, урове́нь).

🔹 Работает в один клик — веб-интерфейс в браузере, отслеживание прогресса, статистика.

Технологии:

Whisper AI — распознавание английской речи
Silero TTS — синтез русской речи
LibreTranslate — перевод
Python — основа всего

Недостатки:

Доставать файлы из игры и запаковывать обратно всё так же сложно
Пропуски в фильтрации смеха еще есть (будем исправлять)

Скоро покажу полную демонстрацию. А пока — пример исходного и обработанного файла в приложении тут.

Показать полностью 1

razumist123

My Robot – будущее геймдева на пороге⁠⁠

3 месяца назад

Я листал ленту DTF и обнаружил в комментариях рекомендацию попробовать игру My Robot.

Сказано – сделано. Я скачал игру, архив весил меньше 800 мегабайт. Запустил, побегал немного, и через некоторое время игра предложила настроить AI-функции. Модели STT, LLM можно было выбрать, а вот TTS был доступен только подписчикам Patreon.

Причём возможности тонкой настройки порадовали: можно использовать как локальные большие языковые модели (koboldcpp backend), так и облачные через API.

Я сначала выбрал модель YandexGPT на 8 миллиардов параметров и полученный результат меня повеселил.

Затем мне хотелось подключить через ollama модель gpt-oss-120b, но оказалось, что через API можно подключать только локальные модели (либо это ограничения бесплатного тарифа), поэтому остановился на gemma3-1b. Особенно было забавно, когда прямо в диалогах появлялись теги <think>.

Сторонние STT-модели выбрать к сожалению, нельзя, доступны только англоязычные варианты моделей vosk и whisper. А жаль, голосом общаться намного удобнее.

Игра находится на ранней стадии разработки, поэтому багов здесь предостаточно. Я отобрал самые весёлые моменты.

В целом игра сырая, но потенциал геймплейных механик радует. Энтузиасты создают любительские моды популярных игр, которые дают им вторую жизнь. Взять ту же модификацию для Morrowind.

Уже сейчас можно создавать экспериментальные игры уровня Facade.

И если тогда это казалось подвигом и грамотным геймдизайном, то сегодняшние технологии открывают возможности для более грандиозных игровых миров.

Поэтому я с оптимизмом смотрю на подобные экспериментальные проекты. Когда-нибудь мы увидим шедевры, которые станут признанной классикой. А дорожку им протопчут энтузиасты, подобные разработчику My Robot.

Показать полностью 5 2

Инди игра Gamedev Unity Tts Нейронные сети Разработка Инди Видео Короткие видео Длиннопост

KindlyDemis

Программа или нейронка для озвучки текста: пытаюсь понять, что лучше⁠⁠

4 месяца назад

Сейчас только ленивый не ведет блог и не создает собственный контент. Однако рисовать - сложно, писать-читать - скучно. Поэтому талантливые и креативные, вроде меня, выбирают видосики. Готовясь покорять просторы ТикТока и ВК Видео, я озаботился созданием голосовых дорожек. Писать звук с телефона параллельно со съемкой видео удается не всегда. Птицы, собаки, машины, строительная техника, ветер все заглушают. И этот вариант не подходит, когда делаете смешные комментарии к другим роликам. В поисках подходящего инструмента я опробовал несколько программ для озвучки текста. Заодно потестировал модные нейросети.

Стартер пак: оборудование

Если соберетесь заниматься озвучкой, понадобится не только софт. Приложение не сможет магическим образом перенести ваш голос в mp3 файл. Чтобы волшебство заработало, нужно подключить микрофон, активировать запись и зачитать подготовленный текст.

Микрофон, встроенный в ноут, вебку или смартфон, не подойдет. За очень редкими исключениями у него плохое звучание. Кроме того, такие микрофоны всенаправленные. Они не сфокусированы на узкое пространство, а улавливают все вокруг. Из-за этого на запись попадают посторонний шум и лишнее эхо (если находитесь в просторной комнате). Для созвонов с коллегами, друзьями и родственниками это не критично, а интернет-аудиторию отпугивает.

Все сказанное справедливо и для гарнитур с наушниками-вкладышами. Бонусом - если не придерживать их микрофон, он будет тереться об одежду и тело, а на запись попадет мерзкий шуршащий звук

С более продвинутыми моделями, где микрофон крепится к подвижному держателю, все сложно. Мне не удалось найти критерии, которые позволили бы распознать хороший экземпляр. Характеристики интересные, цена высокая, а на деле звучание как у гарнитуры в комплекте к древнему телефону.

На мой взгляд, оптимальный вариант - USB-микрофон. Приемлемое качество обеспечивают даже относительно дешевые модели по цене 2,5-4 тыс. рублей. В комплекте часто идут стойка, ветрозащита (поролоновая насадка) и поп-фильтр. Пока изучал отзывы и обзоры, к своему удивлению выяснил, что такими устройствами не брезгуют и профессиональные дикторы. Не звезды первой величины, но все же.

Если не хотите экономить с USB-микрофонами и искать компромиссы по качеству, то готовьтесь покупать:

Конденсаторный микрофон — может похвастаться отличной чувствительностью и охватом частот в широком диапазоне.
Аудиоинтерфейс — профессиональная звуковая карта, имеет качественные входы и продуманные системы шумоподавления.
Микшер — главным образом нужен как источник фантомного питания, если такового не окажется в аудиоинтерфейсе. Без отдельного питания конденсаторные микрофоны не работают.

Также не обойтись без подходящего места, где не будет слышно уличного шума, соседа с перфоратором и вечноголодной кошки.
Если не хотите ничего покупать, не можете укрыться от шумной суеты вокруг, сомневаетесь насчет собственной дикции, есть альтернативный вариант. С него и начну разбор программ для создания озвучки.

Начал с простого: онлайн TTS-сервисы

TTS - сокращение от “Text-to-Speech”. Означает преобразование текста в устную речь. Вы печатаете текстовые сообщения - алгоритм зачитывает их.

Синтезаторы речи существуют давно. Долгое время их звучание было крайне своеобразным. Для игрушек, прикольных эффектов для музыки и фильмов, чтения вслух объявлений и надписей для слепых и слабовидящих подходило, для более глобального использования - нет.

Машинное обучение изменило ситуацию. Хорошая нейросеть весьма точно имитирует человеческую речь и способна делать это в реальном времени. Если вам звонят с неизвестного номера, собеседник странновато себя ведет и пытается что-то впарить, то это наверняка искусственный интеллект.

Авторы видосов давно додумались “нанимать” нейронку. Они используют программы для озвучки текста онлайн, которые доступны из браузера на любом устройстве. Этот софт очень похож друг на друга. Пользователь отправляет текстовый файл или вставляет сообщение из буфера обмена. Генератор голоса сразу зачитывает их или выдает аудиодорожку. Какие-то сайты бесплатные. У других - тарификация по символам. Некоторое количество знаков предоставляется в качестве бонуса. Остальное - приобретается пакетами или подпиской.

Вот популярные варианты, которые я нашел:

Google Text-to-Speech. Для коммерческого использования и доступа ко всем функциям нужна подписка, которую из России не оформить. На сайте есть бесплатный генератор, который зачитывает короткие фразы. Пользователям доступны выбор языка, настройки скорости и высоты тона. Для русского предусмотрено 8 голосовых движков. Женские звучат довольно естественно, а в мужских заметны металлические призвуки.
Яндекс SpeechKit. Брат-близнец сервиса от Google. Подписку оформить можно, но если вы не крупная компания, это вам вряд ли нужно. Тестовая версия доступна простым смертным. Они могут отправлять сообщения до 500 знаков, выбирать язык и регулировать скорость. Русскоговорящих движков 17. У них есть настройки интонации, например, нейтральная, шепот, строгая, радостная, но список доступных вариантов каждый раз разный. Можно вручную обозначать ударения (нужно поставить “+” перед гласной) и паузы (за это отвечает “-”). ИИ зачитает сообщение или сгенерирует ogg-файл с озвучкой, а чтобы жизнь медом не казалась, добавит в конце “текст озвучен Яндекс SpeechKit” (ну не вотермарк же лепить на аудио?).
Реалистичную речь выдают несколько женских пресетов. Разница между интонациями, на мой взгляд, едва заметна. Остальные движки явно говорят голосом робота. Если повозиться с настройками сервиса, можно немного сгладить артефакты. Или получится убрать их в стороннем приложении для озвучки видео на ПК.
ElevenLabs. Позволяет пользователям бесплатно генерировать 10 минут аудио. За остальное придется платить - от $5 каждый месяц. Есть функция клонирования: загружаете готовые аудиофайлы в качестве образцов, ИИ их анализирует и начинает разговаривать с тем же тембром. Интерфейс на английском языке, но разобраться в иностранных словах несложно.
Можно вручную обозначать эмоции (прописываются по-английски в квадратных скобках) и создавать диалоги - “персонажи” по очереди будут зачитывать свои реплики. Нейронка воспроизводит все на сайте или выдает mp3-файл. Если б не проблемы с доступом и оплатой из России, я бы назвал сервис идеальным решением для чтения электронных книг. Вполне реально добиться естественного звучания. Для видеококонтента маловато различных акцентов.
TTSMP3. Браузерное приложение для озвучки персонажей. Для обычной технологии синтезасервис предлагает по одному мужскому и женскому пресету с лимитом 3 тыс. символов. Настройки высоты и скорости произношения указываются специальными командами прямо в тексте. У нейронки 9 голосов, но по-русски говорит с акцентом. Ограничения - 1 тыс. знаков в день. Дополнительно предлагается платная версия. За $5 на сутки можно получить 250 тыс. символов или за $10 - столько же, но на месяц. Результат сразу зачитывается или сохраняется в mp3. Общее качество - посредственное. Явный плюс только в бесплатной пробной версии, для которой не нужно регистрироваться.

Подводя итог: потенциал конвертеров текста огромен. В будущем технология наверняка потеснит актеров, дикторов и возможно даже вокалистов. Сейчас - подходит только для личного пользования (генерации аудиокниг, например), озвучивания видео с рекламой, низкобюджетных презентаций и намеренной стилизации речи ради комического эффекта. Для серьезных задач ее задействовать не стоит. Зритель распознает нейронку, а дальше - выключит ролик или будет воспринимать его как мемное видео.

Продолжил сложным: программы для домашней и не только записи звука

После распознавания текстов ИИ вернемся к тому, с чего начали, т.е. к записи через микрофон. В этом случае понадобится кое-какое оборудование (о нем см. выше), более-менее приятный голос, умение говорить им внятно, последовательно, без слов-паразитов и, крайне желательно, без матюков. А еще потребуется специальное приложение. Я в тонкости студийной работы не посвящен, поэтому искал что попроще - опробовал несколько софтин из вот этой подборки программ для звукозаписи.

Audacity

Интуитивно понятный интерфейс: спорно
Пробный период: навсегда
Постобработка: полно
Бесплатный аудиоредактор, выпущенный для разных платформ. Поддерживает работу с несколькими дорожками, что позволяет использовать как программу для озвучки видео разными голосами. Можно закинуть каждого персонажа на свой трек и обрабатывать индивидуально. Навигация по проекту и нарезка реализованы понятно. Чтобы нормально пользоваться другими инструментами, нужны специальные знания. Расставлять параметры наугад не имеет смысла.

Оценка: 5 впечатлений из 5, или 2 чайника из 5 звукоинженеров

Аудиомастер

Интуитивно понятный интерфейс: да
Пробный период: 5 дней
Постобработка: в наличии

Простой редактор, в котором нет ничего лишнего. У него удобный интерфейс, жмем красную кнопку - включаем запись. Ею же - останавливаем. Легко вырезаем ненужное. Эффекты перечислены слева. Знания элементарной теории не помешают, но готовые шаблоны выручают неофитов. Сохраняет в несколько форматов аудио. В их числе все основные - ogg, wav, mp3.

Оценка: 5 нубов из 5

Wavepad

Интуитивно понятный интерфейс: нет
Пробный период: для некоммерческих задач используйте сколько хотите
Постобработка: много и еще больше

Выглядит крайне наворочено. Включать запись, нарезать контент несложно. Со всем остальным нубам лучше не соваться. При использовании в качестве приложения для озвучки фильмов пригодится аудиобиблиотека. В ней огромное количество файлов. Есть звуки выстрелов, шум толпы и леса, телефонные гудки и много другого.

Оценка: 5 звукорежиссеров из 5 студий, или 1 новичок из 5 профессионалов

Ocenaudio

Интуитивно понятный интерфейс: да, если знаете, что делать
Пробный период: навсегда
Постобработка: имеется

Редактор-противоречие. Выглядит простенько и приятненько, но когда начинаешь открывать эффекты, появляются вопросы: что тут крутить-вертеть? При экспорте недоумение усиливается. К форматам wav, flac, ogg претензий нет. А mp4 сбивает с толку. Видео приложение не отображает. Если импортировать ролик, просто извлечет аудиодорожку. При сохранении в тот самый mp4 получаем m4a. Формально - все по-честному (m4a - часть стандарта mp4), но людей путает.

Оценка: 3 начинающих автора из 5 ветеранов индустрии

Wavosaur

Интуитивно понятный интерфейс: нет
Пробный период: навсегда
Постобработка: почти нет

Не вызывает ничего, кроме удивления. Скажу сразу: как программу для записи озвучки не рекомендую. Она кажется крайне устаревшей. Когда активировал непосредственно запись, решил, что редактор заглючили или повис. На экране, на первый взгляд, не происходит ничего. Только если присмотреться, можно заметить, что таймер меняется и в заголовке отображается, сколько времени прошло с начала процесса. Сохраняет только в wav или mp3, но обычного этого достаточно.

Оценка: 1 стегозавр из 5 диплодоков

Человек vs нейронка: оцениваю результаты

Я опробовал все нейронки и редакторы, о которых написал выше. Когда эмоции поутихли, могу сказать, что у каждого из вариантов есть уникальные достоинства и фундаментальные недостатки. Для наглядности решил сравнить программы для озвучки на ПК с веб-сервисами с ИИ по нескольким критериям.

Критерий - Победитель

Затраченное время - Нейросеть

Интонационная ритмика - Человек

Способность передавать эмоции - Человек

Отсутствие “металлического” оттенка - Человек

Склонение числительных - Человек

Возможность дублей. - Человек

Персонализация - Человек

Авторский стиль - Человек

Имидж проекта - Человек

ИИ - чемпион скорости. Человек последовательно произносит все слова, вставляет вскрики-вздохи и другие эмоции. А еще устает, запинается, делает оговорки, бывает в нерабочем настроении, может заболеть ангиной или насморком, всю ночь горланить в караоке и сорвать голос на много дней. И не забываем, что у людей скорость чтения индивидуальная. У инструментов преобразования с нейросетью на создание аудиофайлов уходит несколько секунд или минут, когда информации много.

Если не брать в расчет случаи, когда у человека отвратительная дикция, специфический тембр, полное отсутствие харизмы и минимальных актерских способностей, представители нашего вида лучше справляются с речью. Мы можем обыгрывать эмоции. Если и допускаем речевые ошибки, то все равно звучим как живые люди.

У голоса ИИ, если прислушаться, если специфический призвук. Машина часто делает неестественные паузы и путается в ударениях. Причем допускает свои собственные, крайне характерные ошибки. Значит, зритель или слушатель быстро определит, кто на самом деле стоял перед микрофоном.

За исключением случаев, когда авторы явно делают нечто стебное, машинная озвучка вызывает негатив. Аудитория считает, что создатели контента ленятся и экономят на спичках, особенно если это достаточно крупная фирма.

И победителем стал: мой вывод

В обозримом будущем у “дикторов”, подобных мне, не будет никаких шансов в конкуренции с машиной. Однако контент хочется делать здесь и сейчас. Поэтому я немного потратился на USB-микрофон и вооружился редактором. Пока остановился на Аудиомастере. По мере того, как появятся знания и опыт, его может заменить что-то более продвинутое.

Нейросети хочется приспособить под приложение для озвучки книг. Останавливает монетизация сервисов. У бесплатных синтезаторов жесткие ограничения. Не имеет смысла делить романы из сотен страниц на отрывки по несколько тысяч знаков, а потом склеивать по частям. Платные подписки такие, что дешевле нанимать чтеца и водить его за собой во время прогулок.

Если знаете сервисы лучше и дешевле, буду рад совету. Также очень приветствуются гайды по обработке звука и улучшению качества записи.

Показать полностью

Озвучка Программа Tts Нейронные сети Искусственный интеллект Русская озвучка Программное обеспечение Текст Длиннопост

user4740118

Программы для локального озвучивания текстов (TTS)⁠⁠

5 месяцев назад

Следующие программы, о которых я сейчас расскажу, полностью бесплатные.

Вот вам приятнее послушать, например, какую-нибудь статью, а не читать её. Или вы просто хотите озвучить для каких-нибудь других целей свой текст. Обычно все онлайн-сайты для озвучивания текстов имеют ограничения по количеству символов, которые доступны в бесплатной версии, но у следующих программ такой проблемы нет.

TTS (Text-to-Speech) — это технология синтеза речи, которая преобразует печатный текст в звучащую устную речь. Проще говоря, TTS позволяет компьютеру или устройству «прочитать» любой текст вслух, имитируя человеческий голос.

Первой программой, которую мы рассмотрим, будет "Балаболка" (https://www.cross-plus-a.com/ru/balabolka.html).

Когда вы запустите "Балаболку", вас встретит интуитивно понятный интерфейс:

Вы печатаете/вставляете текст и нажимаете зелёную кнопку "Плей". Вроде бы всё, НО программа использует только установленные у вас на компьютере модели голосов, а их качество, мягко говоря, говно (и ваши уши явно не этого ждут).

Для того чтобы это исправить, можно скачать из интернета сторонние голоса, например эти:

https://rhvoice.ru/languages/

Только очень важно вам проверять на вирусы модели, которые вы устанавливаете, так как все эти модели устанавливаются как exe. Вот только не надо верить во все эти сказки про таблетки или что-то ещё. Антивирус создан, чтобы искать вирусы, и если он их находит, то не надо игнорировать это.

Ну вот вы установили другие голосовые модели, но всё равно качество хоть стало лучше, но всё ещё не супер.

Вот теперь мы переходим к следующей программе Demagog (https://aloys.narod.ru/sof/1/demagog.htm#18).

Через неё можно озвучивать используя установленные голосовые модели, но нас больше всего интересует Silero.

Silero это высококачественные TTS голоса.

Скачивает эту версию программы:

Супер. Теперь осталось понять как использовать эти голоса Silero.

Запускаем программу и выбираем любой раздел для написания текста. Пишем текст.

После того как написали текст, нажимаем на символ интеграла (выполнить скрипт):

Далее выбираем "Из файла":

Затем выбираем "Silero":

Ну а теперь выбираем "Text to Speech":

Вот мы стоим сейчас перед выбором голосов, который разбит на разделы:

Вы выберите нужный вам язык и голос, но что же это за "Словари"? Всё очень просто. Чтобы текст был озвучен хорошо, его нужно подготовить к прочтению. Каждый словарь изменит текст, соответствуя своему названию. Лучше всего использовать словарь с цифрами. Так как модели голосов (как бы это ни было смешно) не могут прочитать именно цифры, если они как символ, ну там 1, 2, 3 и так далее. Поэтому цифры прописывают словами: "1" → "один" и так далее.

Далее в последний раз нажимаем на "Ок" и ждём, пока программа всё озвучит и выдаст сообщение об окончании:

Теперь идём в папку "temp", куда по умолчанию программа сохраняет все результаты:

Всё! Теперь у вас есть две программы для озвучивания текстов.

Показать полностью 9

[моё] Искусственный интеллект Нейронные сети Озвучка Русская озвучка Tts Бесплатно Без ограничений Программа Программное обеспечение Длиннопост

Вопрос из ленты «Эксперты»

judgesplay

TTS Балаболка и поиск аналога для смартфонов⁠⁠

11 месяцев назад

Я думаю многие попробовавшие Балаболку согласятся что это лучшая программа для прослушивания книг и вообще работы с ними.
Преимущество которые лично я вижу для себя:

1) Простой и ясный дизайн, все интуитивно понятно и открывает многие форматы без проблем.

2) Нету ограничений файла для открытия по символам.

Бывало я открывал книгу и она делилась на 15 частей по 11 часов...

3) Возможность авто разделения книги по кол-ву символов. Для меня это значение в 700.000

Если поставить больше, то файлы могут быть больше 12 часов, после чего они не работают, а так это от 8 до 11 часов в зависимости от текста.

4) Пожалуй самое важно для меня - Возможность преобразования текста в аудио файл. Не просто в речь что бы прослушать за компьютером, а именно в ауди файл, который я уже могу слушать где угодно. Комбинируя с проигрывателем AIP в котором есть система закладок, я могу переключаться с 1 произведения на другое в любое время и обратно, зная что не потеряюсь.

Использую синтезатор речи INOVA 2 Maxim OEM с 2017 года и лучше пока не нашел.
Перепробовал от гугла, яндекса и др., но мне не понравилось.

Компьютер собирал под игры в 2017, но понял что не такой уж я и игроман, в 2024 вообще перестал играть, только смотрю интересные нарезки на ютубе. Появилась мысль продать компьютер который просто преобразует книги в аудио и купить нормальный смартфон.

НО! Я так понимаю что нету настолько же качественных приложений где были бы все те + что вы прочитали выше. Я допускаю разовую оплату за качественное приложение или недорогую подписку. Может кто подскажет что есть?

Показать полностью

Android Приложение Рекомендации Tts Вопрос Спроси Пикабу Текст

Hostweex

О настольном Warhammer 40000 и компьютерах⁠⁠

1 год назад

Добрый день, Товарищи пикабушники!

В общем сидели мы, маялись бездельем и задались вопросом в нашей маленькой конфе дискорда найти пополнение, свежую кровь, так сказать. Если ты прожжённый вахолюб и уже знаешь что такое ваха и с чем её едят, то смотри вниз поста. Далее идёт информация для новичков:

Кратко о том что такое этот наш молоток войны 40000.

Вселенная Warhammer 40000 это мрачный мир далёкого будущего, в котором есть место только войне. Темное будущее, в котором нет места сожалению, состраданию и милосердию. Каждая фракция преследует свои интересы и старается захватить власть в галактике. В общем вселенная вархаммера это мир где нет добрых и пушистых пони, кушающих радугу и какающих бабочек.

Warhammer 40000 это тактико-стратегическая настольная игра в сеттинге тёмного фэнтези, где вы руководите группами отрядов и отдельных моделей в составе армии, выполняя миссии и сражаясь с оппонентом за стратегически важные точки или реликвии древности.

В общем если тебя, будущий вахолюб, заинтересовал данный спич, то твои дальнейшие действия таковы:

1) Необходимо купить в стиме Tabletop Simulator

2) В мастерской подключить пакет армий для Warhammer 40000

3) Подключиться к нашему дискорду, где мы тебя обучим правилам игры.

Информация о нас для вас:

Помимо стандартных игр, режим PvP, мы предлагаем вам красочные битвы (крестовые походы) с различными режимами PvE/mPvP. Также временами наши крусейды включают в себя интересный лор и глобальную карту и свод правил как на ней играть. У нас дружная компания из нескольких человек, играем мы в удовольствие и без занудства ("Потнорукие" не приветствуются). Местами упрощены правила для понимания их игроками , а так же для уменьшения продолжительности игры.

Для связи пишите тут или в дискорд @gunter987/@hostweex

Показать полностью

Warhammer Warhammer 40k Tts Tabletop Simulator Wargame Tabletop Wh miniatures Текст

Neurosonya

Создание синтезированного голоса нейросетью. Обзор и сравнение сервисов для озвучки NaturalReader, Еlevenlabs и Resemble⁠⁠

Серия Полезность

2 года назад

Искусственный интеллект для озвучки текста позволяет создавать подкасты, озвучивать героев игр и фильмов, создавать дубляж и редактировать аудиофайлы. Если вы по какой-то причине не хотите сами озвучивать видео, эти сервисы очень выручат. С воссозданным голосом можно озвучить текст, выбрать язык, на котором он будет воспроизведён, подобрать эмоции для голоса и скорость воспроизведения отдельных слов и другие параметры. Также синтезированный нейросетью голос можно привязать к телефонии для ответов на звонки клиентов или другим облачным сервисам по API.

Сервисы, которые я рассмотрела могут спокойно озвучивать книги - можно настроить озвучку, неотличимую от человеческой. А Еlevenlabs и Resemble могут клонировать голос знаменитости или ваш голос, так что можно сделать озвучку вашим голосом без вашего участия, что очень удобно. Но обо всем по порядку.

NaturalReader

NaturalReader

Из русской озвучки есть только Максим и Татьяна, скачать в mp3 можно только по подписке Plus за 20 $ в месяц. Как настроить ударение, я так и не поняла

Крутой инструмент для тех, у кого англоязычный контент. Голоса Plus обеспечивают плавное и естественное звучание текста в речь, которое соответствует шаблонам и интонациям человеческого голоса. Тогда можно подобрать даже интонации от веселого тона повествования до тревожного, правда не в русской озвучке. Отлично подойдет для озвучки книг.

подходит больше для английской озвучки, для русского языка подписка Plus не целесообразна

Еlevenlabs

Еlevenlabs

Очень крутой инструмент! Но опять-таки нет русского языка. Скачивать голос можно бесплатно до 10 000 знаков в месяц.

Есть расширенные настройки - можно выбрать возраст голоса, акцент и степень интенсивности акцента.

Так же есть библиотека голосов, сгенерированных другими пользователями. Их можно использовать и скачивать. Попадаются и голоса знаменитостей вроде Тома Хидлстона.

Но и это еще не главное! За 5 $/мес можно создать 10 голосов - достаточно просто загрузить голос в аудиоформате (более 1 минуты) без посторонних шумов! И можно сгенерировать озвучку голосом знакомого или знаменитости

Но и это еще не все! В июле открывается доступ в Voice Cloning - где можно создать идентичную ИИ-версию вашего голоса.

крутой профессиональный инструмент

доступная цена

хорошие бесплатные возможности

маркетплейс с голосами

нет русского языка

Одним из возможных применений ElevenLabs является создание синтезированных голосовых помощников для различных устройств и приложений. Например, вы можете использовать эту технологию для создания голосового помощника для своего мобильного приложения или устройства умного дома.

Также ElevenLabs может быть полезна в музыкальной индустрии, например, для создания синтезированных голосовых эффектов или имитации голосов знаменитых певцов или актеров.

В целом, ElevenLabs представляет собой мощный инструмент для создания реалистичных голосовых имитаций на основе коротких отрезков аудио.

Resemble

Resemble

Бесплатно дается 300 секунд.

Функция Clone my voice на бесплатном пробном периоде

С Resemble маркетологи, контент-менеджеры, специалисты по рекламе и SMM могут создавать аудиролики, озвученные нейросетью, но звучащие как люди.

Нейросеть поддерживает 62 языка в том числе и русский, но в платной версии. Для создания шаблона персонажа озвучки нужно загрузить образец голоса или прочитать отрывок текста, если хотите использовать свой голос. Нейросеть проанализирует образец и воссоздаст синтезированный голос, похожий на оригинальный.

управление эмоциями при создании записи

перевод голоса на 62 доступных языка

маркетплейс с голосами

есть русский язык в платной версии

в пробном периоде можно бесплатно клонировать свой голос

цена 0,006 $ за секунду

Предварительные итоги:

Я намеренно не включила в итоги NaturalReader - он дорогой и все функции есть в Resemble и Еlevenlabs. Их и сравним.

Сравнение Resemble и Еlevenlabs

У обоих сервисов есть маркетплейсы, где можно скачать уже готовые голоса и бесплатно их использовать. Оба профессиональные инструменты и умеют клонировать голоса. В клонировании голосов лучшим считается Еlevenlabs, но в Resemble можно клонировать свой голос бесплатно, а в Еlevenlabs функция Voice Cloning будет доступна в июле платно. В Resemble в платной версии есть русский язык. Кроме того, в Resemble можно бесплатно поменять интонацию в тексте. А в Еlevenlabs больше выбора акцентов голосов, зато в Resemble есть озвучка шепотом). Кроме того, в Resemble есть возможность локализации языка - можно выбрать голос на одном языке и этот же голос перевести на другой язык.

Итог:

Одним словом, в Resemble больше бесплатных возможностей для старта, а Еlevenlabs лучше клонирует голоса знаменитостей и более доступен по цене.

Если вам хватит функционала попроще, для озвучки вполне подойдет Cybervoice за 100 рублей в месяц, о нем здесь или сервис Speechki, как им бесплатно озвучить я рассказывала здесь

Хотите узнавать первыми о полезных сервисах на ии для работы, учебы и упрощения жизни? Подпишитесь на мой тг НейроProfit , там я рассказываю, как зарабатывать с помощью нейросетей и использовать ии-сервисы для бизнеса 🤗

Показать полностью

[моё] Искусственный интеллект Полезное Нейронные сети Озвучка Голос Сервис Технологии Tts Text-to-speech Обзор Сравнение Будущее Видео YouTube Длиннопост

MindSimulation

Лига Разработчиков Видеоигр

Новые возможности для синтеза речи: мы запустили Телеграм бота и добавляем игровые голоса⁠⁠

2 года назад

Привет всем! Меня зовут Леонид, я являюсь СЕО Mind Simulation – лаборатории, ведущей исследования и разработки в направлении Общего Искусственного Интеллекта. Сегодня я хочу поделиться новостью о запуске бота Telegram с синтезом речи для нашей платформы SteosVoice.

Ранее я уже писал о том, как мы умеем переносить голоса между языками на примере G-man`а из Half-Life: Alyx и Святого Габена.

Бот доступен здесь и с его помощью вы теперь можете работать в привычной среде. Этот бот позволяет легко и просто создавать аудио файлы на английском и русском языках, используя мощную технологию синтеза речи нашей платформы. Но фишек больше, чем просто синтез:

5000 символов бесплатно каждый день: бот будет являться первой точкой входа в наш сервис, которая позволит оценить качество синтезирования, поработать с разными голосами и пользоваться сервисом бесплатно, если у вас небольшие потребности;
удобный выбор голоса через Telegram Web App: голоса структурированы по категориям, есть сортировка, можно сразу прослушать пример звучания голоса;
мультиязычные голоса: не столько фишка бота, сколько фишка нашей технологии, о которой я рассказывал здесь (русские голоса говорят по-английски и наоборот);
создание гифок со звуком: вы можете отправлять боту гифки и накладывать на них ваши реплики (если гифка вертикальная или квадратная, то бот сделает из неё кружок, если горизонтальная – оставит как есть);
привязка бота к платформе по токену: если вы приобрели платный тариф на платформе, но вам удобно пользоваться ботом, то вы можете подключить его к своему аккаунту и бот будет расходовать основной баланс платформы (инструкция по привязке находится в самом боте);
настройка ударений через «+»: просто поставьте + перед ударной гласной и ударение поменяется;
голоса из игр: мы решили начать добавлять на платформу голоса любимых всеми персонажей видеоигр и будем наращивать темпы;
покупка дополнительных символов сразу в боте: если не хочется регистрироваться на платформе, но нужен больший объём;
новые фичи на подходе: бот будет первым получать экспериментальные обновления перед их внедрением в саму платформу.

Недавно мы запустили интересный колаб вместе с Gabe Follower в телеграме. Мы открыли его голос для пользователей. Креатив не заставил себя долго ждать 😊

Вот ролик, сценарий которого написал chatGPT, а озвучен он нашим синтезом:

Также оставлю ссылку на видео, полностью созданное с помощью нескольких нейронных сетей, которое было озвучено нашей версией Джина из Лиги Легенд: https://t.me/DeepFaker/4381

Бот работает неполные 2 недели, а мы уже выросли до 8000 пользователей у бота и 4000 подписчиков в нашем телеграм канале. Присоединяйтесь, будем рады, если наш сервис будет для вас полезен😊

Также мы запустили мини платформу, где вы можете нам помочь в подготовке данных для создания голосов.

Велком, вы поможете ускорить процесс! Новые игры так же будут добавляться.

P.S. Также в ближайших планах стоит запуск публичного API для интеграции с вашими проектами.

В общем (и целом) приглашаю вас потестить и обсудить в комментариях!

Показать полностью 1 1

Искусственный интеллект Видеоигра Разработка Синтез речи Tts Text-to-speech Видео YouTube Длиннопост

Посты не найдены

1 2 3

Стартер пак: оборудование

Начал с простого: онлайн TTS-сервисы

Продолжил сложным: программы для домашней и не только записи звука

Audacity

Аудиомастер

Wavepad

Ocenaudio

Wavosaur

Человек vs нейронка: оцениваю результаты

И победителем стал: мой вывод

NaturalReader

Еlevenlabs

Resemble

Предварительные итоги:

Сравнение Resemble и Еlevenlabs

Итог:

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги