Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр  Что обсуждали люди в 2024 году? Самое время вспомнить — через виммельбух Пикабу «Спрятано в 2024»! Печенька облегчит поиск предметов.

Спрятано в 2024

Поиск предметов, Казуальные

Играть

Топ прошлой недели

  • AlexKud AlexKud 38 постов
  • Animalrescueed Animalrescueed 36 постов
  • Oskanov Oskanov 7 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
0 просмотренных постов скрыто
1
KindlyDemis
KindlyDemis
9 дней назад

Программа или нейронка для озвучки текста: пытаюсь понять, что лучше⁠⁠

Сейчас только ленивый не ведет блог и не создает собственный контент. Однако рисовать - сложно, писать-читать - скучно. Поэтому талантливые и креативные, вроде меня, выбирают видосики. Готовясь покорять просторы ТикТока и ВК Видео, я озаботился созданием голосовых дорожек. Писать звук с телефона параллельно со съемкой видео удается не всегда. Птицы, собаки, машины, строительная техника, ветер все заглушают. И этот вариант не подходит, когда делаете смешные комментарии к другим роликам. В поисках подходящего инструмента я опробовал несколько программ для озвучки текста. Заодно потестировал модные нейросети.

Стартер пак: оборудование

Если соберетесь заниматься озвучкой, понадобится не только софт. Приложение не сможет магическим образом перенести ваш голос в mp3 файл. Чтобы волшебство заработало, нужно подключить микрофон, активировать запись и зачитать подготовленный текст.

Микрофон, встроенный в ноут, вебку или смартфон, не подойдет. За очень редкими исключениями у него плохое звучание. Кроме того, такие микрофоны всенаправленные. Они не сфокусированы на узкое пространство, а улавливают все вокруг. Из-за этого на запись попадают посторонний шум и лишнее эхо (если находитесь в просторной комнате). Для созвонов с коллегами, друзьями и родственниками это не критично, а интернет-аудиторию отпугивает.

Все сказанное справедливо и для гарнитур с наушниками-вкладышами. Бонусом - если не придерживать их микрофон, он будет тереться об одежду и тело, а на запись попадет мерзкий шуршащий звук

С более продвинутыми моделями, где микрофон крепится к подвижному держателю, все сложно. Мне не удалось найти критерии, которые позволили бы распознать хороший экземпляр. Характеристики интересные, цена высокая, а на деле звучание как у гарнитуры в комплекте к древнему телефону.

На мой взгляд, оптимальный вариант - USB-микрофон. Приемлемое качество обеспечивают даже относительно дешевые модели по цене 2,5-4 тыс. рублей. В комплекте часто идут стойка, ветрозащита (поролоновая насадка) и поп-фильтр. Пока изучал отзывы и обзоры, к своему удивлению выяснил, что такими устройствами не брезгуют и профессиональные дикторы. Не звезды первой величины, но все же.

Если не хотите экономить с USB-микрофонами и искать компромиссы по качеству, то готовьтесь покупать:

  • Конденсаторный микрофон — может похвастаться отличной чувствительностью и охватом частот в широком диапазоне.

  • Аудиоинтерфейс — профессиональная звуковая карта, имеет качественные входы и продуманные системы шумоподавления.

  • Микшер — главным образом нужен как источник фантомного питания, если такового не окажется в аудиоинтерфейсе. Без отдельного питания конденсаторные микрофоны не работают.


    Также не обойтись без подходящего места, где не будет слышно уличного шума, соседа с перфоратором и вечноголодной кошки.

    Если не хотите ничего покупать, не можете укрыться от шумной суеты вокруг, сомневаетесь насчет собственной дикции, есть альтернативный вариант. С него и начну разбор программ для создания озвучки.

Начал с простого: онлайн TTS-сервисы

TTS - сокращение от “Text-to-Speech”. Означает преобразование текста в устную речь. Вы печатаете текстовые сообщения - алгоритм зачитывает их.

Синтезаторы речи существуют давно. Долгое время их звучание было крайне своеобразным. Для игрушек, прикольных эффектов для музыки и фильмов, чтения вслух объявлений и надписей для слепых и слабовидящих подходило, для более глобального использования - нет.

Машинное обучение изменило ситуацию. Хорошая нейросеть весьма точно имитирует человеческую речь и способна делать это в реальном времени. Если вам звонят с неизвестного номера, собеседник странновато себя ведет и пытается что-то впарить, то это наверняка искусственный интеллект.

Авторы видосов давно додумались “нанимать” нейронку. Они используют программы для озвучки текста онлайн, которые доступны из браузера на любом устройстве. Этот софт очень похож друг на друга. Пользователь отправляет текстовый файл или вставляет сообщение из буфера обмена. Генератор голоса сразу зачитывает их или выдает аудиодорожку. Какие-то сайты бесплатные. У других - тарификация по символам. Некоторое количество знаков предоставляется в качестве бонуса. Остальное - приобретается пакетами или подпиской.

Вот популярные варианты, которые я нашел:

  1. Google Text-to-Speech. Для коммерческого использования и доступа ко всем функциям нужна подписка, которую из России не оформить. На сайте есть бесплатный генератор, который зачитывает короткие фразы. Пользователям доступны выбор языка, настройки скорости и высоты тона. Для русского предусмотрено 8 голосовых движков. Женские звучат довольно естественно, а в мужских заметны металлические призвуки.

  2. Яндекс SpeechKit. Брат-близнец сервиса от Google. Подписку оформить можно, но если вы не крупная компания, это вам вряд ли нужно. Тестовая версия доступна простым смертным. Они могут отправлять сообщения до 500 знаков, выбирать язык и регулировать скорость. Русскоговорящих движков 17. У них есть настройки интонации, например, нейтральная, шепот, строгая, радостная, но список доступных вариантов каждый раз разный. Можно вручную обозначать ударения (нужно поставить “+” перед гласной) и паузы (за это отвечает “-”). ИИ зачитает сообщение или сгенерирует ogg-файл с озвучкой, а чтобы жизнь медом не казалась, добавит в конце “текст озвучен Яндекс SpeechKit” (ну не вотермарк же лепить на аудио?).

    Реалистичную речь выдают несколько женских пресетов. Разница между интонациями, на мой взгляд, едва заметна. Остальные движки явно говорят голосом робота. Если повозиться с настройками сервиса, можно немного сгладить артефакты. Или получится убрать их в стороннем приложении для озвучки видео на ПК.

  3. ElevenLabs. Позволяет пользователям бесплатно генерировать 10 минут аудио. За остальное придется платить - от $5 каждый месяц. Есть функция клонирования: загружаете готовые аудиофайлы в качестве образцов, ИИ их анализирует и начинает разговаривать с тем же тембром. Интерфейс на английском языке, но разобраться в иностранных словах несложно.

    Можно вручную обозначать эмоции (прописываются по-английски в квадратных скобках) и создавать диалоги - “персонажи” по очереди будут зачитывать свои реплики. Нейронка воспроизводит все на сайте или выдает mp3-файл. Если б не проблемы с доступом и оплатой из России, я бы назвал сервис идеальным решением для чтения электронных книг. Вполне реально добиться естественного звучания. Для видеококонтента маловато различных акцентов.

  4. TTSMP3. Браузерное приложение для озвучки персонажей. Для обычной технологии синтезасервис предлагает по одному мужскому и женскому пресету с лимитом 3 тыс. символов. Настройки высоты и скорости произношения указываются специальными командами прямо в тексте. У нейронки 9 голосов, но по-русски говорит с акцентом. Ограничения - 1 тыс. знаков в день. Дополнительно предлагается платная версия. За $5 на сутки можно получить 250 тыс. символов или за $10 - столько же, но на месяц.  Результат сразу зачитывается или сохраняется в mp3. Общее качество - посредственное. Явный плюс только в бесплатной пробной версии, для которой не нужно регистрироваться.

Подводя итог: потенциал конвертеров текста огромен. В будущем технология наверняка потеснит актеров, дикторов и возможно даже вокалистов. Сейчас - подходит только для личного пользования (генерации аудиокниг, например), озвучивания видео с рекламой, низкобюджетных презентаций и намеренной стилизации речи ради комического эффекта. Для серьезных задач ее задействовать не стоит. Зритель распознает нейронку, а дальше - выключит ролик или будет воспринимать его как мемное видео.

Продолжил сложным: программы для домашней и не только записи звука

После распознавания текстов ИИ вернемся к тому, с чего начали, т.е. к записи через микрофон. В этом случае понадобится кое-какое оборудование (о нем см. выше), более-менее приятный голос, умение говорить им внятно, последовательно, без слов-паразитов и, крайне желательно, без матюков. А еще потребуется специальное приложение. Я в тонкости студийной работы не посвящен, поэтому искал что попроще - опробовал несколько софтин из вот этой подборки программ для звукозаписи.

Audacity

  • Интуитивно понятный интерфейс: спорно

  • Пробный период: навсегда

  • Постобработка: полно

    Бесплатный аудиоредактор, выпущенный для разных платформ. Поддерживает работу с несколькими дорожками, что позволяет использовать как программу для озвучки видео разными голосами. Можно закинуть каждого персонажа на свой трек и обрабатывать индивидуально. Навигация по проекту и нарезка реализованы понятно. Чтобы нормально пользоваться другими инструментами, нужны специальные знания. Расставлять параметры наугад не имеет смысла.

Оценка: 5 впечатлений из 5, или 2 чайника из 5 звукоинженеров

Аудиомастер

  • Интуитивно понятный интерфейс: да

  • Пробный период: 5 дней

  • Постобработка: в наличии

Простой редактор, в котором нет ничего лишнего. У него удобный интерфейс, жмем красную кнопку - включаем запись. Ею же - останавливаем. Легко вырезаем ненужное. Эффекты перечислены слева. Знания элементарной теории не помешают, но готовые шаблоны выручают неофитов. Сохраняет в несколько форматов аудио. В их числе все основные - ogg, wav, mp3.

Оценка: 5 нубов из 5

Wavepad

  • Интуитивно понятный интерфейс: нет

  • Пробный период: для некоммерческих задач используйте сколько хотите

  • Постобработка: много и еще больше

Выглядит крайне наворочено. Включать запись, нарезать контент несложно. Со всем остальным нубам лучше не соваться. При использовании в качестве приложения для озвучки фильмов пригодится аудиобиблиотека. В ней огромное количество файлов. Есть звуки выстрелов, шум толпы и леса, телефонные гудки и много другого.

Оценка: 5 звукорежиссеров из 5 студий, или 1 новичок из 5 профессионалов

Ocenaudio

  • Интуитивно понятный интерфейс: да, если знаете, что делать

  • Пробный период: навсегда

  • Постобработка: имеется

Редактор-противоречие. Выглядит простенько и приятненько, но когда начинаешь открывать эффекты, появляются вопросы: что тут крутить-вертеть? При экспорте недоумение усиливается. К форматам wav, flac, ogg претензий нет. А mp4 сбивает с толку. Видео приложение не отображает. Если импортировать ролик, просто извлечет аудиодорожку. При сохранении в тот самый mp4 получаем m4a. Формально - все по-честному (m4a - часть стандарта mp4), но людей путает.

Оценка: 3 начинающих автора из 5 ветеранов индустрии

Wavosaur

  • Интуитивно понятный интерфейс: нет

  • Пробный период: навсегда

  • Постобработка: почти нет

Не вызывает ничего, кроме удивления. Скажу сразу: как программу для записи озвучки не рекомендую. Она кажется крайне устаревшей. Когда активировал непосредственно запись, решил, что редактор заглючили или повис. На экране, на первый взгляд, не происходит ничего. Только если присмотреться, можно заметить, что таймер меняется и в заголовке отображается, сколько времени прошло с начала процесса. Сохраняет только в wav или mp3, но обычного этого достаточно.

Оценка: 1 стегозавр из 5 диплодоков

Человек vs нейронка: оцениваю результаты

Я опробовал все нейронки и редакторы, о которых написал выше. Когда эмоции поутихли, могу сказать, что у каждого из вариантов есть уникальные достоинства и фундаментальные недостатки. Для наглядности решил сравнить программы для озвучки на ПК с веб-сервисами с ИИ по нескольким критериям.

Критерий - Победитель

Затраченное время - Нейросеть

Интонационная ритмика - Человек

Способность передавать эмоции - Человек

Отсутствие “металлического” оттенка - Человек

Склонение числительных - Человек

Возможность дублей. - Человек

Персонализация - Человек

Авторский стиль - Человек

Имидж проекта - Человек

ИИ - чемпион скорости. Человек последовательно произносит все слова, вставляет вскрики-вздохи и другие эмоции. А еще устает, запинается, делает оговорки, бывает в нерабочем настроении, может заболеть ангиной или насморком, всю ночь горланить в караоке и сорвать голос на много дней. И не забываем, что у людей скорость чтения индивидуальная. У инструментов преобразования с нейросетью на создание аудиофайлов уходит несколько секунд или минут, когда информации много.

Если не брать в расчет случаи, когда у человека отвратительная дикция, специфический тембр, полное отсутствие харизмы и минимальных актерских способностей, представители нашего вида лучше справляются с речью. Мы можем обыгрывать эмоции. Если и допускаем речевые ошибки, то все равно звучим как живые люди.

У голоса ИИ, если прислушаться, если специфический призвук. Машина часто делает неестественные паузы и путается в ударениях. Причем допускает свои собственные, крайне характерные ошибки. Значит, зритель или слушатель быстро определит, кто на самом деле стоял перед микрофоном.

За исключением случаев, когда авторы явно делают нечто стебное, машинная озвучка вызывает негатив. Аудитория считает, что создатели контента ленятся и экономят на спичках, особенно если это достаточно крупная фирма.

И победителем стал: мой вывод

В обозримом будущем у “дикторов”, подобных мне, не будет никаких шансов в конкуренции с машиной. Однако контент хочется делать здесь и сейчас. Поэтому я немного потратился на USB-микрофон и вооружился редактором. Пока остановился на Аудиомастере. По мере того, как появятся знания и опыт, его может заменить что-то более продвинутое.

Нейросети хочется приспособить под приложение для озвучки книг. Останавливает монетизация сервисов. У бесплатных синтезаторов жесткие ограничения. Не имеет смысла делить романы из сотен страниц на отрывки по несколько тысяч знаков, а потом склеивать по частям. Платные подписки такие, что дешевле нанимать чтеца и водить его за собой во время прогулок.

Если знаете сервисы лучше и дешевле, буду рад совету. Также очень приветствуются гайды по обработке звука и улучшению качества записи.

Показать полностью
Озвучка Программа Tts Нейронные сети Искусственный интеллект Русская озвучка Программное обеспечение Текст Длиннопост
0
3
user4740118
user4740118
1 месяц назад

Программы для локального озвучивания текстов (TTS)⁠⁠

Следующие программы, о которых я сейчас расскажу, полностью бесплатные.

Вот вам приятнее послушать, например, какую-нибудь статью, а не читать её. Или вы просто хотите озвучить для каких-нибудь других целей свой текст. Обычно все онлайн-сайты для озвучивания текстов имеют ограничения по количеству символов, которые доступны в бесплатной версии, но у следующих программ такой проблемы нет.

TTS (Text-to-Speech) — это технология синтеза речи, которая преобразует печатный текст в звучащую устную речь. Проще говоря, TTS позволяет компьютеру или устройству «прочитать» любой текст вслух, имитируя человеческий голос.

Первой программой, которую мы рассмотрим, будет "Балаболка" (https://www.cross-plus-a.com/ru/balabolka.html).

Когда вы запустите "Балаболку", вас встретит интуитивно понятный интерфейс:

Программы для локального озвучивания текстов (TTS) Искусственный интеллект, Нейронные сети, Озвучка, Русская озвучка, Tts, Бесплатно, Без ограничений, Программа, Программное обеспечение, Длиннопост

Вы печатаете/вставляете текст и нажимаете зелёную кнопку "Плей". Вроде бы всё, НО программа использует только установленные у вас на компьютере модели голосов, а их качество, мягко говоря, говно (и ваши уши явно не этого ждут).

Для того чтобы это исправить, можно скачать из интернета сторонние голоса, например эти:

https://rhvoice.ru/languages/

Только очень важно вам проверять на вирусы модели, которые вы устанавливаете, так как все эти модели устанавливаются как exe. Вот только не надо верить во все эти сказки про таблетки или что-то ещё. Антивирус создан, чтобы искать вирусы, и если он их находит, то не надо игнорировать это.

Ну вот вы установили другие голосовые модели, но всё равно качество хоть стало лучше, но всё ещё не супер.

Вот теперь мы переходим к следующей программе Demagog (https://aloys.narod.ru/sof/1/demagog.htm#18).

Через неё можно озвучивать используя установленные голосовые модели, но нас больше всего интересует Silero.

Silero это высококачественные TTS голоса.

Скачивает эту версию программы:

Программы для локального озвучивания текстов (TTS) Искусственный интеллект, Нейронные сети, Озвучка, Русская озвучка, Tts, Бесплатно, Без ограничений, Программа, Программное обеспечение, Длиннопост

Супер. Теперь осталось понять как использовать эти голоса Silero.

Запускаем программу и выбираем любой раздел для написания текста. Пишем текст.

После того как написали текст, нажимаем на символ интеграла (выполнить скрипт):

Программы для локального озвучивания текстов (TTS) Искусственный интеллект, Нейронные сети, Озвучка, Русская озвучка, Tts, Бесплатно, Без ограничений, Программа, Программное обеспечение, Длиннопост

Далее выбираем "Из файла":

Программы для локального озвучивания текстов (TTS) Искусственный интеллект, Нейронные сети, Озвучка, Русская озвучка, Tts, Бесплатно, Без ограничений, Программа, Программное обеспечение, Длиннопост

Затем выбираем "Silero":

Программы для локального озвучивания текстов (TTS) Искусственный интеллект, Нейронные сети, Озвучка, Русская озвучка, Tts, Бесплатно, Без ограничений, Программа, Программное обеспечение, Длиннопост

Ну а теперь выбираем "Text to Speech":

Программы для локального озвучивания текстов (TTS) Искусственный интеллект, Нейронные сети, Озвучка, Русская озвучка, Tts, Бесплатно, Без ограничений, Программа, Программное обеспечение, Длиннопост

Вот мы стоим сейчас перед выбором голосов, который разбит на разделы:

Программы для локального озвучивания текстов (TTS) Искусственный интеллект, Нейронные сети, Озвучка, Русская озвучка, Tts, Бесплатно, Без ограничений, Программа, Программное обеспечение, Длиннопост

Вы выберите нужный вам язык и голос, но что же это за "Словари"? Всё очень просто. Чтобы текст был озвучен хорошо, его нужно подготовить к прочтению. Каждый словарь изменит текст, соответствуя своему названию. Лучше всего использовать словарь с цифрами. Так как модели голосов (как бы это ни было смешно) не могут прочитать именно цифры, если они как символ, ну там 1, 2, 3 и так далее. Поэтому цифры прописывают словами: "1" → "один" и так далее.

Далее в последний раз нажимаем на "Ок" и ждём, пока программа всё озвучит и выдаст сообщение об окончании:

Программы для локального озвучивания текстов (TTS) Искусственный интеллект, Нейронные сети, Озвучка, Русская озвучка, Tts, Бесплатно, Без ограничений, Программа, Программное обеспечение, Длиннопост

Теперь идём в папку "temp", куда по умолчанию программа сохраняет все результаты:

Программы для локального озвучивания текстов (TTS) Искусственный интеллект, Нейронные сети, Озвучка, Русская озвучка, Tts, Бесплатно, Без ограничений, Программа, Программное обеспечение, Длиннопост

Всё! Теперь у вас есть две программы для озвучивания текстов.

Показать полностью 9
[моё] Искусственный интеллект Нейронные сети Озвучка Русская озвучка Tts Бесплатно Без ограничений Программа Программное обеспечение Длиннопост
5
0
Вопрос из ленты «Эксперты»
judgesplay
judgesplay
7 месяцев назад

TTS Балаболка и поиск аналога для смартфонов⁠⁠

Я думаю многие попробовавшие Балаболку согласятся что это лучшая программа для прослушивания книг и вообще работы с ними.
Преимущество которые лично я вижу для себя:

1) Простой и ясный дизайн, все интуитивно понятно и открывает многие форматы без проблем.

2) Нету ограничений файла для открытия по символам.

Бывало я открывал книгу и она делилась на 15 частей по 11 часов...

3) Возможность авто разделения книги по кол-ву символов. Для меня это значение в 700.000

Если поставить больше, то файлы могут быть больше 12 часов, после чего они не работают, а так это от 8 до 11 часов в зависимости от текста.

4) Пожалуй самое важно для меня - Возможность преобразования текста в аудио файл. Не просто в речь что бы прослушать за компьютером, а именно в ауди файл, который я уже могу слушать где угодно. Комбинируя с проигрывателем AIP в котором есть система закладок, я могу переключаться с 1 произведения на другое в любое время и обратно, зная что не потеряюсь.

Использую синтезатор речи INOVA 2 Maxim OEM с 2017 года и лучше пока не нашел.
Перепробовал от гугла, яндекса и др., но мне не понравилось.

Компьютер собирал под игры в 2017, но понял что не такой уж я и игроман, в 2024 вообще перестал играть, только смотрю интересные нарезки на ютубе. Появилась мысль продать компьютер который просто преобразует книги в аудио и купить нормальный смартфон.

НО! Я так понимаю что нету настолько же качественных приложений где были бы все те + что вы прочитали выше. Я допускаю разовую оплату за качественное приложение или недорогую подписку. Может кто подскажет что есть?

Android Приложение Рекомендации Tts Вопрос Спроси Пикабу Текст
2
11
Hostweex
Hostweex
1 год назад

О настольном Warhammer 40000 и компьютерах⁠⁠

Добрый день, Товарищи пикабушники!

В общем сидели мы, маялись бездельем и задались вопросом в нашей маленькой конфе дискорда найти пополнение, свежую кровь, так сказать. Если ты прожжённый вахолюб и уже знаешь что такое ваха и с чем её едят, то смотри вниз поста. Далее идёт информация для новичков:

Кратко о том что такое этот наш молоток войны 40000.

Вселенная Warhammer 40000 это мрачный мир далёкого будущего, в котором есть место только войне. Темное будущее, в котором нет места сожалению, состраданию и милосердию. Каждая фракция преследует свои интересы и старается захватить власть в галактике. В общем вселенная вархаммера это мир где нет добрых и пушистых пони, кушающих радугу и какающих бабочек.

Warhammer 40000 это тактико-стратегическая настольная игра в сеттинге тёмного фэнтези, где вы руководите группами отрядов и отдельных моделей в составе армии, выполняя миссии и сражаясь с оппонентом за стратегически важные точки или реликвии древности.

В общем если тебя, будущий вахолюб, заинтересовал данный спич, то твои дальнейшие действия таковы:

1) Необходимо купить в стиме Tabletop Simulator

2) В мастерской подключить пакет армий для Warhammer 40000

3) Подключиться к нашему дискорду, где мы тебя обучим правилам игры.

Информация о нас для вас:

Помимо стандартных игр, режим PvP, мы предлагаем вам красочные битвы (крестовые походы) с различными режимами PvE/mPvP. Также временами наши крусейды включают в себя интересный лор и глобальную карту и свод правил как на ней играть. У нас дружная компания из нескольких человек, играем мы в удовольствие и без занудства ("Потнорукие" не приветствуются). Местами упрощены правила для понимания их игроками , а так же для уменьшения продолжительности игры.

Для связи пишите тут или в дискорд @gunter987/@hostweex

Показать полностью
Warhammer Warhammer 40k Tts Tabletop Simulator Wargame Tabletop Wh miniatures Текст
0
Neurosonya
Neurosonya
2 года назад
Серия Полезность

Создание синтезированного голоса нейросетью. Обзор и сравнение сервисов для озвучки NaturalReader, Еlevenlabs и Resemble⁠⁠

Искусственный интеллект для озвучки текста позволяет создавать подкасты, озвучивать героев игр и фильмов, создавать дубляж и редактировать аудиофайлы. Если вы по какой-то причине не хотите сами озвучивать видео, эти сервисы очень выручат. С воссозданным голосом можно озвучить текст, выбрать язык, на котором он будет воспроизведён, подобрать эмоции для голоса и скорость воспроизведения отдельных слов и другие параметры. Также синтезированный нейросетью голос можно привязать к телефонии для ответов на звонки клиентов или другим облачным сервисам по API.

Сервисы, которые я рассмотрела могут спокойно озвучивать книги - можно настроить озвучку, неотличимую от человеческой. А Еlevenlabs и Resemble могут клонировать голос знаменитости или ваш голос, так что можно сделать озвучку вашим голосом без вашего участия, что очень удобно.  Но обо всем по порядку.

NaturalReader

NaturalReader

Из русской озвучки есть только Максим и Татьяна, скачать в  mp3 можно только по подписке Plus за 20 $ в месяц. Как настроить ударение, я так и не поняла

Крутой инструмент для тех, у кого англоязычный контент. Голоса Plus обеспечивают плавное и естественное звучание текста в речь, которое соответствует шаблонам и интонациям человеческого голоса. Тогда можно подобрать даже интонации от веселого тона повествования до тревожного, правда не в русской озвучке. Отлично подойдет для озвучки книг.

подходит больше для английской озвучки, для русского языка подписка Plus не целесообразна

Еlevenlabs

Еlevenlabs

Очень крутой инструмент! Но опять-таки нет русского языка. Скачивать голос можно бесплатно до 10 000 знаков в месяц.

Есть расширенные настройки - можно выбрать возраст голоса, акцент и степень интенсивности акцента.

Так же есть библиотека голосов, сгенерированных другими пользователями. Их можно использовать и скачивать. Попадаются и голоса знаменитостей вроде Тома Хидлстона.

Но и это еще не главное! За 5 $/мес можно создать 10 голосов - достаточно просто загрузить голос в аудиоформате (более 1 минуты) без посторонних шумов! И можно сгенерировать озвучку голосом знакомого или знаменитости  

Но и это еще не все! В июле открывается доступ в Voice Cloning - где можно создать идентичную ИИ-версию вашего голоса.

крутой профессиональный инструмент

доступная цена

хорошие бесплатные возможности

маркетплейс с голосами

нет русского языка

Одним из возможных применений ElevenLabs является создание синтезированных голосовых помощников для различных устройств и приложений. Например, вы можете использовать эту технологию для создания голосового помощника для своего мобильного приложения или устройства умного дома.

Также ElevenLabs может быть полезна в музыкальной индустрии, например, для создания синтезированных голосовых эффектов или имитации голосов знаменитых певцов или актеров.

В целом, ElevenLabs представляет собой мощный инструмент для создания реалистичных голосовых имитаций на основе коротких отрезков аудио.

Resemble

Resemble

Бесплатно дается 300 секунд.

Функция Clone my voice на бесплатном пробном периоде

С Resemble маркетологи, контент-менеджеры, специалисты по рекламе и SMM могут создавать аудиролики, озвученные нейросетью, но звучащие как люди.

Нейросеть поддерживает 62 языка в том числе и русский, но в платной версии. Для создания шаблона персонажа озвучки нужно загрузить образец голоса или прочитать отрывок текста, если хотите использовать свой голос. Нейросеть проанализирует образец и воссоздаст синтезированный голос, похожий на оригинальный.

управление эмоциями при создании записи

перевод голоса на 62 доступных языка

маркетплейс с голосами

есть русский язык в платной версии

в пробном периоде можно бесплатно клонировать свой голос

цена 0,006 $ за секунду

Предварительные итоги:

Я намеренно не включила в итоги NaturalReader - он дорогой и все функции есть в Resemble и Еlevenlabs. Их и сравним.

Сравнение Resemble и Еlevenlabs

У обоих сервисов есть маркетплейсы, где можно скачать уже готовые голоса и бесплатно их использовать. Оба профессиональные инструменты и умеют клонировать голоса. В клонировании голосов лучшим считается Еlevenlabs, но в Resemble можно клонировать свой голос бесплатно, а в Еlevenlabs функция Voice Cloning будет доступна в июле платно. В Resemble в платной версии есть русский язык. Кроме того, в Resemble можно бесплатно поменять интонацию в тексте. А в Еlevenlabs больше выбора акцентов голосов, зато в Resemble есть озвучка шепотом). Кроме того, в Resemble есть возможность локализации языка - можно выбрать голос на одном языке и этот же голос перевести на другой язык.

Итог:

Одним словом, в Resemble больше бесплатных возможностей для старта, а Еlevenlabs лучше клонирует голоса знаменитостей и более доступен по цене.

Если вам хватит функционала попроще, для озвучки вполне подойдет Cybervoice за 100 рублей в месяц, о нем здесь или сервис Speechki, как им бесплатно озвучить я рассказывала здесь

Хотите узнавать первыми о полезных сервисах на ии для работы, учебы и упрощения жизни? Подпишитесь на мой тг НейроProfit , там я рассказываю, как зарабатывать с помощью нейросетей и использовать ии-сервисы для бизнеса 🤗

Показать полностью
[моё] Искусственный интеллект Полезное Нейронные сети Озвучка Голос Сервис Технологии Tts Text-to-speech Обзор Сравнение Будущее Видео YouTube Длиннопост
0
31
MindSimulation
MindSimulation
2 года назад
Лига Разработчиков Видеоигр

Новые возможности для синтеза речи: мы запустили Телеграм бота и добавляем игровые голоса⁠⁠

Привет всем! Меня зовут Леонид, я являюсь СЕО Mind Simulation – лаборатории, ведущей исследования и разработки в направлении Общего Искусственного Интеллекта. Сегодня я хочу поделиться новостью о запуске бота Telegram с синтезом речи для нашей платформы SteosVoice.

Новые возможности для синтеза речи: мы запустили Телеграм бота и добавляем игровые голоса Искусственный интеллект, Видеоигра, Разработка, Синтез речи, Tts, Text-to-speech, Видео, YouTube, Длиннопост

Ранее я уже писал о том, как мы умеем переносить голоса между языками на примере G-man`а из Half-Life: Alyx и Святого Габена.

Бот доступен здесь и с его помощью вы теперь можете работать в привычной среде. Этот бот позволяет легко и просто создавать аудио файлы на английском и русском языках, используя мощную технологию синтеза речи нашей платформы. Но фишек больше, чем просто синтез:

  • 5000 символов бесплатно каждый день: бот будет являться первой точкой входа в наш сервис, которая позволит оценить качество синтезирования, поработать с разными голосами и пользоваться сервисом бесплатно, если у вас небольшие потребности;

  • удобный выбор голоса через Telegram Web App: голоса структурированы по категориям, есть сортировка, можно сразу прослушать пример звучания голоса;

  • мультиязычные голоса: не столько фишка бота, сколько фишка нашей технологии, о которой я рассказывал здесь (русские голоса говорят по-английски и наоборот);

  • создание гифок со звуком: вы можете отправлять боту гифки и накладывать на них ваши реплики (если гифка вертикальная или квадратная, то бот сделает из неё кружок, если горизонтальная – оставит как есть);

  • привязка бота к платформе по токену: если вы приобрели платный тариф на платформе, но вам удобно пользоваться ботом, то вы можете подключить его к своему аккаунту и бот будет расходовать основной баланс платформы (инструкция по привязке находится в самом боте);

  • настройка ударений через «+»: просто поставьте + перед ударной гласной и ударение поменяется;

  • голоса из игр: мы решили начать добавлять на платформу голоса любимых всеми персонажей видеоигр и будем наращивать темпы;

  • покупка дополнительных символов сразу в боте: если не хочется регистрироваться на платформе, но нужен больший объём;

  • новые фичи на подходе: бот будет первым получать экспериментальные обновления перед их внедрением в саму платформу.

Недавно мы запустили интересный колаб вместе с Gabe Follower в телеграме. Мы открыли его голос для пользователей. Креатив не заставил себя долго ждать 😊

Вот ролик, сценарий которого написал chatGPT, а озвучен он нашим синтезом:

Также оставлю ссылку на видео, полностью созданное с помощью нескольких нейронных сетей, которое было озвучено нашей версией Джина из Лиги Легенд: https://t.me/DeepFaker/4381

Бот работает неполные 2 недели, а мы уже выросли до 8000 пользователей у бота и 4000 подписчиков в нашем телеграм канале. Присоединяйтесь, будем рады, если наш сервис будет для вас полезен😊

Также мы запустили мини платформу, где вы можете нам помочь в подготовке данных для создания голосов.

Новые возможности для синтеза речи: мы запустили Телеграм бота и добавляем игровые голоса Искусственный интеллект, Видеоигра, Разработка, Синтез речи, Tts, Text-to-speech, Видео, YouTube, Длиннопост

Велком, вы поможете ускорить процесс! Новые игры так же будут добавляться.

P.S. Также в ближайших планах стоит запуск публичного API для интеграции с вашими проектами.

В общем (и целом) приглашаю вас потестить и обсудить в комментариях!

Показать полностью 1 1
Искусственный интеллект Видеоигра Разработка Синтез речи Tts Text-to-speech Видео YouTube Длиннопост
6
169
MindSimulation
MindSimulation
3 года назад
Лига Разработчиков Видеоигр

Гейб Ньюэлл и G-man говорят по-русски. Даём бесплатно погонять синтез речи⁠⁠

Привет всем! Меня зовут Леонид, я являюсь СЕО Mind Simulation – лаборатории, ведущей исследования и разработки в направлении Общего Искусственного Интеллекта. Некоторое время назад мы показывали на примере Геральта из Ривии то, как собираемся оживлять NPC в играх. Это большая работа, которая постепенно продвигается.


Сегодня хочу поделиться достижениями и дать погонять бесплатно синтез речи, которым мы тоже занимаемся, чтобы неписей было приятно слушать. Благодаря последнему обновлению мы теперь можем переносить голоса между языками, что даёт возможность использовать один и тот же голос в разных локализациях, подбирать подходящие для персонажей голоса, не ограничиваясь поиском только нативных спикеров и озвучивать Инди на разных языках.

С момента выхода видео проект мы переименовали в SteosVoice, домен остался тот же. Голос G-man'а мы создали на основе английских реплик из HL:Alyx, там примерно 2 минуты. Сейчас наш синтез знает два языка: русский и английский. Неважно на каком языке говорит источник, система воспроизводит голос, манеру и говорит сразу на обоих языках. Добавим новый язык, голоса заговорят и на третьем языке.


Разработка развитие синтеза речи (да и распознавания тоже) для нас очень важна: если мы собираемся оживлять NPC, то нам нужно закрывать полный цикл, ведь персонажи должны озвучивать свои мысли тем же голосом и манерой, что и актёр, который записывал для них сюжетные реплики.


Зависимость от сторонних сервисов — неприемлемо. К тому же в нашем случае выдвигаются высокие требования:

• Минимальное количество аудио для воспроизведения голоса. Просить «несколько часов» исходных данных нереально, так как такое количество аудио наберётся только у двух-трёх главных персонажей большой RPG.

• Высокое качество звука. Звук должен быть такой же насыщенный, плотный, как и в оригинале.

• Быстрый синтез, чтобы не было ожидания между вопросом и ответом.

• Работа оффлайн, например, на четвёртой плойке. Потому как во-первых, ни одна студия не потянет такие расходы на облака, а во-вторых, игрок должен быть независим от интернет-соединения, особенно если он играет в сингл.


Нам это удалось. Чтобы создать цифровую копию любого голоса в высоком качестве, нам нужно всего семь минут речи спикера в идеальных условиях. С некоторыми компромиссами в финальном качестве достаточно и одной минуты аудио. Голос Гейба Ньюэлла (в рамках демонстрации, естественно, голос на платформе не доступен) мы создали на основе одной минуты аудио из документари HL2: Lost Coast. Да, есть ещё, но голос в силу возраста на них отличается, плюс у аудио в разном качестве и на большинстве присутствуют сторонние звуки, вроде шума вентилятора. Ниже пример (видео сжато).

SteosVoice как создаёт собственные уникальные голоса, так и сотрудничает с актёрами, выплачивая 20% роялти с каждого синтезированного символа на платформе авторам голосов.


Однако сейчас сервис бесплатен для всех желающих. Мы сделали это, чтобы поддержать сообщество разработчиков и создателей контента. Так что если вы хотели попробовать синтез речи в своих проектах или вам нужна озвучка, приглашаю. Также будем рады обратной связи!:)


Следующие обновления будут посвящены полному избавлению от акцента при переносе между языками, более точечной настройке эмоций и новым языкам. Бонусом сейчас в работе около 60 новых голосов, которые в ближайшее время будут добавлены на платформу.


Ссылка на проект, где можно попробовать синтез: https://cybervoice.io/ru/

Показать полностью 1
[моё] Разработка Gamedev Звук Искусственный интеллект Синтез речи Tts Опыт Видео YouTube Длиннопост
57
660
EDYS
EDYS
4 года назад

Супер люди⁠⁠

Как же часто я слышу удивлённые возгласы в свой адрес:

А как ты пользуешься смартфоном?!, а как ты сам ходишь?!, а как ты питаешься?!, а как у тебя с девушками?!...

Ок, я понимаю ваше любопытство, и Сегодня я отвечу на некоторые популярные вопросы.

В каждом городе живут десятки, а то и сотни слепых. Речь идёт о тотальной слепоте, при которой человек не в состоянии ориентироваться без вспомогательных инструментов.

Вы конечно же спросите, где же эти люди? Почему мы не встречаем их на улице?

Обратимся к статистике.

По данным Всемирной организации здравоохранения, во всем мире насчитывается около 39 миллионов слепых людей и 246 миллионов с плохим зрением.

По некоторым данным количество учтенных слепых и слабовидящих в России составляет 218 тыс человек, из них абсолютно слепых – 103 тыс. (данные на 2009 год). Из этого количества 22% составляет молодежь трудоспособного возраста, т.е. практически каждый пятый из всех слепых и слабовидящих.

Однако точные статистические данные почти невозможно найти. В обществах слепых неофициально заявляют, что слепых на самом деле гораздо больше. Банальный пример: больные сахарным диабетом часто слепнут. Но они почти никогда не спешат переходить в категорию слепых, т.к. если они получат статус слепого, значит перестанут получать инсулин бесплатно. К тому же далеко не все слепые обращаются в общества слепых, по количеству членов которого и ведется статистика. Многие, например, всю жизнь проводят в малых населенных пунктах, не зная о существовании подобных учреждений. И подобных ситуаций масса.

В России по данным на 2019 год насчитывалось 1117 городов.

И так! Поделим 103 000 на 1117, получим грубо говоря 92 человека на город. В России статус города имеет поселение в котором проживает не менее 12000 человек. В результате, концентрация слепых на город менее 1%.

Чаще всего слепота наступает с возрастом, в этом случае люди просто не выходят дальше своего двора. Реже зрение теряют в результате травм или болезней, и ещё реже слепыми рождаются. Не удивительно что слепых не видно.

Однако, благодаря техническому прогрессу, и отсутствию границ в интернете, мы можем встретить не только слепых, но и глухих, и слепо-глухих, и и людей с другими особенностями. И Именно благодаря доступности смартфонов и кмпьютерам люди с инвалидностью могут не только читать новости и общаться, но и работать. Сфера it со временем становится всё доступнее.

Теперь поговорим о возможностях незрячего.

Люди бывают разные, и опыт соответственно тоже. Одни потеряли зрение на войне, и имеют опыт управления танком; другие раньше работали поварами, и вслепую могут приготовить шедевр не хуже зрячего; третьи от рождения имеют абсолютный слух и т.д..

Лично я умею вкусно и красиво готовить, учусь играть на гитаре, могу сам поехать в другой город, и это не предел. Я продолжаю развиваться дальше.

Потеря части привычных возможностей безусловно первым делом бьёт по психике.

Лучше, если в этот момент рядом будетблизкий человек, который сможет поддержать. А чтобы поддержка не превратилась в совместную попойку, вы должны знать, что для каждой особенности существует своя реабилитация. В специальных учебных учреждениях человеку помогают освоиться. И чем раньше начать, тем скорее человек заживёт полноценной жизнью. Досуга для людей с ограниченными возможностями здоровья со временем становится всё больше, и это не потому что растёт количество людей с инвалидностью, а потому что такие люди выходят из тени неведения.

Перейдём к ответам на вопросы:

Как ты пользуешься смартфоном? – В каждом смартфоне есть программа чтения с экрана. На андроиде это talkback, на IOS – voice over. Данные программы озвучивают текст, и кнопки в приложениях. Внимательно читайте инструкцию по управлению, если вдруг решите включить озвучку на своём устройстве. Доступность приложения напрямую зависит от качества работы разработчика. Так например Tik-tok крайне сложное в освоении приложение, потому что в нём множество не названных кнопок.

Представьте, что вместо привычных ярлыков, кнопки будут подписаны так: M2G Buttom, C9A, W4U, PLJPlay buttom и т.д., разберётесь?

Как ты пользуешься компьютером? – Вопреки расхожим стереотипам, компьютер слепого ничем не отличается от компьютера зрячего. По крайней мере внешне. Как и в случае со смартфоном, используется скрин ридер.

Есть 2 популярных программы в СНГ, это JAWS и NVDA. И так же как в случае со смартфоном, доступность зависит от разработчика по тем же параметрам.

Существуют брайлевские клавиатуры, но их стоимость вам лучше не знать, ибо седина на голове проступит раньше.

Что? Уже есть седина? Думаешь нечего терять? А как насчёт инфаркта…

Я предупредил.

Как ты готовишь? – Словами сложно объяснить процесс готовки. А точнее долго.

На моём youtube канале есть пара роликов посвящённых кулинарии. Ссылочку вы можете взять в конце первого поста на моей страничке. Если вам интересна данная тема, подписывайтесь, так я пойму что стоит продолжать.

Как ты ходишь по улице? – Маршруты приходится запоминать. В качестве ориентиров и направляющих служат окружающие предметы: бордюры, столбы, заборы, а так же окружающие звуки.

Нередко помогают прохожие.

Как ты ходишь в магазин? – Заходя в супермаркет, я на слух определяю где находится касса, подхожу к кассиру и сообщаю о том что мне нужна помощь. Чаще всего помогают без проблем, но бывает по разному.

Как у тебя с девушками? – Вопрос который интересует многих.

Как таковых проблем с девушками нет. Тут прекрасно подойдёт стишок – Темнота друг молодёжи, в темноте не видно рожи… :3

Ну и самый популярный вопрос, как ты зарабатываешь на жизнь? – И это самый интересный на мой взгляд вопрос. Работы для слепых и так мало, а со временем закрываются последние источники заработка незрячих. Однако, как я говорил выше, появляются места в сфере it.

В поисках работы в интернете, я однажды наткнулся на такую цитату – Трудоустройство незрячих, дело рук самих незрячих.

Действительно, ВОС (Всероссийское общество слепых) более не может предложить что-то адекватное, а работать на сборке прищепок за 3000 рублей унизительно.

Конечно, совсем без средств к существованию мы не остаёмся, есть поддержка от пенсионного фонда, но что такое 15000 рублей в Московской области? Я только за аренду квартиры плачу 16000р. + свет…

Это основные вопросы, которые мне чаще всего задают, но я прекрасно понимаю что у вас их куда больше…

Показать полностью
[моё] Слепые Работа Мотивация Туториал Вопрос Ответ Tts Talkback Не глядя Длиннопост Текст
78
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии