Друзья, сегодня хочу поделиться с вами сервисом, который значительно упростит работу с аудио и текстом — Silero. Если вы создаете подкасты, видео или вам нужно быстро перевести аудио в текст, этот инструмент для вас. Тем более, что ElevenLabs заблокирован в РФ, и не все впн заходят на сайт.
Что может Silero:
Преобразует аудио в текст с высокой точностью, поддерживая русский язык и различные акценты.
Превращает текст в естественную голосовую озвучку. Идеально для создания аудиокниг, дикторских текстов и озвучки видео.
Обработка происходит быстро даже с большими объемами данных.
Можно бесплатно установить с GitHub. Если вы не знакомы с программированием, на сайте Silero есть веб-интерфейс для быстрого тестирования функций без установки дополнительных программ 😉
Проект с открытым исходным кодом, доступен для всех.
Оптимизирован для русского, учитывает нюансы произношения.
Легко интегрируется в ваши приложения и проекты.
Отлично подойдет для транскрибации интервью и создания озвучки для видео. Точность распознавания хорошая, а синтезированная речь звучит естественно и приятно для восприятия.
Подпишитесь на
НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.
Google снова в деле! Совсем недавно в конце 2023 года они объявили о запуске своей новой глобальной модели — Universal Speech Model (USM), которую позиционируют как передовую технологию распознавания речи для 100 с лишним языков. Но, как показали результаты тестов, опубликованные в научной статье на ACM, не все то золото, что блестит.
USM модель была разработана для обработки речи на 100 языках, с возможностью масштабирования и адаптации к новым диалектам и акцентам. Исследователи Google гордо заявили, что их новая модель достигла "непревзойденных результатов" в тестах на распознавание речи. Но вот беда: когда дело дошло до реальных тестов независимыми экспертами, USM показала себя далеко не так впечатляюще. В статье на ACM Digital Library указано, что результаты распознавания речи от Google оказались ниже ожиданий. По результатам проведенных тестов оказалось, что многие маленькие стартапы и конкуренты в области расшифровки аудио, такие как SpeechText.ai, Rev.ai и другие, предлагают решения, которые не только дешевле, но и работают лучше без миллиардных бюджетов.
Согласно данным из научной статьи точность расшифровки речи на английском языке у модели Google оказалась ниже на 20-30%, а на редких языках этот показатель падает еще больше, вплоть до 40%. Также, на практике, ученые пришли к выводу, что модель не справляется с диалектами и акцентами так, как это делают решения от конкурентов. В некоторых тестах модель от Google просто теряла нить разговора и предлагала такие переводы, что можно подумать, будто она сама нуждается в переводчике.
В 2023 году OpenAI выпустила модель Whisper, которая представляет собой одну из наиболее точных моделей распознавания речи на сегодняшний день. Также не забываем, что совсем недавно, OpenAI анонсировала новую мультимодальную модель GPT-4o. Whisper уже доказала свою эффективность и точность в реальных условиях, а GPT-4o обещает сделать взаимодействие с ИИ еще более естественным и интуитивным. С учетом этих достижений, становится непонятно, как Google сможет конкурировать со своим основным конкурентом в лице OpenAI. Ведь на практике, "революция" в распознавании речи от Google оказалась больше похожа на громкий пшик. В общем, ничего нового, мы к этому уже привыкли.
Сегодня 16 апреля празднуется Всемирный день голоса! Многие сразу подумают, что он посвящен вокальным способностям человека.
Яна Завалишина, солистка группы RUM'YANA
Однако праздник посвящен феномену человеческого голоса, его роли в жизни людей и был учреждён в конце девяностых. Идея праздника принадлежит Американской академии отоларингологии. Россия присоединилась ко Дню голоса в 2006-м году.
В этот праздничный день проходят концерты и мероприятия, посвященные развитию и здоровью голоса, в том числе для врачей-фониатров и других специалистов, изучающих строение и работу голосового аппарата.
В этом году праздник проходит под девизом, который напоминает нам об уникальности человеческого голоса: «Один мир — много голосов».
Человеческий голос — это дар, который позволяет людям общаться, выражать эмоции и чувства, наслаждаться красотой звука и петь. Мы настолько привыкли к этой возможности, что даже не задумываемся о необходимости заботиться о своем голосе.
VoiceCraft - это нейрокодек, который выполняет редактирование записанной речи, позволяющий заменять сказанные слова на новые. На все про все ему нужно пару секунд референса, который можно взять из остальной записи.
Пользователи смогут продать голос, созданный или клонированный
Честно говоря, хотела ограничиться небольшим постом, но информация интересная, так что пока готовила пост, увлеклась и получился такой лонгрид.
С момента своего публичного запуска ElevenLabs лидирует в отрасли синтеза естественной речи, позволяя пользователям создавать и проектировать голоса искусственного интеллекта для огромного количества языков и акцентов, способные передавать широкий спектр эмоций и интонаций.
За это время ElevenLabs создали аудио за более чем 100 лет. Сегодня их технологию используют сотрудники 41% компаний из списка Fortune 500. Дальше они будут только развиваться еще больше:
Теперь можно перевести любое видео на один из 29 языков (в том числе русский) с учетом тона голоса говорящего, его акцента или фонового шума, сохраняя при этом голос и эмоции оригинального говорящего. Вот например этот ролик о себе самом перевел ElevenLabs с английского на русский с сохранением голоса.
В предыдущей версии, ролик, который вы видите наверху, перевелся бы с кучей искажений, голосовых артефактов, и искаженным переводом. Язык вывода я указала Английский, хотя в видео присутствует несколько языков. Не смотря на это, сервис без проблем перевел мне видос на русский, не теряя смысл.
Каждый месяц в ElevenLabsбесплатно дается 10 000 знаков, которые можно использовать по своему усмотрению - перевести видео с сохранением голоса в разделе Dubbing, или сделать реалистичную озвучку текста, или и то, и то.
Новые продукты
Сегодня компания также представляет ряд новых продуктов, включая Dubbing Studio , торговую площадку Voice Library , раннюю предварительную версию приложения Mobile Reader , а также новые модели с улучшенной скоростью и языковым охватом. А еще они пошли по пути OpenAI и дадут возможность пользователям заработать, загружая созданные или клонированные голоса.
Подробнее о каждом продукте
ElevenLabs также представляет несколько новых разработок продуктов, которые будут запущены в эксплуатацию в ближайшие недели:
Dubbing Studio
Теперь мощности нейросети позволят пользователям дублировать фильмы целиком, а также создавать и редактировать их расшифровки, переводы и тайм-коды, обеспечивая дополнительный контроль над созданием контента. Эти возможности дополняют уже существующую функцию искусственного дубляжа, которая обеспечивает автоматическую комплексную локализацию видео на 29 языках.
Voice Library (голосовая библиотека)
ElevenLabsпредоставит пользователям безопасную платформу для заработка на версиях собственных голосов, созданных искусственным интеллектом. Пользователи могут создать свою профессиональную реплику голоса AI, проверить ее и поделиться ею через голосовую библиотеку. Когда другие используют эти проверенные голоса, оригинальные создатели получают компенсацию. Пользователи всегда сохраняют контроль над доступностью своего голоса и условиями компенсации. Маркетплейс уже приносит доход небольшой группе альфа-пользователей. Кстати, у них сервиса есть классификатор речи с использованием искусственного интеллекта, который может проверить, содержит ли аудиосэмпл контент, созданный ElevenLabs. Кстати, это они тоже улучшат - включат и другие голосовые модели в свой классификатор.
Приложение Mobile Reader
Ранняя предварительная версия мобильного приложения для чтения, которая позволяет мгновенно преобразовывать текст и URL-адреса в аудио, упрощая пользователям доступ к контенту на другом носителе во время движения. В качестве ознакомительной пробной версии приложение будет доступно бесплатно в течение первых трех месяцев, и пользователи смогут зарегистрироваться для получения раннего доступа через список ожидания.
ElevenLabs реально молодцы, пока это мой топ из синтеза речи - самая натуральная озвучка получается, с паузами, придыханиями, эмоциями. Если бы они еще в клонирование голоса (который Professional Voice Cloning) добавили бы русский голос - им бы вообще цены не было. Пока эта опция доступна только на английском, я записала 40 минут своего голоса на английском и через 3 недели должны сделать мой голосовой клон, поделюсь впечатлениями. Но лучшие они в переводе видео с сохранением голоса, даже Heygen пользуются их технологией, если кто не знал. То, что они принимают дополнительные меры для повышения безопасности голосовых данных дает им еще плюсик в карму.
Хотите быть в курсе полезных ии сервисов для работы, учебы и облегчения жизни? Подпишитесь на мой канал в Telegram НейроProfit, там я рассказываю о том, как зарабатывать с помощью нейросетей и использовать ии-сервисы для бизнеса 😉
Появился мощный синтезатор речи OpenVoice. Клонировать голос можно из нескольких секунд речи, а затем озвучить им текст на любом языке (даже на русском) бесплатно!
Отличить почти невозможно. Доступно много настроек — от эмоций и акцента до интонаций и пауз. Хороший бесплатный аналог Elevenlabs
🅰️Аi-coustics - хорошая альтернатива, рассказывала про него здесь
🅰️Auphonic - сервис для обработки аудио и подкастов. Автоматически обрабатывает и улучшает качество аудиофайлов - подавление шума, нормализация уровня громкости, добавление/ удаление музыки и тд. Дается 2 часа бесплатно каждый месяц
🔠Cleanvoice- тоже крутой сервис для подкастеров и не только, он чистит речь, убирает слова паразиты, нежелательные звуки, например “э” и “а” или вздохи
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как использовать нейросети для бизнеса 😉