Нейронные сети и Речь: истории из жизни, советы, новости, юмор — Горячее

0 просмотренных постов скрыто

Neurosonya

10 месяцев назад

Полезные нейросети

Серия Полезность

Silero: высокоточное распознавание и синтез речи на русском языке⁠⁠

Друзья, сегодня хочу поделиться с вами сервисом, который значительно упростит работу с аудио и текстом — Silero. Если вы создаете подкасты, видео или вам нужно быстро перевести аудио в текст, этот инструмент для вас. Тем более, что ElevenLabs заблокирован в РФ, и не все впн заходят на сайт.

Что может Silero:

Преобразует аудио в текст с высокой точностью, поддерживая русский язык и различные акценты.
Превращает текст в естественную голосовую озвучку. Идеально для создания аудиокниг, дикторских текстов и озвучки видео.
Обработка происходит быстро даже с большими объемами данных.

Можно бесплатно установить с GitHub. Если вы не знакомы с программированием, на сайте Silero есть веб-интерфейс для быстрого тестирования функций без установки дополнительных программ 😉

Более подробно в нейросети для Учебы и Работы мы погружаемся в Закрытом клубе Нейроучеба

Что крутого в Silero:

Проект с открытым исходным кодом, доступен для всех.
Оптимизирован для русского, учитывает нюансы произношения.
Легко интегрируется в ваши приложения и проекты.

Отлично подойдет для транскрибации интервью и создания озвучки для видео. Точность распознавания хорошая, а синтезированная речь звучит естественно и приятно для восприятия.

Подпишитесь на
НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.

Показать полностью

TechPrikol

1 год назад

Google выпустила глобальную модель распознавания речи, а она оказалась хуже, чем решения небольших стартапов⁠⁠

Google снова в деле! Совсем недавно в конце 2023 года они объявили о запуске своей новой глобальной модели — Universal Speech Model (USM), которую позиционируют как передовую технологию распознавания речи для 100 с лишним языков. Но, как показали результаты тестов, опубликованные в научной статье на ACM, не все то золото, что блестит.

USM модель была разработана для обработки речи на 100 языках, с возможностью масштабирования и адаптации к новым диалектам и акцентам. Исследователи Google гордо заявили, что их новая модель достигла "непревзойденных результатов" в тестах на распознавание речи. Но вот беда: когда дело дошло до реальных тестов независимыми экспертами, USM показала себя далеко не так впечатляюще. В статье на ACM Digital Library указано, что результаты распознавания речи от Google оказались ниже ожиданий. По результатам проведенных тестов оказалось, что многие маленькие стартапы и конкуренты в области расшифровки аудио, такие как SpeechText.ai, Rev.ai и другие, предлагают решения, которые не только дешевле, но и работают лучше без миллиардных бюджетов.

Согласно данным из научной статьи точность расшифровки речи на английском языке у модели Google оказалась ниже на 20-30%, а на редких языках этот показатель падает еще больше, вплоть до 40%. Также, на практике, ученые пришли к выводу, что модель не справляется с диалектами и акцентами так, как это делают решения от конкурентов. В некоторых тестах модель от Google просто теряла нить разговора и предлагала такие переводы, что можно подумать, будто она сама нуждается в переводчике.

В 2023 году OpenAI выпустила модель Whisper, которая представляет собой одну из наиболее точных моделей распознавания речи на сегодняшний день. Также не забываем, что совсем недавно, OpenAI анонсировала новую мультимодальную модель GPT-4o. Whisper уже доказала свою эффективность и точность в реальных условиях, а GPT-4o обещает сделать взаимодействие с ИИ еще более естественным и интуитивным. С учетом этих достижений, становится непонятно, как Google сможет конкурировать со своим основным конкурентом в лице OpenAI. Ведь на практике, "революция" в распознавании речи от Google оказалась больше похожа на громкий пшик. В общем, ничего нового, мы к этому уже привыкли.

Показать полностью 1

Технологии Искусственный интеллект Инновации Нейронные сети Наука Статья Стартап IT Программное обеспечение Обзор Новости науки и техники Новости Google Распознавание Речь Аудио Голос

kompromispro

1 год назад

Всемирный день голоса — KOMPROMIS PRODUCTION!⁠⁠

Сегодня 16 апреля празднуется Всемирный день голоса! Многие сразу подумают, что он посвящен вокальным способностям человека.

Яна Завалишина, солистка группы RUM'YANA

Однако праздник посвящен феномену человеческого голоса, его роли в жизни людей и был учреждён в конце девяностых. Идея праздника принадлежит Американской академии отоларингологии. Россия присоединилась ко Дню голоса в 2006-м году.

В этот праздничный день проходят концерты и мероприятия, посвященные развитию и здоровью голоса, в том числе для врачей-фониатров и других специалистов, изучающих строение и работу голосового аппарата.

В этом году праздник проходит под девизом, который напоминает нам об уникальности человеческого голоса: «Один мир — много голосов».

Человеческий голос — это дар, который позволяет людям общаться, выражать эмоции и чувства, наслаждаться красотой звука и петь. Мы настолько привыкли к этой возможности, что даже не задумываемся о необходимости заботиться о своем голосе.

Каждый голос уникален и важен!

Показать полностью 1 1

Праздники Голос Речь Озвучка Пение Песня Эмоции Дубляж Русская озвучка Мир Забота Человек Природа Весна Счастье Аудиокниги Искусственный интеллект Нейронные сети Видео YouTube

AgeOfIT

1 год назад

Искусственный интеллект

VoiceCraft: Zero-Shot редактор речи и Text2Speech⁠⁠

VoiceCraft - это нейрокодек, который выполняет редактирование записанной речи, позволяющий заменять сказанные слова на новые. На все про все ему нужно пару секунд референса, который можно взять из остальной записи.

GitHub
Demo
Notebook

Источник

Искусственный интеллект Нейронные сети Речь Telegram (ссылка)

Neurosonya

1 год назад

Полезные нейросети

Серия Полезность

Как ElevenLabs открывает возможности заработка на ИИ в духе OpenAI⁠⁠

Пользователи смогут продать голос, созданный или клонированный

Честно говоря, хотела ограничиться небольшим постом, но информация интересная, так что пока готовила пост, увлеклась и получился такой лонгрид.

С момента своего публичного запуска ElevenLabs лидирует в отрасли синтеза естественной речи, позволяя пользователям создавать и проектировать голоса искусственного интеллекта для огромного количества языков и акцентов, способные передавать широкий спектр эмоций и интонаций.

За это время ElevenLabs создали аудио за более чем 100 лет. Сегодня их технологию используют сотрудники 41% компаний из списка Fortune 500. Дальше они будут только развиваться еще больше:

Компания уже привлекла $80M инвестиций

Что нового?

Нейродубляж

ИИ-стартап ElevenLabs, который недавно оценили в $1,1 млрд (подробнее в Bloomberg), запустил студию нейродубляжа.

Теперь можно перевести любое видео на один из 29 языков (в том числе русский) с учетом тона голоса говорящего, его акцента или фонового шума, сохраняя при этом голос и эмоции оригинального говорящего. Вот например этот ролик о себе самом перевел ElevenLabs с английского на русский с сохранением голоса.

В предыдущей версии, ролик, который вы видите наверху, перевелся бы с кучей искажений, голосовых артефактов, и искаженным переводом. Язык вывода я указала Английский, хотя в видео присутствует несколько языков. Не смотря на это, сервис без проблем перевел мне видос на русский, не теряя смысл.

Каждый месяц в ElevenLabs бесплатно дается 10 000 знаков, которые можно использовать по своему усмотрению - перевести видео с сохранением голоса в разделе Dubbing, или сделать реалистичную озвучку текста, или и то, и то.

Новые продукты

Сегодня компания также представляет ряд новых продуктов, включая Dubbing Studio , торговую площадку Voice Library , раннюю предварительную версию приложения Mobile Reader , а также новые модели с улучшенной скоростью и языковым охватом. А еще они пошли по пути OpenAI и дадут возможность пользователям заработать, загружая созданные или клонированные голоса.

Подробнее о каждом продукте

ElevenLabs также представляет несколько новых разработок продуктов, которые будут запущены в эксплуатацию в ближайшие недели:

Dubbing Studio

Теперь мощности нейросети позволят пользователям дублировать фильмы целиком, а также создавать и редактировать их расшифровки, переводы и тайм-коды, обеспечивая дополнительный контроль над созданием контента. Эти возможности дополняют уже существующую функцию искусственного дубляжа, которая обеспечивает автоматическую комплексную локализацию видео на 29 языках.

Voice Library (голосовая библиотека)

ElevenLabs предоставит пользователям безопасную платформу для заработка на версиях собственных голосов, созданных искусственным интеллектом. Пользователи могут создать свою профессиональную реплику голоса AI, проверить ее и поделиться ею через голосовую библиотеку. Когда другие используют эти проверенные голоса, оригинальные создатели получают компенсацию. Пользователи всегда сохраняют контроль над доступностью своего голоса и условиями компенсации. Маркетплейс уже приносит доход небольшой группе альфа-пользователей. Кстати, у них сервиса есть классификатор речи с использованием искусственного интеллекта, который может проверить, содержит ли аудиосэмпл контент, созданный ElevenLabs. Кстати, это они тоже улучшат - включат и другие голосовые модели в свой классификатор.

Приложение Mobile Reader

Ранняя предварительная версия мобильного приложения для чтения, которая позволяет мгновенно преобразовывать текст и URL-адреса в аудио, упрощая пользователям доступ к контенту на другом носителе во время движения. В качестве ознакомительной пробной версии приложение будет доступно бесплатно в течение первых трех месяцев, и пользователи смогут зарегистрироваться для получения раннего доступа через список ожидания.

ElevenLabs реально молодцы, пока это мой топ из синтеза речи - самая натуральная озвучка получается, с паузами, придыханиями, эмоциями. Если бы они еще в клонирование голоса (который Professional Voice Cloning) добавили бы русский голос - им бы вообще цены не было. Пока эта опция доступна только на английском, я записала 40 минут своего голоса на английском и через 3 недели должны сделать мой голосовой клон, поделюсь впечатлениями. Но лучшие они в переводе видео с сохранением голоса, даже Heygen пользуются их технологией, если кто не знал. То, что они принимают дополнительные меры для повышения безопасности голосовых данных дает им еще плюсик в карму.

Хотите быть в курсе полезных ии сервисов для работы, учебы и облегчения жизни? Подпишитесь на мой канал в Telegram НейроProfit, там я рассказываю о том, как зарабатывать с помощью нейросетей и использовать ии-сервисы для бизнеса 😉

Показать полностью 1 1

[моё] Искусственный интеллект Нейронные сети Полезное Технологии Dubbing Клонирование Голос Озвучка Перевод Перевел сам Звук Речь Обзор Новости Новинки Инновации Видео Длиннопост

Neurosonya

1 год назад

Полезные нейросети

Серия Полезность

Клонирование голоса бесплатно⁠⁠

Появился мощный синтезатор речи OpenVoice. Клонировать голос можно из нескольких секунд речи, а затем озвучить им текст на любом языке (даже на русском) бесплатно!

Отличить почти невозможно. Доступно много настроек — от эмоций и акцента до интонаций и пауз. Хороший бесплатный аналог Elevenlabs

Ссылка на демо.

Ссылка на GitHub

Работает с русским языком

Показать полностью

Искусственный интеллект Нейронные сети Полезное Технологии Аналог Бесплатно Голос Речь Озвучка Перевел сам Клонирование Инновации Видео Telegram (ссылка)

NEUROHUB2077

1 год назад

Искусственный интеллект

Серия Нейросети

Нейросети, заслуживающие вашего внимания⁠⁠

✅CompressX — сожмет видео в 6 раз без потери качества.

✅Magicstudio — заменит фон, улучшит качество фото, удалит лишние объекты и сгенерирует изображение.

✅Pixelcut — генератор реалистичных теней на фото. Можно выбрать любой угол тени — результат не отличить от работы профессионала.

✅Aimyvoice — синтезирует русскую речь.

Источник телеграм-канал NEUROHUB🔥👈 Ещё больше нейроконтента

Искусственный интеллект Нейронные сети Перевел сам Полезное Digital Фотография Вертикальное видео Компьютерная графика Инновации Речь Telegram (ссылка)

Neurosonya

1 год назад

Серия Полезность

Подборка нейросетей для аудио как из студии⁠⁠

https://t.me/NeuralProfit/364

Список для тех, кто так или иначе работает с аудио, будь то запись уроков, подкаста или медитации:

🅰️ Adobe Podcast Enhancer поможет сделать студийную озвучку и убрать шумы, показывала и рассказывала, как он работает в этом посте

🅰️ Аi-coustics - хорошая альтернатива, рассказывала про него здесь

🅰️ Auphonic - сервис для обработки аудио и подкастов. Автоматически обрабатывает и улучшает качество аудиофайлов - подавление шума, нормализация уровня громкости, добавление/ удаление музыки и тд. Дается 2 часа бесплатно каждый месяц

🔠 Cleanvoice - тоже крутой сервис для подкастеров и не только, он чистит речь, убирает слова паразиты, нежелательные звуки, например “э” и “а” или вздохи

Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как использовать нейросети для бизнеса 😉

Показать полностью

[моё] Полезное Искусственный интеллект Технологии Нейронные сети Звук Digital Инновации Подкаст Озвучка Русская озвучка Звукорежиссер Аудио Шум Аудиофайлы Громкость Речь Слова-паразиты Слова

Посты не найдены

1 2