И правкам этим не было конца. И возопил дизайнер...
Загляните к нам в тг-канал, там много всего на тему дизайнерских новинок, дизайна упаковки, айдентики, тонкого творческого юмора: https://t.me/dizainerskievolny
Загляните к нам в тг-канал, там много всего на тему дизайнерских новинок, дизайна упаковки, айдентики, тонкого творческого юмора: https://t.me/dizainerskievolny
Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.
Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.
Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.
Fish Speech Dialogue — современный инструмент для озвучивания диалогов и реплик с использованием разнообразных голосов.
Благодаря портативной версии не нужна установка базового Fish Speech MOD, а функциональность доступна «из коробки»:
Поддержка до 10 говорящих. Идеально для одиночных реплик и сложных диалогов.
Автоматическое распределение голосов. Экономит время, подбирая подходящие голоса для каждого персонажа.
Библиотека из 50+ голосов от сообщества. От Жириновского до Яндекс Алисы.
Форматирование диалогов. Автоматическое оформление в формате «Говорящий: текст».
Различные форматы сохранения. Поддерживаются WAV, MP3 и FLAC.
Мультиязычный интерфейс. Доступны русский и английский.
Автообновления и интеграция с GitHub.
Нас встречает такой интерфейс. В самой верхней строке можно выбрать язык интерфейса, изначально будет английский.
Левое окно «Статистика диалога» — основное рабочее поле. В верхней части окна отображается количество говорящих, число реплик и общее количество символов. Нижняя часть содержит текст диалога.
Диалоги необходимо оформлять так: каждая реплика должна начинаться с имени говорящего и двоеточия. Пример видно на скриншоте выше.
В правой части интерфейса находится блок с итоговым результатом и кнопка «Сгенерировать диалог».
Плавно спускаемся ниже.
Количество говорящих — это автоматический параметр, который определяется системой в зависимости от структуры диалога.
Для каждого говорящего доступна отдельная панель настроек. Здесь можно:
Указать имя говорящего, которое должно совпадать с именем в тексте диалога.
Выбрать референсный голос из доступных вариантов.
Загрузить собственную аудиодорожку и использовать голос из неё. Также необходимо подписать транскрипцию. В этом случае нейросеть будет использовать загруженный голос для генерации диалога. Транскрипцию пишем сплошным текстом.
Последняя функция очень полезна. Когда ваш профессиональный диктор заболел, можно чуть схитрить и продолжить процесс записи и озвучки :D
В самом низу находятся расширенные настройки:
Честно, расширенные параметры я не щупал, меня интересовал лишь принцип работы и результаты. Но я попросил ассистента Perplexity пояснить, что это, кому интересно, вот выжимка:
В общем, всё до безумия просто. Пишем или генерируем диалог, выбираем голоса и получаем озвучку. Давайте посмотрим на неё в деле.
Начнём с простого — рассуждения Винни-Пуха.
Давайте усложним и представим миниатюру: бытовой диалог Джонни Сильверхенда и Яндекс Алисы.
Сгенерируем диалог с тремя участниками - Шерлок Холмс, Сергей Дружко и Кот Матроскин. Такого вы ещё не слышали.
Далее я решил попробовать сгенерировать что-нибудь на английском с голосом Матроскина. И вышло очень даже неплохо и похоже.
Дмитрий Нагиев и Чебурашка:
Ну и напоследок я попросил свою знакомую записать пару голосовых для теста. Дальше скачал их в формате .ogg, конвертировал в .mp3 и загрузил в нейросеть. Для транскрипции я использую крутую нейронку Whisper, скачать её можно на GitHub. Там всё интуитивно понятно, думаю, разберётесь. Вот что получилось.
Ещё пара примеров:
Как итог, FishSpeech — удобный инструмент, который помогает озвучивать тексты даже в ситуациях, когда запись голоса невозможна. Простота и гибкость делают его отличным решением для создания игр, подкастов, аудиокниг и других проектов, где важна качественная озвучка.
Скачать портативную версию FishSpeech с установкой в один клик для самых ленивых вы можете тут.
Подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!
Переживите заново знаменитую сцену из 'Мистера и Миссис Смит', но на этот раз на русском языке. Благодаря технологии Elevenlabs, я без проблем воссоздала голоса Анджелины Джоли, Брэда Питта и закадрового психолога, как если бы они разговаривали на русском языке.
Перевести видео в Elevenlabs можно во вкладке dubbing, просто загрузив видео или предоставив ссылку
Этот ролик демонстрирует возможности современного синтеза речи и искусственного интеллекта в дублировании фильмов. Да и не только с кинематографом - можно выйти на зарубежный рынок, и перевести свои видео-уроки (без человека в кадре ElevenLabs тоже отлично переводит), можно переводить зарубежные ролики, словом хорошенькие перспективы для бизнеса вырисовываются.
Больше полезной информации как использовать нейросети для бизнеса, работы и учебы в моем телеграм канале НейроProfit
Представьте, что если бы Леонардо ДиКаприо мог говорить по-русски? С помощью передовой технологии ElevenLabs , я перевела знаменитый монолог из фильма 'Волк с Уолл-стрит' на русский язык, сохраняя при этом уникальный голос самого ДиКаприо! Услышьте, как звучал бы этот знаменитый монолог, если бы ДиКаприо был носителем русского языка, и узнайте больше о потенциале искусственного интеллекта в сфере перевода и дубляжа.
Этот ролик - не просто перевод, это новый уровень взаимодействия с кинематографом благодаря AI. Да и не только с кинематографом - можно выйти на зарубежный рынок, и перевести свои видео-уроки (без человека в кадре ElevenLabs тоже отлично переводит), можно переводить зарубежные ролики, словом хорошенькие перспективы для бизнеса вырисовываются.
Больше полезной информации как использовать нейросети для бизнеса, работы и учебы в моем телеграм канале НейроProfit
Хорошенькую альтернативу дикторам спортивных мероприятий нашел один находчивый парень.
Энтузиаст загрузил каждый кадр футбольной трансляции в gpt4-vision и попросил сгенерировать повествование, результат он разместил в своем твиттер
Я нашла как повторить его подвиг, вот ссылка на официальный туториал
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса
OpenAI под шумок релизнули свою новую модель для генерации речи — в качестве произношения и интонаций она уделывает почти все современные решения.
При этом генерация даже сложных и комплексных текстов занимает всего несколько секунд. Можно бесплатно затестить тут.
🅰️ Adobe Podcast Enhancer поможет сделать студийную озвучку и убрать шумы, показывала и рассказывала, как он работает в этом посте
🅰️ Аi-coustics - хорошая альтернатива, рассказывала про него здесь
🅰️ Auphonic - сервис для обработки аудио и подкастов. Автоматически обрабатывает и улучшает качество аудиофайлов - подавление шума, нормализация уровня громкости, добавление/ удаление музыки и тд. Дается 2 часа бесплатно каждый месяц
🔠 Cleanvoice - тоже крутой сервис для подкастеров и не только, он чистит речь, убирает слова паразиты, нежелательные звуки, например “э” и “а” или вздохи
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как использовать нейросети для бизнеса 😉
В новом веке технологий, нейросети открывают потрясающие возможности для бизнеса и заработка в интернете. Одним из интересных направлений является дубляж видео с сохранением оригинального голоса. В данной статье рассмотрим два сервиса — HeyGen и ElevenLabs, и узнаем, как они могут помочь в реализации идей заработка с помощью нейросетей.
Я уже рассказывала про перевод от HeyGen. HeyGen – это инновационный сервис, который блестяще справляется с переводом видео, сохраняя интонации голоса оригинального диктора.
Однако, на данный момент он не поддерживает перевод с русского языка. В то время как ElevenLabs успешно дублирует видео на русский язык.
У ElevenLabs уже был voice cloning, сейчас же одним игроком на рынке дубляжа видео стало больше! ElevenLabs прекрасно переводит на русский. Сервис поддерживает 29 языков и сохраняет оригинальный тон голоса. Для примера я скачала интервью Илона Маска на английском языке и перевела его на русский с помощью ElevenLabs.
Процесс перевода видео прост и интуитивен: загружаем видеоролик, выбираем язык ввода и язык вывода, ожидаем некоторое время и получаем готовый результат.
При сравнении HeyGen и ElevenLabs, оба сервиса анализируют речь, переводят и синтезируют ее в новую звуковую дорожку, создавая естественное звучание. Основное отличие в том, что ElevenLabs предлагает бесплатный перевод до 2000 символов, в то время как HeyGen ограничивает ролики размером до 500 мб и предоставляет только 1 генерацию бесплатно.
Резюмируя, оба они переводят отлично и очень похоже на оригинальный голос, но HeyGen подстраивает еще и движение губ
Эти инструменты демонстрируют потенциал нейросетей в бизнесе и возможности заработка в сфере перевода и дубляжа видео. Подписывайтесь на телеграм канал НейроProfit, чтобы узнать больше о возможностях нейросетей в создании новых источников дохода.