Что это за голос речевого синтезатора?
Помогите пожалуйста найти, какой синтезатор речи это озвучивает:
Помогите пожалуйста найти, какой синтезатор речи это озвучивает:
Open AI опять решили подразнить обычных пользователей и предоставили ограниченный доступ к своей новой нейросети для преобразования текста в голос - Voice Engine. Она позволяет скопировать голос человека из 15-секундной аудиозаписи:
Технология как и ElevenLabs поможет компаниям, преподавателям и инфлюенсерам обращаться к аудитории на любом языке собственным голосом, причем сохранив родной акцент.
Доступ к ней получили пока только серьезные компании HeyGen, Age of Learning и Dimagi.
HeyGen вообще красавчики - используют технологии как ElevenLabs, так и OpenAI, чтобы предложить своим пользователям более широкие возможности при создании видео с искусственным интеллектом.
Так вот, тестирование Voice Engine показало как можно использовать технологию во благо в различных отраслях. Вот несколько ранних примеров: перевод контента, помощь в чтении и поддержка лиц, не способных говорить, восстановление голоса людям с нарушениями речи, улучшение обслуживания в отдаленных районах.
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.
Open AI показали нейросеть, которая может клонировать голос — Voice Engine.
Именно Voice Engine дал «голос» ChatGPT, а теперь еще и умеет клонировать чужие голоса по 15 секундам аудио образца.
Open AI заявляет, что Voice Engine может помочь детям и взрослым, которые не умеют читать, воспринимать текстовый контент. По словам разработчиков, модель не только сотрёт языковые барьеры, но и позволит блоггерам и компаниям общаться с аудиторией на любом языке собственным голосом. Также этот инструмент будет полезен людям, которые по каким-либо причинам потеряли голос или столкнулись с нарушением речи.
Простым смертным модель всё ещё нельзя попробовать, пока ее тестируют it - компании. И не спроста пока ее не выпускают в широкие массы, Open AI серьезно подстраховываются.
Тем, кто беспокоится о мошенничестве, Open AI серьезно позаботилось о безопасности.
Во-первых, партнеры, тестирующие Voice Engine, согласились с их политикой использования, которая запрещает выдавать себя за другое физическое лицо или организацию без согласия или законного права.
Во-вторых, все должны получить согласие первоначального докладчика, и мы не разрешаем разработчикам создавать способы для отдельных пользователей создавать свои собственные голоса.
В-третьих, партнеры должны сообщать своей аудитории, что голоса, которые они слышат, генерируются искусственным интеллектом.
В-четвертых, Open AI внедрили ряд мер безопасности, включая водяные знаки для отслеживания происхождения любого звука, генерируемого Voice Engine.
В-пятых, в США уже запретили звонки с использованием сгенерированных голосов из-за случая спам-звонков от Байдена )) Остальные страны тоже подтянутся в стремлении ограничить неэтичное использование голосовых технологий ИИ.
Подписывайтесь на ИИшница 🍳 - тут все самое интересное из мира новых технологий и нейросетей 🤖
Не секрет, что у Baldur's Gate 3 не было оригинальной русской озвучки. Мы сделали так, что главные персонажи из игры могут говорить на русском языке. Некоторые говорят с небольшим акцентом … а некоторые с заметным акцентом.
Послушайте сами, убедитесь:
Попробовать можно тут - @silero_voice_bot - https://t.me/silero_voice_bot
К вопросу о том насколько это правомерно/законно/человечно использовать чужие голоса в обучении нейросетей (в контексте обновления киберпанка): Если всё берётся из общего доступа и не нацелено на оскорбление/дискредитацию/унижение человека, то не думаю, что кто-то может сказать что-то против, кроме CDPR. А самим CDPR во-первых: выгодно чтобы у игры была хоть и неофициальная, но всё же озвучка на русском; во-вторых: что они сделают рандомному пользователю из инета, клепающему мод на игру? Некоторые умудряются DENUVO взламывать и им ничего не делается, а пиратская озвучка намного менее серьёзный проступок, если проступок вообще.
Поэтому болею сейчас за всех, кто трудится над озвучкой обновления нейросетями!
У меня есть желание, финансовые ресурсы, мощности GPU фермы, а так же некоторые способности, что бы озвучить DLC Сyberpunk 2077 Phantom liberty полностью на русском языке синтезированными голосами которые вы с трудом отличите от реальных голосов актеров озвучки. Для этого мне потребуются семплы голосов из оригинальной игры, умельцы которые помогут их взлечь уже нашлись.
Суть моей затеи следующая:
1) Набираю по 20 минут голосов всех персонажей игры,
2) Обучаю нейросеть голосам и создаю все голоса персонажей игры ну или большую часть ключевых (просто неписей я думаю можно озвучить 1 голосом)
3) Выгружаю все субтитры из DLC
4) Пишу скрипт который будет по API загружать тексты в мою нейросеть для озвучивания
4) Создаю все звуковые файлы с голосами персонажей для текстовых файлов субтитров. (самое трудозатратное и по деньгам и по времени)
5) Пишу скрипт который все голоса упакует в игру обратно
6) Получаю игру с русской озвучкой
Я не уверен, что всю получится, на каждом этапе можно споткнуться (навыки программирования у меня достаточно слабые) а ведь ещё есть такое понятие как липсинк. Ну вообщем идея такая. Демонстрация возможностей синтеза голосов можете увить на видео ниже. В этом же видео будут приведены в пример куски оригинальных голосов с которых нейросеть обучалась. Очевидно, что чем больше будет голосовых данных с разными эмоциями тем точнее и интереснее можно будет делать озвучку. В идеале 20 минут голоса на каждого персонажа.
Обсуждение проекта русификации происходит на на этом дискорд сервере:
Приветствую всех. Думаю все знают, что прогресс не стоит на месте, время идёт, все меняется. Несколько лет назад мы не могли представить, что с помощью нейросетей можно будет создавать картинки по любому запросу в высоком разрешении, делать дипфейки в видео, вести диалог с неким чатом "gpt" и качественно изменять, а также синтезировать голос. О последнем я и хочу сегодня рассказать. Однажды, я наткнулся на сообщество в телеграме под названием "silero". В нем можно было синтезировать голос из текста, ничего особенного вроде, ведь подобных сервисов много, которые используются в том числе в контакте и на ютуб каналах, всем известные голоса как "бот Максим" и "бот Лена". Но было одно отличие у Силеро, которое меня заинтересовало, а именно то, что выбор голосов был обширен, из разных игр и вселенных, например - Warcraft. Приобретя пробную подписку, чтобы снять ограничения на символы, я сделал пробный видео-прикол для друга на тему Матрица, так как голоса из официального русского дубляжа Морфеуса (Владимир Вихров), Тринити (Елена Соловьёва) и Нэо (Всеволод Кузнецов) уже были в данном боте. Было интересно, но я понимал, что все равно слышно, что голос не живого человека, где-то проговоры плохие, где-то интонации не те. В общем, сделал, посмеялся и забыл. Чуть позже, у силеро вышло обновление - добавили новые голоса и сделали первую версию ревойса(переозвучка). Попробовал переозвучку, она получилась очень сырая, больше слышно мой голос, чем голос персонажа, будто наши голоса просто соединили и все. Результат не удивил и я забыл про этот ревойс. Ещё чуть позже, у силеро вышло ещё одно обновление, в котором добавили голоса из спанч боба и улучшили качество ревойса. Записав голосовое сообщение чисто по приколу на ревойс, результат меня удивил. Те слова, которые я говорил своим голосом, произнёс голос Спанч боба, практически с теми же интонациями, с которыми сказал и я. А ещё тем временем у силеро и новость вышла, что всем, кто скинет им материалы для добавления в их бот новых голосов, получит пожизненную бесплатную подписку. Тогда мне и пришла мысль, а сможет ли бот озвучить целый фильм? Тем более в наше время, когда в Российские кинотеатры почти ничего не доходит. Сам раньше занимался озвучкой, со звуком работать умею, почему нет? В общем, отправил админам силеро множество чистых голосов (в соответствии с требованиями) для их бота из различных вселенных (из каких - спойлерить не буду, но уверен, предстоящее обновление будет бомба) я решился на эксперимент, который представляю сейчас вам. Вся работа была проделана одним человеком - мной. Сведение, озвучка, перевод. Ну, как мной? Ещё и нейросетями. Перевод, аудио дорожка, озвучка, это все различные нейросети. Я лишь все это озвучил своим бездарным голосом и смонтировал. То есть, поскольку, как я ранее сказал, я занимался озвучкой, у меня был студийный микрофон, с помощью которого я и записал все фразы из представленной серии сериала Асока, а Силеро изменило мой голос на те голоса, которые я выбрал. Трудно ли это? Честно, да, трудно. Все-таки нейросеть ещё не идеальна. Не до конца считывает интонации, громкость, крик, шёпот, может где-то проявляться картавость, шепелявость, не проговоры. Но лично меня уже даже такой результат поражает. А что дальше? Озвучивать, монтировать, переводить, теперь будет не студия, а один человек? А может будет голос оригинального актёра звучать на всех языках мира при локализациях? Возможно нейросети будут сами снимать фильмы всего-лишь по нашему описанию? Актёры озвучания больше не понадобятся? Это интересное подспорье, к тому же, к сожалению, актёры дубляжа не защищены законодательно никак, ведь данная ситуация не попадает под интеллектуальное право.
В общем, пишите свои мысли на данный счёт. Всё это, это благо, прогрес? А может это наоборот, несет исключительно негативные последствия и нарушает чьи-либо права? Лично я буду и дальше придумывать различные видео\аудио-приколы или же делать правильный перевод к различным видео. (возможны спойлеры, при просмотре видео-презентации сериала "Асока").
Ссылка на само видео, озвученное нейросетью - https://dzen.ru/video/watch/64ea1bbbca11056e26e837cb
В этот раз мы сделали следующее:
- Ускорили все v4 модели в 3-4 раза;
- Существенно повысили качество синтеза в 8 kHz;
- Обновили и пересобрали нашу модель для русского языка;
- Обновили модель для 9 языков народов Индии с 17 голосами;
- Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
- Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);
🎧 Попробовать https://t.me/silero_voice_bot