Ответ на видео "Из голоса банка - в фильмы 18+"
Мое мнение о технологиях синтеза голоса и конфликте между Аленой Андроновой и банком Тиньков.
Мое мнение о технологиях синтеза голоса и конфликте между Аленой Андроновой и банком Тиньков.
К девушке нет негатива, просто юмор. Пускай борется с чем хочет, жаль...
Продолжение моей эпопеи и нашей борьбы, первая статья и видео - в серии. В предыдущем видео - со мной заключили спорный договор и сделали из меня общедоступный синтез, который теперь звучит в 18+ рекламе.
Сейчас я хочу дать ответ банку, а также обсудить спорные моменты и поделиться мнением экспертов, а также призвать вас к участию в нашей борьбе!
Расшифровать текстовую версию в этот раз, увы, не успела
Приветствую всех. Думаю все знают, что прогресс не стоит на месте, время идёт, все меняется. Несколько лет назад мы не могли представить, что с помощью нейросетей можно будет создавать картинки по любому запросу в высоком разрешении, делать дипфейки в видео, вести диалог с неким чатом "gpt" и качественно изменять, а также синтезировать голос. О последнем я и хочу сегодня рассказать. Однажды, я наткнулся на сообщество в телеграме под названием "silero". В нем можно было синтезировать голос из текста, ничего особенного вроде, ведь подобных сервисов много, которые используются в том числе в контакте и на ютуб каналах, всем известные голоса как "бот Максим" и "бот Лена". Но было одно отличие у Силеро, которое меня заинтересовало, а именно то, что выбор голосов был обширен, из разных игр и вселенных, например - Warcraft. Приобретя пробную подписку, чтобы снять ограничения на символы, я сделал пробный видео-прикол для друга на тему Матрица, так как голоса из официального русского дубляжа Морфеуса (Владимир Вихров), Тринити (Елена Соловьёва) и Нэо (Всеволод Кузнецов) уже были в данном боте. Было интересно, но я понимал, что все равно слышно, что голос не живого человека, где-то проговоры плохие, где-то интонации не те. В общем, сделал, посмеялся и забыл. Чуть позже, у силеро вышло обновление - добавили новые голоса и сделали первую версию ревойса(переозвучка). Попробовал переозвучку, она получилась очень сырая, больше слышно мой голос, чем голос персонажа, будто наши голоса просто соединили и все. Результат не удивил и я забыл про этот ревойс. Ещё чуть позже, у силеро вышло ещё одно обновление, в котором добавили голоса из спанч боба и улучшили качество ревойса. Записав голосовое сообщение чисто по приколу на ревойс, результат меня удивил. Те слова, которые я говорил своим голосом, произнёс голос Спанч боба, практически с теми же интонациями, с которыми сказал и я. А ещё тем временем у силеро и новость вышла, что всем, кто скинет им материалы для добавления в их бот новых голосов, получит пожизненную бесплатную подписку. Тогда мне и пришла мысль, а сможет ли бот озвучить целый фильм? Тем более в наше время, когда в Российские кинотеатры почти ничего не доходит. Сам раньше занимался озвучкой, со звуком работать умею, почему нет? В общем, отправил админам силеро множество чистых голосов (в соответствии с требованиями) для их бота из различных вселенных (из каких - спойлерить не буду, но уверен, предстоящее обновление будет бомба) я решился на эксперимент, который представляю сейчас вам. Вся работа была проделана одним человеком - мной. Сведение, озвучка, перевод. Ну, как мной? Ещё и нейросетями. Перевод, аудио дорожка, озвучка, это все различные нейросети. Я лишь все это озвучил своим бездарным голосом и смонтировал. То есть, поскольку, как я ранее сказал, я занимался озвучкой, у меня был студийный микрофон, с помощью которого я и записал все фразы из представленной серии сериала Асока, а Силеро изменило мой голос на те голоса, которые я выбрал. Трудно ли это? Честно, да, трудно. Все-таки нейросеть ещё не идеальна. Не до конца считывает интонации, громкость, крик, шёпот, может где-то проявляться картавость, шепелявость, не проговоры. Но лично меня уже даже такой результат поражает. А что дальше? Озвучивать, монтировать, переводить, теперь будет не студия, а один человек? А может будет голос оригинального актёра звучать на всех языках мира при локализациях? Возможно нейросети будут сами снимать фильмы всего-лишь по нашему описанию? Актёры озвучания больше не понадобятся? Это интересное подспорье, к тому же, к сожалению, актёры дубляжа не защищены законодательно никак, ведь данная ситуация не попадает под интеллектуальное право.
В общем, пишите свои мысли на данный счёт. Всё это, это благо, прогрес? А может это наоборот, несет исключительно негативные последствия и нарушает чьи-либо права? Лично я буду и дальше придумывать различные видео\аудио-приколы или же делать правильный перевод к различным видео. (возможны спойлеры, при просмотре видео-презентации сериала "Асока").
Ссылка на само видео, озвученное нейросетью - https://dzen.ru/video/watch/64ea1bbbca11056e26e837cb
В этот раз мы сделали следующее:
- Ускорили все v4 модели в 3-4 раза;
- Существенно повысили качество синтеза в 8 kHz;
- Обновили и пересобрали нашу модель для русского языка;
- Обновили модель для 9 языков народов Индии с 17 голосами;
- Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
- Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);
🎧 Попробовать https://t.me/silero_voice_bot
Персонажи Warcraft 3 (Тралл, Гром и Кэрн) поют гимн Орды. Голоса сгенерированы с помощью бота для синтеза (@silero_voice_bot), текст основан на гимне СССР (1943—1956).
Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar из репозитория silero-models … опубликованный под некоммерческой лицензией CC BY-NC-SA.
Сравните голос тут:
И тут (кота вставил, потому что Пикабу не умеет в аудио):
Очевидно, что когда мы выкладывали модель, мы прекрасно понимали, что у этого могут быть последствия. Нам конечно льстит, что РЖД сделала свой выбор в пользу нашей модели, но это не отменяет факта нарушения лицензии.
Обычно компании обращаются за кастомизацией или доработками. Или просто покупают лицензию на коммерческую версию ПО. Но в данной ситуации видимо сотрудникам РЖД (или подрядчикам) было просто наплевать на лицензию … или они ее просто не читали (все мы догадываемся как работают бизнес процессы в таких компаниях).
Очередной вопрос к комьюнити, стоит ли инвестировать средства в судебные тяжбы в этой конкретной ситуации, или оставить ситуацию на уровне публичного обсуждения и постараться привлечь к нему максимальное количество внимания? Может быть вы уже оказывались в подобной ситуации - пожалуйста поделитесь своим опытом.
В прошлый в похожей ситуации раз мнения разошлись (и банк сразу прибежал в комментарии мол ой, мы уже не используем, вы нас не так поняли): часть комьюнити топила за то, что тогдашняя лицензия GNU AGPL по сути не защищает такие релизы от коммерческого использования, часть, что банк неправ. Но по этой причине лицензию моделей поменяли на CC BY-NC-SA и вроде как сейчас сомнений уже не должно быть.
Поднимите, пожалуйста, в топ.
В прошлый раз писал пост про бота для озвучки голосами орков из Warcraft. Вроде зашло. Хотел рассказать, что нового появилось.
Добавилась переозвучка аудио и кружков. Фича экспериментальная. "Обычные" голоса работают лучше фановых игровых, всё еще впереди. Вот более-менее реалистичная презентация (понятно, что решает микрофон и похожесть голоса на целевой):
В боте можно контролировать темп и тон речи. При замедлении некоторые персонажи начинают звучать как бухие, например (панде это особенно хорошо подходит).
В боте теперь есть огромный выбор голосов из разных игр, от олдскульных до зумерских:
Также наросло много "секретных" и фановых фич:
- Инлайн режим бота (/inline), чтобы использовать его в чатах (знаю, не работает с кружками, ограничение самой телеги);
- Озвучка гифок (/gif) - по сути наложение аудио на гифку - открывает простор для творчества;
- Упомянутая выше возможность менять темп и тон речи (/prosody);
- Возможность озвучки целых диалогов сразу (/speak) и смены голоса в командной строке (/speaker).
Знаю, что в последнее время тут не любят ссылки на телегу и очень агрессивно к этому относятся. Но бот изначально был в телеге.
Чтобы сделать свою озвучку нужно зайти в бота, выбрать персонажа и ввести текст. И все, озвучка готова!
Конкурс мемов объявляется открытым!
Выкручивайте остроумие на максимум и придумайте надпись для стикера из шаблонов ниже. Лучшие идеи войдут в стикерпак, а их авторы получат полугодовую подписку на сервис «Пакет».
Кто сделал и отправил мемас на конкурс — молодец! Результаты конкурса мы объявим уже 3 мая, поделимся лучшими шутками по мнению жюри и ссылкой на стикерпак в телеграме. Полные правила конкурса.
А пока предлагаем посмотреть видео, из которых мы сделали шаблоны для мемов. В главной роли Валентин Выгодный и «Пакет» от Х5 — сервис для выгодных покупок в «Пятёрочке» и «Перекрёстке».
Реклама ООО «Корпоративный центр ИКС 5», ИНН: 7728632689