tgarutoday

tgarutoday

На Пикабу
1478 рейтинг 16 подписчиков 0 подписок 3 поста 1 в горячем
9

История о том, как Илон Маск бросил все дела ради работы новостным ведущим в России

А ещё выучил русский язык и переехал в РФ, чтобы работать на YouTube канале 42CHANNEL. А теперь расскажу, чего можно добиться с помощью доступных DeepFake технологий.

История о том, как Илон Маск бросил все дела ради работы новостным ведущим в России

Введение


Deepfake — конкатенация слов «глубинное обучение» и «подделка», методика синтеза изображения, основанная на искусственном интеллекте. Она используется для соединения и наложения существующих изображений и видео на исходные изображения или видеоролики. Как гласит Википедия.


Ещё одна полезная технология современного мира - стриминг видео контента.


И наконец, синтез речи - программная конвертация печатного текста в «неотличимый от человеческого» речевой сигнал.


Закинув все это в блендер и залив контентом в виде новостей, я получил:

42CHANNEL - YouTube канал, круглосуточно транслирующий самые актуальные мировые новости, с Илоном Маском в роли ведущего.

Переходите на трансляцию и смотрите, что из этого вышло своими глазами:

https://www.youtube.com/channel/UCKn3nIsbXSbOxvmiDfCYLmg/live


История


Если вкратце - замысел был беспощадно «украден» у Никиты Колмогорова, а реализация кровожадно сперта у десятка разработчиков по всему миру.


Так как все нужные мне технологии уже были разработаны, мне оставалось их соединить воедино. Сейчас опишу используемые инструменты, так что можете переходить к следующей части статьи.


Для создания дипфейк видео взял Wav2Lip, который довольно прост в использовании, но ввиду кривизны моих рук, пришлось изрядно попотеть, чтобы установить зависимости на моём ПК.

Демонстрация работы Wav2Lip.

Путем множественных тестов, для синтеза речи был выбран SOVA TTS. А итоговое видео создается через FFmpeg и через него же транслируется на YouTube.


Часть кода, отвечающая за генерацию видео, крутится на моём стационарном ПК с видеокартой 2060 Super. Подходящий сервер с GPU неоправданно дорогой для текущей стадии.

Кому это нужно?


Кому это нужно?


Хотелось бы верить, что вообще всем. Моя задача - создать и предложить, остально дело за зрителями. С другой стороны, кто откажется под кружечку чая смотреть, как Илон рассказывает о мировых проблемах.


Какие есть проблемы?


Самая главная проблема - кривое произношение, иногда сложно понять, что сказал ведущий, особенно на аббревиатурах.


Кроме того, на текущем этапе разнообразие происходящего на трансляции оставляет желать лучшего. В планах добавить больше динамики, разные ракурсы ведущего и видео вставки.


Заключение


На самом деле, моя главная цель - вдохновить крупные компани автоматизировать все процессы в мире, лишить людей работы, устроить кризис на рынке труда и подорвать экономику. Ведь, как мы все прекрасно понимаем, с этого момента ведущие больше не нужны. Как вариант, компания Яндекс может взять проект за основу и развить его до чего-то революционного и не имеющего аналогов в мире.


И ещё кое что. Если трансляция прервется по техническим причинам, ссылка на неё изменится, поэтому, чтобы не утратить стрим, вы можете либо подписаться на канал, либо сохранить постоянную ссылку, которую я указал выше.


С любовью, tgaru.

Показать полностью 1
157

Яндекс неумело «украл» мою идею с озвучкой субтитров на YouTube

Нацепили на себя передники и пекут свои пироги под видом «сложной задачи, которую никто в мире еще не решил»!

Предыстория


Привет, Пикабу! Я выступаю как независимый разработчик, запустивший две недели назад браузерное расширение для озвучки субтитров «YouTube SubSound».

Статья получила довольно хороший охват как здесь, так и на vc. В целом, пользователи довольно тепло приняли проект, несмотря на многие проблемы бета версии. Именно это я считаю свидетельством того, что расширение вышло полезным и удобным.


Можете ознакомиться с материалом, для понимания дальнейшего повествования:

https://vc.ru/tribuna/268237-youtube-subsound-avtomaticheska...


Не «украли», а адаптировали!


Через ~6 дней захожу на vc и вижу статью:

https://vc.ru/tech/270552-yandeks-sozdal-prototip-zakadrovog...

Первая мысль: «Что?? В каком мире мы живём? Таким НАГЛЫМ образом «воровать» идеи, будучи авторитетной для многих компанией!». И это не пустые обвинения! Стоит сравнить хотя бы наши публикации. Даже оперируют теми же фразами, что и я:

«…который недоступен людям из-за языкового барьера. И мы близки к тому, чтобы окончательно стереть все границы…»

Против моих:

«Как здорово было бы стереть эту границу!»

и

«…получить доступ к контенту, который в силу языкового барьера недосягаем или тяжело воспринимаем…»

А вот моё любимое:

«Это большая сложная задача, которую никто в мире еще не решил. »

Да, конечно никто… Так уж откровенно лгать… Хотя они и оперируют тем, что «наши технологии разные - мы переводим, а потом озвучиваем, а они пока только озвучивают», суть и боль, которую мы решаем, одинаковы - дублирование видео на язык, отличный от оригинального языка.


Интересно то, что после моей публикации на связь вышел некий человек из Яндекса с намерениями внедрить их Speech Kit в моё расширение, что я и так планировал сделать. Постоянно всплывала тема монетизации пользователей, когда я хочу сделать инструмент бесплатным, где люди бы платили Яндексу напрямую, т.е. не взимая комиссию. Были вопросы про реализацию и про конкурентов. И всё это за 1 день до релиза их прототипа. Очевидно, прощупывание почвы перед запуском.

Чем SubSound лучше?


Самое главное преимущество - нет ограничения одной платформой. На данный момент поддерживаются Chrome, Opera и браузеры на основе Chromium, в том числе и Яндекс Браузер. И я продолжу расширять этот список. Яндекс же ограничили себя своим браузером, которым в России пользуются в разы меньше, чем альтернативами. Даже не считая зарубежный рынок. Ждём, когда ребята из Яндекса поймут это и выкатят версию, не завязанную на своих продуктах.


Второе - это большой выбор языков. Сейчас поддерживаются русский, английский, японский, китайский, корейский, французский, немецкий, испанский, итальянский и польский языки. У Яндекса же пока только связка английский-русский.


Третье - простота. Опять же, это подкрепляется первым преимуществом. Установил один раз расширение в СВОЙ любимый браузер и нативно пользуешься. Кнопка озвучки всегда в плеере!


Чего ждать в дальнейшем?


В ближайшем обновлении ждите очень красивый и живой голос, технологию которого разработали одни невероятно крутые ребята!


А также будет добавлен автоматический выбор языка, скрытие субтитров и настройки скорости и громкости (для тех кому не подходит автоматическая настройка).


Заключение


Считается, что идея - это ничто и красть тут нечего. Якобы без реализации - это пустой звук. По большому счёт это так, хотя за любой идеей стоит работа, заключающаяся в поиске «боли» исследовании и адаптации/упрощении. В моём случае идея была подкреплена реализованным продуктом.


Крупные компании, такие как Яндекс, в погоне за потенциальными прибылями и аудиторией, считают, что могут присвоить идею мелкого разработчика себе. Я не намерен это спускать и буду развивать проект и делать мир действительно лучше, хотя не имею таких же ресурсов и влияния.


Если тут найдутся люди, кому нравится YouTube SubSound, лучшей помощью будет рассказать о ситуации и расширении как можно большему числу людей. Это никак не изменит ситуацию, но прибавит пользователей, что в свою очередь не даст расширению погрузиться в небытие под гнётом громадной компании!

Показать полностью 2
1237

YouTube SubSound — автоматическая озвучка субтитров на YouTube1

Расширение для браузера, которое озвучивает субтитры на YouTube.

Вступление


Привет всем! Заходя на YouTube мы ограничиваемся роликами, язык которых нам знаком, а великое множество контента на других языках мы игнорируем. "Как здорово было бы стереть эту границу!" – подумал я и создал «YouTube SubSound»


Это бесплатное расширение озвучивает субтитры на YouTube параллельно видеоролику и поддерживает русский, английский, японский, китайский, корейский, французский, немецкий, испанский, итальянский и польский языки.


Процесс разработки


Немного предыстории. Всё началось с идеи переводить и озвучивать фильмы и сериалы. Интересно было пощупать механику субтитров, синтеза речи и синхронизации с видеорядом. После недолгой попытки реализации стало понятно, что полезного и удобного применения этому я не смогу найти и всё остановилось особо и не начавшись.


Но через некоторое время, открыв какое-то видео на YouTube с субтитрами, я ощутил сложность одновременно следить за картинкой ролика и читать перевод. Сопоставив предыдущий неудачный опыт озвучки фильмов с новой проблемой, родилась идея оживить субтитры YouTube программно генерируемым голосом. Итак, я решил сделать расширение для Chrome, т.к. это самый удобный способ внедрить данную функцию.


Накидав небольшую демку на ~80 строк кода, я понял, что получается довольно неплохо, хоть и результат сильно зависит от качества перевода. Само собой, лучше всего выходило с роликами, где автор позаботился о написании/переводе субтитров. Но доработав код, удалось добиться довольно приемлемой слушабельности. И в какой-то момент, во время теста я слушал фоном интервью-ролик с очень быстрой подачей и обнаружил, что не только уловил суть, но и не почувствовал сильного дискомфорта (тут дело вкуса) при прослушивании!


Записал пару видео, нарисовал быстро логотип, сделал скриншоты и отправил расширение на модерацию в Chrome Web Store, где за 2 дня его проверили и опубликовали. Теперь любой желающий может его бесплатно установить.


Как пользоваться?


Первым делом нужно установить расширение «YouTube SubSound» в ваш браузер.


После чего открыть любой ролик с субтитрами, вывести их на предпочитаемом языке и активировать озвучку, нажатием НОВОЙ кнопки в плеере YouTube.

YouTube SubSound — автоматическая озвучка субтитров на YouTube

Всё! Голос будет идти параллельно с видео!


Дальнейшие планы


Озвучку на текущем этапе сложно назвать профессиональной. Поэтому в планах добавить синтез речи от Yandex и Google, которые должны улучшить качество звучания и восприятия слушателем.


Также есть идея регулировать скорость произношения и высоту голоса для отдельных фраз, дабы как можно сильнее приблизиться к оригинальной звуковой дорожке.


Заключение


Продукт призван помочь людям получить доступ к контенту, который в силу языкового барьера недосягаем или тяжело воспринимаем. YouTube SubSound даёт возможность смотреть обучающие, научно-популярные или развлекательные видео без привязки к конкретному языку!


Я с нетерпением жду ваших отзывов о разработанном мной расширении. Не стесняйтесь оставлять комментарии! И если вам понравилось, проголосуйте за проект на ProductHunt.

Показать полностью 1 1
Отличная работа, все прочитано!