4

Нейро Дудь

Осенью я давал интервью для документального фильма Высшей школы экономики "После промпта". В сам фильм попал небольшой фрагмент, и я долго думал что делать с остальным материалом. Так появился НейроДудь.

ВК версия
Если не считать монтажа самого интервью, работа над роликом заняла около трёх дней. Расскажу о ключевых этапах.

Визуал

Вначале нужно было сделать самого Дудя. Я сразу отказался от реалистичного варианта. Во-первых, это перебор, во-вторых, эффект зловещей долины был бы гораздо сильнее.

И это оказалось сложнее, чем я планировал. Потому что надо было решать сразу три задачи:

  • Дизайн локации должен хорошо монтироваться с основной сценой

  • Нужно было придумать дизайн самого робота

  • Робот должен быть похож на Дудя

Первые варианты выглядели как-то так:

т-1000 был бы доволен

т-1000 был бы доволен

Для генерации я использовал Nano Banana Pro. Попробовал разные нейросетки, но остановился на ней, так как детали нужно было дорабатывать итерациями. На работу с деталями способен и ChatGPT, но результат получался хуже.

Однако, я использовал ChatGPT, чтобы дорабатывать промт для Nano Banana. Без этого у меня получался то лысый краш-тестер:

То наш с Дудём внебрачный сын с голым животом и коленками:

Который в какой-то момент решил ещё и раздеться:

Спустя сутки мучений появился вариант, который меня более-менее устроил:

Осталось доработать окружение, цветокоррекцию и добавить привычную одежду:

Ещё я пытался сделать ему фирменные скрещенные ноги, но после нескольких часов попыток, решил, что лучшее - враг хорошего, и такой Дудь нам не нужен:

Почему нейросеть решила, что в такой позе нужно сидеть именно на таком стуле

Почему нейросеть решила, что в такой позе нужно сидеть именно на таком стуле

Следующим бастином было лицо. Мне не нравился текущий дизайн и я пустился в эксперименты:

Вот этот вариант мне нравился фирменной ухмылкой:

Но почему я от него отказался вы поймёте, когда дойдём до анимации. В конечном итоге, в финальный ролик попала доработанная версия одного из первых вариантов:

Достаточно похож, достаточно отличается, выглядит как следователь на допросе. В общем, то что нужно, чтобы пугать детей.

Синтез голоса

Этот этап был одновременно сложным и простым.

Простым, потому что Elevenlabs позволяет быстро и достаточно точно синтезировать голос. Там же можно расставить необходимые паузы и акценты. Получается как-то так:

Чтобы получился такой результат, нужно собрать хороший референс - исходник реальной речи говорящего, и вот в этом была сложность.

Мне пришлось отсмотреть 4-часовое интервью Дудя и вырезать все моменты, где говорит он. Причём нужны были моменты, где он что-то спрашивает, у него тогда появляются характерные интонации.

И боже, как я устал. Классно его слушать фоном, когда чем-то занимаешься, но когда ты вынужден прям смотреть и искать моменты именно с Юрой, и смотреть прям на Юру - это отдельный вид пытки.

Вам наверняка интересно, сколько минут говорит сам Дудь в своих интервью. И вот вам бессмысленный факт, о котором никто не просил. Юра говорит примерно 40 минут в интервью, которое длится 4 часа. Не благодарите.

Анимация

И вот мы подошли к самому интересному. Чтобы сделать анимацию с липсинком, есть два подхода: простой и сложный.

Сложный выглядит так: вы берёте Runway и выбираете там режим "Act-Two". Дальше нужно снять себя на камеру в нужном ракурсе, сделать вид, что вы Юра Дудь, который задаёт вопросы. Дальше в Premiere подставить вместо своего голоса, голос Дудя, так чтобы он совпадал с губами. И скормить это видео Runway вместе с референсной картинкой, которую мы подготовили на предыдущем шаге.

Тогда генерация была бы классной, НейроДудь активно бы двигался, а его губы хорошо попадали в текст. Но я понял, что так заморачиваться не готов. Сразу было понятно, что этот ролик на грани корректности.

Сомнительная история, с точки зрения авторских прав, да и сам Ютуб легко бы мог его снести по просьбе Юры. (Юра, пожалуйста не кидай страйк). Прикольный эксперимент, но на постоянной основе точно так делать не стоит.

Поэтому я решил пойти по простому пути. Для этого есть сервис HeyGen. Он позволяет загрузить картинку и речь, чтобы получить видео, где нейросеть очень старается сделать липсинк. И даже пробует немного шевелить персонажа. В большинстве говорящих ИИ-картинках вы видите результат работы именно этого сервиса.

Но с ним тоже пришлось помучаться. Помните улыбающегося Дудя? Вот причина, по которой я отказался от этого дизайна:

В процессе анимации это стал кто угодно, но только не Дудь. Нейросеть воспринимает улыбку, как базовые черты лица и из-за этого анимация становится странной. К тому же по голосу слышно, что человек не улыбается.

Но и с более строгим дизайном пришлось намучаться. Чаще всего проблема была в том, что нейросеть слишком сильно растягивала рот на акцентных моментах. Да и липсинк пока далёк от идеала.

Один раз НейроДудь даже впал в экзистенциальный кризис:

Чуть проще было генерить вставки с реакциями Дудя. Делал я их с помощью нейросетей "Kling O1" и "Seedance 1.5" на платформе Кrea. Например тут пытался воссоздать фирменный возмущённый взгляд в камеру:

В конечном итоге, НейроДудь получился хоть и криповым, но всё равно достаточно залипательным.

Кроме Дудя я сделал круглого робота, который влетает в кадр со мной. Он нужен, чтобы чуть удержать внимание зрителя вначале ролика, пока они привыкают к говорящему.

Визуал робота генерировал в Reve - это мой основной инструмент для создания отдельных объектов. Анимацию делал с помощью "Seedance 1.5" на платформе Кrea. В сцену добавил с помощью After Effects.

Оформление

Интервью Дудя сложно представить, без его фирменной отбивки. Только нужно было поменять музыку, чтобы ютуб автоматически не жаловался на авторские права.

Новый логотип сгенерировал с помощью той же Nano Banana, а ремикс на джингл в Stable Audio - это такая Suno курильщика. Пробовал вначале Suno, но сходу не получилось, а Stable сделал с первой попытки то, что нужно. Но за чем-то сложнее туда ходить точно не надо.

Итог

1. Это было весело.
2. Вся работа заняла примерно 3 дня
3. Если прикинуть общую подписку на сервисы и покупку токенов, то получится в районе $150

После интервью для Вышки я сел писать большую серию статей, где детальнее рассказал свой взгляд на будущее, а этот ролик стал классным дополнением.

Судя по коментам на ютубе, людям тоже зашло. Посмотреть можно на Ютубе или в ВК

Искусственный интеллект

5.3K постов11.7K подписчика

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

  I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества