ИИ-стриминг
Некоторое время назад вышел генератор видео Veo 3 от Google. Качество картинки по сравнению с Veo 2 выросло не сильно, зато прокачали физику, добавили голос и звуки и общей стабильности. Артефакты всё равно лезут периодически, но всё равно очень круто. В сети роликов уже полно, можно насладиться. Для примера:
Выглядит крайне впечатляюще, если не вглядываться, запросто можно принять за реальность.
Однако мы тут про всё же про игры. Их Veo 3 тоже умеет генерировать. Вот тут добрые люди собрали примеры причём как видео из игр, так и запись «стримеров»:
Сразу стоит оговориться, что речь идёт именно о генерации видео геймплея. Системы, способные сгенерировать уровень и дать возможность по нему побегать (типа Genie 2 от Google) – это совсем другие системы. У них с качеством пока сильно хуже, да и ресурсов они требуют больше.
Как можно охарактеризовать нынешнее состояние сгенерированных видео по играми? Как китайскую поддельную игрушку: вроде то же, а радости никакой.
С визуальной стороны проблем нет: качество картинки полностью соответствует игровому, в том числе и по стилизации. Вот так поглядишь и не опознаешь, что нейросетью нарисовано.
А вот со всем остальным плохо: с надписями, интерфейсом, интерактивностью, физикой, геометрией… со всем, короче. Причём зачастую хуже, чем у обычных «человеческих» видео.
Они, например, могут при явном указании нанести на объект желаемую надпись, но когда доходит до самостоятельно работы, жутко лажают.
Точно так же происходит и с интерфейсом: вроде что-то там делают, но получается нейросетевой бред, который запросто распознаешь со второго взгляда:
Например, в одном из файтингов время, как и жизни персонажей, скачет то вперёд, то назад. К реальному игровому процессу это не имеет никакого отношения.
Почему так? Потому что таковая суть нейросетей. Они видят какие-то элементы на определённых местах (интерфейс) и рисуют что-то похожее. Понимания, что от удара должно отниматься hp, а таймер должен отсчитывать секунды, у них нет. С буквами тоже самое — воспринимаются просто как ещё одни объекты: палочки такие, палочки сякие… вот и рисуют нечто похожее:
С геймплеем похожая ситуация. Персонажи вроде машут мечами, дерутся, ездят на машинах, но происходит это всё криво. И куда кривей, чем в видео, сгенерированном по лекалам реального мира. Какое-то месиво, особенно в динамических сценах, и, в отличие от Genie, сгенерированный уровень не запоминается. Стоит только отвернуться, как на месте стены заново сгенерируется уже зал с колоннами. Реальные видео держат наполнение мира куда более стабильным.
Этому тоже есть объяснение. Нейросеть обучается на видео (конкретно у Google под рукой целый YouTube), которого для реального мира куда как больше, чем тех же стримов с играми. А чем больше исходных данных, тем лучше выходные.
Но есть и интересные новости — для дальнейшего улучшения качества, например, сгенерированного видео, имитирующего реальность, требуется всё больше видео, так что без миллионов постоянно снимающих тик-токи не обойтись. А вот для игры можно — карта мира построена, так что достаточно запустить туда простеньких ботов и записывать процесс их игры/передвижения. В теории процесс можно полностью автоматизировать и наснимать такую прорву прохождений, что сгенерированные видео не будут отличаться от записи геймплея.
Устремив число таких записей куда-то к бесконечности, нейросеть на каком-то этапе запомнит, что когда вон та красная полосочка жизни опустошится, всегда нужно выводить картинку:
И вот тут мы плавно переходим к основному вопросу: а могут ли нас появиться ИИ-стримеры? Не просто натянутая на реального человека маска, а прям нейросети, которые играют в игры и собирающие донаты на новую видюху?
В настоящий момент успехи приблизительно таковы:
Именно по качеству картинки отличить сгенерированного стримера от реального лично автор не может. Есть огрехи с липсинком, но в каком-нибудь Veo 5 через годика 2 они будут полностью устранены.
Палятся такие «стримеры» на том, что не понимают — а что, собственно, происходит на экране? Нейросетевые болванчики, несмотря на достоверный вид и эмоции, не могут комментировать происходящее на экране, поэтому не интересны.
Однако, даже в этом нет проблемы. Генерирующая видео нейросеть понимает, какие объекты создаёт. Мало того — если речь идёт о реальной игре, дело становится ещё проще, достаточно просто описывать то, что видишь. Нейросети это уже умеют, «стример» тут просто выступает их аватаркой. Играют в игры, они, правда, пока плохо, но какие их годы? Прошло меньше полутора лет с появления Sora, первой по-настоящему нормально генерирующей видео нейросети, а теперь пытаемся понять, не нейросеть ли сгенерировала очередной ролик.
Глядишь, годиков через 5 каждый получит себе личного Куплинова, который не будет тупить.
P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):
О науке, творчестве и прочей дичи: https://t.me/deeplabscience
Об играх и игровой индустрии: https://t.me/gameprodev
Лига Геймеров
54K постов91.5K подписчиков
Правила сообщества
Ничто не истинно, все дозволено, кроме политоты, за нее пермач, идите на ютуб
Помни!
- Новостные/информационные публикации постим в pikabu GAMES
- Развлекательный контент в Лигу Геймеров
Нельзя:
Попрошайничать;
Рекламировать;
Оскорблять участников сообщества;
Нельзя оценивать Toki Tori ниже чем на 10 баллов из 10;
Выкладывать ваши кулвидосы с только что зареганных акков - пермач
За неэтичное использование сообщества - тоже бан. Если ты выкладываешь пост в наше сообщество и получаешь стартовые плюсы от наших подписчиков, не думай, что вытаскивать потом пост в своё личное сообщество будет умным поступком.