Сгенерированными нейросетью картинками, видео и песнями сегодня уже никого не удивить, однако, искусстенный интеллект способен на куда большее. Этой осенью энтузиасты представили не просто видео, а игровой процесс от нейросетей:
Несмотря на впечатляющее достижение, подобные генерации имеют и сильные ограничения. Например, мир, в отличии от построенного стандартным методом, крайне нестабилен. Нейросеть непрерывно генерирует изображение, не запоминая, что было сделано секунду назад. Стоит только отвернуться от чего-то, а потом поглядеть обратно — и там вместо уже пройденного участка будет совершенно другие объекты или монстры. Понятно, что строить таким способом игры невозможно.
И вот, 4 декабря 2024 года Google DeepMind (это та самая команда, которая и открыла архитектуру трансформера, лежающую в основе практически всех нейросетей) представила Genie 2 – свою систему генерации игровых, и не только, миров.
Если Genie 1, представленная в феврале 2024 года могла генерировать только 2D изображение, то Genie 2 способна на куда большее. Если отставить в сторону условности, то модель создаёт если не полноценные, то близкие к ним 3D-уровни с возможностью взаимодействия.
Работает всё очень просто: генератор картинок Imagen 3 по текстовому описанию создаёт изображение, а затем Genie 2 преобразует его в уровень:
С этим уровнем игрок может взаимодействовать: перемещаться влево, вправо, назад и вперёд, поворачиваться при помощи мыши, а также прыгать и использовать некоторые предметы:
Каждое нажатие на клавишу заставит Genie 2 перерисовывать мир, основываясь на логике заданного действия. Фактически, это такой продвинутый генератор видео, где каждые следующие кадры зависит от пользователя:
Основное отличие этой нейросетки от всех остальных — неизменность окружения. Однажды сгенерированные объекты остаются на уровне навсегда.
По заявлениям авторов, модель обладает следующими возможностями:
Генерация разнообразной среды и жанров (первое/третье лицо, гонки, RPG, и т. д.);
Сложные трёхмерные сцены;
Дымовые эффекты;
Отражения (в зеркалах и воде), свечение и общее цветное освещение;
Физика (взрывы, отражение, взаимодействие с водой);
Взаимодействие с другими персонажами;
Гравитация;
Взаимодействие героя с разными объектами вроде лестниц;
Направленное и рассеянное освещение (Хуанг, твои RTX больше не нужны, готовься к карьере грузчика);
NPC, способные самостоятельно выполнять команды, основанные на человеческой логике (поднимись по лестнице, открой такую-то дверь, возьми такой-то предмет).
Вот пример отражения и цветного освещения:
Выглядит впечатляюще, да и графика вполне стильна.
Проблемы
Увы, если кто-то уже навострил лыжи сделать свою «Смуту», то пока коней надо попридержать: генерируется всего 60 секунд мира, а полноценно сгенерировать можно и вовсе только 10-20 секунд движения. После этого мир начинает рассыпаться и модель не выдерживает единый стиль (это вообще общая проблема ИИ). К тому же, генерация мира происходит в реальном времени. Изначально генерируется лишь тот участок уровня, который виден на исходном изображении, а затем к нему достраиваются другие участки. Так что полно ситуаций, когда слабо различимые объекты перестраиваются на ходу. Была тень от дерева — стала забором.
Есть и другие недостатки — до сих пор модель плохо стыкует различные участки уровней. Запросто может оказаться так, что за открытой дверью дома обнаружится пещера или вообще выход в море.
Да и ест Genie 2 как не в себя (Хуанг, у нас отмена, твои RTX снова понадобились), из-за чего всё пока получается в невысоком разрешении.
Для чего?
К сожалению, пока, несмотря на прогресс, использовать подобные генерации в геймдеве нельзя. Уж больно нестабильна генерация.
Однако кое-что сделать уже можно. Например, быстро прототипировать уровень. Теперь из концепт-арта можно создать уровень и оценить, как он будет смотреться в принципе. Также можно посмотреть, как будет вести себя на уровне разные монстры.
Что дальше?
Хотя сегодня даже авторы признают малую пользу Genie 2, логика развития неумолима — игры, созданные при помощи нейросетей, ждут нас всех. Года четыре назад на подобное видео сказали, что это просто поделки от школьника или анимация. Года два — что до такого ещё далеко, нейросети пальцы-то нарисовать не могут.
Так что же, дизайнерам и художникам рано паковать чемоданы? До полноценных игр, полностью созданных при помощи ИИ, пока действительно далеко — не хватает мощности железа, алгоритмы несовершенны (Хуанг, ты там думаешь шевелиться?). Скорее, в ближайшие годы мы увидим некий сплав ручной работы и работы нейросети. Например, основное окружение будет делаться человеком, а фоны рисоваться при помощи нейросети:
Кто хочет больше видео с примерами работы — проходите ссылке, там всё есть.
P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):