Пайплайн AI-генерации контента (Parallel + Nano Banana)
Месяц назад я выкладывал пост о своем 6-экранном кубике и первых попытках сгенерировать для него контент. Знаю, как на Пикабу относятся к потоку однотипных ИИ-артов, поэтому сегодня хочу показать не просто результат, а весь многоэтапный процесс создания осмысленного контента. Это пост-доказательство того, что за хорошей ИИ-генерацией стоит серьезная работа.
Если совсем коротко, чтобы не грузить личной историей - я хотел показывать на кубе не просто цифры, а какие то прикольные картинки. И этим зацепить известных людей. Да, просто показ картинок на кубе при тряске это не так интересно, НО это был первый шаг в работе с моим концептом. Но статья не об этом, а о генерациях. Куб как некий катализатор и форма для которой и на которой будет показываться контент.
Формат статьи это некая смесь истории развития моей работы с ИИ с полезняшками в виде промтов и рассуждений =)
1. Время нейросетей.
Начнем с того, что я люблю экономить. Даже если считать, что генерации картинок стоят не много, всё равно это деньги. Ну и плюс разрешение экранов кубика 240*240 пикселей, а ИИ обычно генерит 1024*1024, куда мне столько много.
Через тот же ChatGPT cделал промт такого вида:
Modern pixel art, 3x3 grid layout of six 240x240. Same wizard face in different robes and pointed hat in each panel, interacting differently with numbers 1, 2, 3, 4, 5, and 6. Each number has unique magical effect and interaction - holding, summoning, transforming, enchanting. Numbers are clearly visible and don't obscure the character. Consistent character design across all panels. Magic different background, soft glowing lights. High-resolution sprite quality, vibrant colors, clean composi
tion.
Основная идея это сетка из картинок с одним персонажем. Причем если сетка 4*4, то результат уже не очень.
Здесь у нас просто текстовый промт. Нейросеть "держит" одного персонажа и размещает его в разных локациях. Но абстрактный маг не так интересно.
2. Тест на Heroes of Might and Magic III
Для теста взял классику — юнитов из Героев 3. Знакомые всем персонажи, понятно как должны выглядеть.
Продолжаем полет мысли. Теперь берем референсную картинку и сделаем тоже самое как с магом - сетка и разные позы.
Промт:
3x3 grid of 9 square panels. each panel has a unique plot. Сharacter from image - Gnoll Marauder from homm 3 (It is important to preserve only the character's face and clothes) in different poses and in each panel, interacting differently with numbers 1, 2, 3, 4, 5, and 6. only ONE digit per panel. numbers may be repeated on different panels. Numbers are clearly visible and don't obscure the character. diffefent background from game Heroes of Might and Magic 3. backgrounds should match the style of the game. High-resolution quality, vibrant colors, clean composition.
Исходная картинка из интернета:
Результат:
Как можем видеть, ИИ "держит" одного персонажа на всех картинках, делает классные локации и еще сохраняет тот же стиль рисовки.
А теперь магия, которая меня прям удивила тогда. А что если взять исходный пиксельный портрет из игры и попросить ИИ перерисовать его в норм разрешении (промт такой и был кстати).
Это выглядело как чудо. И теперь у меня был исходник, с которым можно работать. А не чужой рисунок из интернета. И так же, я решил отказаться от цифр, так как их можно просто нарисовать потом поверх.
Промт остается почти тем же, только без цифр и с добавлением явных действий персонажа:
3x3 grid of 9 square panels. each panel has a unique interesting plot. Сharacter from image - spearman from homm 3 (It is important to preserve only the character's face and clothes) in different poses (sits, stands, trains, fights, etc.) and in each panel diffefent background from game Heroes of Might and Magic 3. backgrounds should match the style of the game. High-resolution quality, vibrant colors, clean composition.
Примерно тем же методом генерируем еще основу для персонажей, но теперь на сером фоне (не всех персонажей получилось сделать идеально и с первого раза).
Имея персонажей на нейтральном фоне, ИИ не будет ни на что отвлекаться.
Берем тот же промт с разными позами. Покажу результаты на основе ангела. Можно заметить, что не все картинки получились теми, что нужно. Но учитывая что у нас их 9 шт, пара неудачных можно просто не брать.
Причем хочу заметить, что процесс генерации с такими промтами очень затягивает, потому что промт без явной конкретики всего и вся. ИИ сам придумает "интересную историю" и иногда получается прям круто.
При этом, если добавить в промт слова "абсурд / мем история", получается очень забавно. При этом, с теми же персонажами с референса, что вдвойне смешно. Мемы с ангелом получились шикарными.
Наигравшись с героями 3, решил заняться чем то более полезным и контентом связанным с известными людьми.
3. Почему VLDL
Механика есть, теперь нужен контент. И не просто картинки — а что-то узнаваемое, с историей, с фанбазой.
Выбор пал на Viva La Dirt League. Если не знаете — это новозеландские ребята с миллионами подписчиков на YouTube. Известны скетчами про NPC в играх, но главное — у них есть пятилетняя D&D-кампания “Adventures in Azerim”.
Почему именно они? Честно — просто потому что сам их смотрю. Почти каждый день. Когда думал, чьих персонажей генерить, они первые пришли в голову.
Плюс у них идеальный контент для такой механики:
Узнаваемые персонажи с характерами
Пять лет истории = сотни эпизодов и событий
Огромная фанбаза, которая знает этих героев
Идея была простая: сделать крутой контент с их персонажами и попробовать как-то зацепить VLDL. Показать, что их мир можно перенести на физический гаджет. Ну и может быть, они это заметят и будет какой-то резонанс.
Сначала так же берем картинку из инета для тестов.
Промты почти те же - панель, мемы и всё такое.
3x3 grid of 9 square panels. each panel has a unique meme, absurd, and interesting plot with one main character. The character from the reference image - Bodger the Barbarian, a muscular, narcissistic barbarian with long black hair (It is important to preserve the character), in different absurd and comedic poses in each panel. Different backgrounds from a gritty, low-fantasy D&D world. Backgrounds should be slightly grimy and lived-in, matching the painterly style of the character art. Locations include: a dingy medieval tavern, a muddy forest road, a damp stone dungeon. High-resolution quality, rich painterly style, dynamic composition, matching the art style of the reference image.
Результат получается забавный, но уже больше процент брака, ИИ начинает смешивать сюжеты и детали на несколько панелей.
Убрав всего одно слово из промта "абсурд" - получаем стабильный результат, как у случае с героями 3. Вот примеры для других персонажей.
Но просто персонажи в разных локациях, это хоть и забавно, но как будто слишком просто (учитывая как относятся к ИИ, что это нарисовать картинки в пару кликов). Нужно было как то добавить ценности к самим картинкам. Как упомянал ранее, VLDL 5 лет играли DnD кампанию и оказывается только недавно она закончилась. И появилась идея нагенерить картинок с их эпичными моментами
4. КРАКЕН нейросеть Parallel AI
Начнем с того, что я стараюсь моментально пользоваться всеми доступными инструментами по части нейросетей. Что-то ускоряет написание кода, что-то анализирует огромное количество информации и тд.
И недавно открыл для себя Parallel AI (platform.parallel.ai).
Как бы описать что это.. Хотя слово КРАКЕН в мире нейросетей идеально подходит. Если брать поисковую нейросеть Perplexity, то Parallel её превосходит в десятки, если даже не сотни раз.
Как я понимаю, эта нейросеть не хранит внутри никаких данных. Она полагается на всё, что наловит в интернете по актуальной информации с сайтов и документов.
Внутри неё процесс (судя по логам) - она прочитывает тысячи страниц, набирает материал по промту, анализирует и выдает 10-15 страничные отчеты.
Ранее я использовал этот ИИ для поиска патентов, проверки названий на уникальность, маркетинговых стратегий и тд.
И тут решил попробовать сделать так, чтобы этот ИИ просмотрел за меня весь материал по VLDL DnD кампании и выдал полный список сцен для рисовки. Промт для этого ИИ получился огромным и чтобы совсем не засорять статью, опишу костяк промта.
[ROLE] Ты — главный архивариус вселенной VLDL. Твоя специализация — их D&D-кампания, которая длилась 5 лет (250 эпизодов). [TASK] Проанализируй все доступные данные по кампании (транскрипты YouTube, VLDL Wiki, Reddit, комментарии фанатов). Создай максимально детальное досье на персонажа [ИМЯ]. Составь список из 70-90 самых знаковых моментов. Классифицируй каждый: - [LEGENDARY FAILURE]: эпичные провалы, крики на "1", тупые решения ставшие мемами - [MOMENT OF TRIUMPH]: героические моменты, переломы в битвах - [CHARACTER KEY]: моменты раскрывающие личность, страхи, мотивацию [OUTPUT FORMAT] Для каждого момента — визуальное описание как для художника: - Сцена: что происходит (3 предложения) - Ключевые фигуры: кто в кадре - Визуальные детали: окружение, объекты, выражения лиц, действия - Эмоция: доминирующее чувство сцены - Иконический образ: один "стоп-кадр", который передаёт суть момента [GOAL] Отчёт станет основой для 100 уникальных артов.
После работы этого ИИ, для каждого персонажа у меня получились огромные документы с детальным описанием десятков важных сцен для рисовки.
Например:
[THE TRINKET MARKET INTERVENTION] **Сцена:** На рынке Боджер замечает, что у оловянной фигурки рыцаря согнут меч, и решает «исправить» это для торговца. Одним слишком сильным ударом молотка он не только выпрямляет меч, но и раскалывает угол стола. В результате весь товар торговца, включая десятки других хрупких фигурок, разлетается вдребезги.
**Ключевые фигуры:** Боджер, Торговец безделушками (тощий человек в залатанной одежде).
**Визуальные детали:** Шумный рыночный переулок с грязными булыжниками. Боджер достает маленький молоток, кладет оловянную фигурку (рыцарь с гнутым мечом) на угол хлипкого деревянного стола. После одного точного, но чрезмерно сильного удара, угол стола раскалывается, и десятки других фигурок разлетаются по воздуху.
**Эмоция:** Катастрофическая помощь, Хаос.
**Иконический образ:** Крупный план лица торговца, застывшего в ужасе, когда его товары разлетаются по воздуху. На заднем плане Боджер смотрит на теперь уже идеальную фигурку в своей руке, совершенно не замечая хаоса.
Теперь есть материал, с которым можно работать. Есть и истории и навык рисовки персонажей. Теперь через другой ИИ вкидываем ему сценки, чтобы он сделал промт для рисовки, разделив сюжет на 6 кадров (у куба всего ж 6 граней), а на 3 остальных оставить по желанию ИИ.
Именно те промты я потерял (но они по смыслу примерно те же, что выше - 3*3 и описание каждой панели), и результат такой:
Потом на последней истории ИИ случайно сделал не четкие панели, а комикс..
Как уже понятно, комикс и вообще генерация контента по моему пайплайну - это не копипаста, которую можно просто взять и получится результат. Это многоэтапный процесс, в котором нужно использовать различные инструменты и вообще думать головой, чтобы получился хороший результат. И как видели выше, даже изменив одно слово в промте, итог может кардинально измениться.
Комиксы по своей идее та же генерация панелей, но с несколькими отличиями - это стиль и указание "не жесткой" раскадровки. При этом если годный результат по предыдущим промтам получается почти с первого раза, то чтобы получить комикс это 15-20 генераций, точечно меняя слова. И иногда дорабатывая картинку в фотошопе. Причем, каждый раз стиль оформления самого комикса может меняться.
И снова костяк промта:
Одна эпичная иллюстрация как хаотичный нарративный монтаж. Не жёсткие панели, а перетекающие друг в друга моменты. Стиль: контрастная графическая новелла, жирные экспрессивные чернила. Локация: декадентское эльфийское казино, золотой свет. Главный герой: персонаж с изображения [Bodger] — он и только он во всех кадрах. ЯКОРНЫЙ ОБРАЗ (центр композиции, низ страницы): [Bodger] сидит за столом, поражён. Крупный план пустых ладоней. ВОКРУГ ЯКОРЯ — НАРРАТИВНЫЕ БИТЫ: - Сделка (верх-лево): получает мешочек денег от фигуры в плаще - Бросок (центр): динамичный кадр, кричит в экстазе, кости и монеты в воздухе - Проигрыш: крупный план костей на столе — проигрышная комбинация - Ужас: лицо [Bodger] искажено в широкоглазом шоке - Грабли: рука крупье сгребает последние монеты - Насмешки: призрачные лица эльфов-игроков смеются на фоне РЕЖИССЁРСКАЯ ЗАМЕТКА: Не сетка — поток. Свет, тень и расположение ведут глаз от Сделки через хаос к финальному образу пустых рук.
Как видите по промту, это не классический простой промт, это практически рассказ истории и раскадровка того, что нужно нарисовать через ИИ. И под каждую сцену свой текст, свои десятки попыток и пара часов работы.
Вот примеры что получалось по комиксам:
При этом еще есть блок, как у меня получилось сделать персонажей максимально похожих на команду VLDL. В принципе это достаточно просто. Нарезав несколько скриншотов из их видео, я попросил Nano Banana совместить в одно фото на студийном сером фоне. Конечно не с первого раза, но оно получилось.
И бонусом, генерации не комиксов, а отдельных сцен, совсем в другом стиле (но исходя из тех же историй от Parallel). У нейросети еще так круто получается работать со светом.
5. Видео с тем самым кубом
Специально оформил красиво фон. Кстати, музыка прям идеально легла.
Картинки читаемые, персонажи узнаваемые, цвета сочные. Это ранняя версия механики — сейчас картинки крутятся как в слот-машине, выглядит лучше. Но для демонстрации пайплайна - показываю как было.
Что хочется в конце сказать - в любом случае пробуйте все идеи и возможности что у вас есть. Даже если не получится добиться желаемых результатов, это будет опыт работы с чем то новым, который можно переложить на другие задачи.
И можете сказать - причем тут куб? А без него я бы не занимался такими экспериментами. Просто цеплять знаменитостей картинками это не так интересно, и можно сказать одноразовая акция.
А если бы такую идею реализовать до конца, то это могла бы получиться некоторая мерч - игра по известному бренду, которая могла бы приносить эмоции на стыке интересной физической платформы и быстрой+дешевой генерации медиа контента.
Спасибо что дочитали до конца. Буду очень рад, если попробуете хотя бы толику из того, что я описал выше.











































