4

Проблема с генерацией персонажей и стиля. Нужна помощь. Lora

Проблема с генерацией персонажей и стиля. Нужна помощь. Lora

Привет! Я создаю геймифицированный проект, основанный на уникальном визуальном мире — с маскотами, лором, уровнями, скинами, кастомизацией и мини-комиксами.

Я уже придумал визуальную концепцию и лор, прописал сезоны и развитие маскотов, написал сценарии мини-комиксов, однако упёрся в создание контента.

Ввиду скромных бюджетов (делаю на свои деньги) решил обратиться к AI для генерации картинок и персонажей.

Я уже 3 месяца в свободное от работы время пытаюсь стабильно генерировать персонажей с помощью LoRA / Stable Diffusion / ComfyUI и сервисов типа SeeArt, однако у меня это не получается.

Моя цель — создать два стабильных визуальных стиля:

  • Главный герой маскот

  • Визуальный стиль

Прошу помощи либо вашего совета🙏

Что я уже пробовал?

  1. DALLE и Sora.

Начинал с базовых AI, получил набор базовых генераций, благодаря которым у меня есть чёткое представление о том, как всё должно выглядеть — датасет, сценарии и готовая вселенная.

Однако, сколько я не пытался рисовать целые комиксы либо отдельные сцены, постоянно прыгало освещение, стиль либо фильтр – а особенно персонажи. Задался вопросом как это можно стабилизировать? Так я узнал о Lora.

2. ComfyUI, kohya

Месяц я пытался развернуть ComfyUI, kohya на своем компьютере (GTX 3070Ti) при помощи ChatGPT, однако без познаний в кодинге постоянно лезли какие-то ошибки и я бросил это.

3. Civitai + Seeart

Дальше я обратился к готовым сервисам для создания Lora.

Еле как сгенерировал два отдельных датасета под персонажа и под визуальный стиль (по 17 картинок) и пошел перебирать различные настройки для создания Lora через Civitai, weights, shakker.

Сначала делал на основе FLUX-модели, однако все время получал не то. Когда попробовал SDXL начал получать +/- подходящие Lora.

В итоге через пару недель сделал Lora через shakker и загрузил в seeart.

Дальше пару недель я перебирал все возможные настройки, ControlNet функции, ослаблял либо усиливал силу моих Lora – в итоге сделал несколько выводов:

Canny (ControlNet) – просто накладывает моего идеального маскота поверх изображения без понимания композиции кадра

Depth (ControlNet) – нарушает форму пина хотя рисует окружение в нужной мне стилистике.

Остальные ControlNet функции тоже оказались для меня не актуальными.

Рабочая доска в Miro

Рабочая доска в Miro

Пока так и не удалось добиться:

  • Стабильного визуального стиля (от изображения к изображению меняется форма, стиль, пропорции)

  • Контроля над персонажем (невозможно повторить одного и того же маскота в нужной позе/ракурсе)

  • Производства комиксов с единой стилистикой

Я не художник и не ML-инженер, но у меня есть чёткое представление о том, как всё должно выглядеть — референсы, сценарии и готовая вселенная.

Понимаю, что можно развернуть системы типа ComfyUI на арендованном GPU и углубится в создание персональных инструментов, однако чувствую, что уже много потратил на это времени.

Помогите советами:

  1. Действительно ли реализация подобной идеи через AI затрачивает столько усилий или только я хожу "вокруг да около"?

  2. Какая модель и есть ли точные решения для того, чтобы это развернуть на моем либо арендованном GPU, чтобы мог создавать сцены, комиксы как на конвеере?

  3. Есть ли инженеры-фрилансеры, которые занимаются разработкой и установкой SD с кастомной LoRA/ControlNet, чтобы я дальше сам мог генерировать сцены с персонажами?

Либо вообще стоит нанять AI-художника для создания сцен / персонажей и не тратить свое время? Сколько это стоит?

Буду очень признателен вашей обратной связи!

Искусственный интеллект

5K постов11.5K подписчиков

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

  I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан