Проблема с генерацией персонажей и стиля. Нужна помощь. Lora⁠⁠

Привет! Я создаю геймифицированный проект, основанный на уникальном визуальном мире — с маскотами, лором, уровнями, скинами, кастомизацией и мини-комиксами.

Я уже придумал визуальную концепцию и лор, прописал сезоны и развитие маскотов, написал сценарии мини-комиксов, однако упёрся в создание контента.

Ввиду скромных бюджетов (делаю на свои деньги) решил обратиться к AI для генерации картинок и персонажей.

Я уже 3 месяца в свободное от работы время пытаюсь стабильно генерировать персонажей с помощью LoRA / Stable Diffusion / ComfyUI и сервисов типа SeeArt, однако у меня это не получается.

Моя цель — создать два стабильных визуальных стиля:

Главный герой маскот
Визуальный стиль

Прошу помощи либо вашего совета🙏

Что я уже пробовал?

DALLE и Sora.

Начинал с базовых AI, получил набор базовых генераций, благодаря которым у меня есть чёткое представление о том, как всё должно выглядеть — датасет, сценарии и готовая вселенная.

Однако, сколько я не пытался рисовать целые комиксы либо отдельные сцены, постоянно прыгало освещение, стиль либо фильтр – а особенно персонажи. Задался вопросом как это можно стабилизировать? Так я узнал о Lora.

2. ComfyUI, kohya

Месяц я пытался развернуть ComfyUI, kohya на своем компьютере (GTX 3070Ti) при помощи ChatGPT, однако без познаний в кодинге постоянно лезли какие-то ошибки и я бросил это.

3. Civitai + Seeart

Дальше я обратился к готовым сервисам для создания Lora.

Еле как сгенерировал два отдельных датасета под персонажа и под визуальный стиль (по 17 картинок) и пошел перебирать различные настройки для создания Lora через Civitai, weights, shakker.

Сначала делал на основе FLUX-модели, однако все время получал не то. Когда попробовал SDXL начал получать +/- подходящие Lora.

В итоге через пару недель сделал Lora через shakker и загрузил в seeart.

Дальше пару недель я перебирал все возможные настройки, ControlNet функции, ослаблял либо усиливал силу моих Lora – в итоге сделал несколько выводов:

Canny (ControlNet) – просто накладывает моего идеального маскота поверх изображения без понимания композиции кадра

Depth (ControlNet) – нарушает форму пина хотя рисует окружение в нужной мне стилистике.

Остальные ControlNet функции тоже оказались для меня не актуальными.

Рабочая доска в Miro

Пока так и не удалось добиться:

Стабильного визуального стиля (от изображения к изображению меняется форма, стиль, пропорции)
Контроля над персонажем (невозможно повторить одного и того же маскота в нужной позе/ракурсе)
Производства комиксов с единой стилистикой

Я не художник и не ML-инженер, но у меня есть чёткое представление о том, как всё должно выглядеть — референсы, сценарии и готовая вселенная.

Понимаю, что можно развернуть системы типа ComfyUI на арендованном GPU и углубится в создание персональных инструментов, однако чувствую, что уже много потратил на это времени.

Помогите советами:

Действительно ли реализация подобной идеи через AI затрачивает столько усилий или только я хожу "вокруг да около"?
Какая модель и есть ли точные решения для того, чтобы это развернуть на моем либо арендованном GPU, чтобы мог создавать сцены, комиксы как на конвеере?
Есть ли инженеры-фрилансеры, которые занимаются разработкой и установкой SD с кастомной LoRA/ControlNet, чтобы я дальше сам мог генерировать сцены с персонажами?

Либо вообще стоит нанять AI-художника для создания сцен / персонажей и не тратить свое время? Сколько это стоит?

Буду очень признателен вашей обратной связи!

5.7K постов11.9K подписчиков

Добавить пост

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

Что я уже пробовал?

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества