Проблема с генерацией персонажей и стиля. Нужна помощь. Lora
Привет! Я создаю геймифицированный проект, основанный на уникальном визуальном мире — с маскотами, лором, уровнями, скинами, кастомизацией и мини-комиксами.
Я уже придумал визуальную концепцию и лор, прописал сезоны и развитие маскотов, написал сценарии мини-комиксов, однако упёрся в создание контента.
Ввиду скромных бюджетов (делаю на свои деньги) решил обратиться к AI для генерации картинок и персонажей.
Я уже 3 месяца в свободное от работы время пытаюсь стабильно генерировать персонажей с помощью LoRA / Stable Diffusion / ComfyUI и сервисов типа SeeArt, однако у меня это не получается.
Моя цель — создать два стабильных визуальных стиля:
Главный герой маскот
Визуальный стиль
Прошу помощи либо вашего совета🙏
Что я уже пробовал?
DALLE и Sora.
Начинал с базовых AI, получил набор базовых генераций, благодаря которым у меня есть чёткое представление о том, как всё должно выглядеть — датасет, сценарии и готовая вселенная.
Однако, сколько я не пытался рисовать целые комиксы либо отдельные сцены, постоянно прыгало освещение, стиль либо фильтр – а особенно персонажи. Задался вопросом как это можно стабилизировать? Так я узнал о Lora.
2. ComfyUI, kohya
Месяц я пытался развернуть ComfyUI, kohya на своем компьютере (GTX 3070Ti) при помощи ChatGPT, однако без познаний в кодинге постоянно лезли какие-то ошибки и я бросил это.
3. Civitai + Seeart
Дальше я обратился к готовым сервисам для создания Lora.
Еле как сгенерировал два отдельных датасета под персонажа и под визуальный стиль (по 17 картинок) и пошел перебирать различные настройки для создания Lora через Civitai, weights, shakker.
Сначала делал на основе FLUX-модели, однако все время получал не то. Когда попробовал SDXL начал получать +/- подходящие Lora.
В итоге через пару недель сделал Lora через shakker и загрузил в seeart.
Дальше пару недель я перебирал все возможные настройки, ControlNet функции, ослаблял либо усиливал силу моих Lora – в итоге сделал несколько выводов:
Canny (ControlNet) – просто накладывает моего идеального маскота поверх изображения без понимания композиции кадра
Depth (ControlNet) – нарушает форму пина хотя рисует окружение в нужной мне стилистике.
Остальные ControlNet функции тоже оказались для меня не актуальными.
Пока так и не удалось добиться:
Стабильного визуального стиля (от изображения к изображению меняется форма, стиль, пропорции)
Контроля над персонажем (невозможно повторить одного и того же маскота в нужной позе/ракурсе)
Производства комиксов с единой стилистикой
Я не художник и не ML-инженер, но у меня есть чёткое представление о том, как всё должно выглядеть — референсы, сценарии и готовая вселенная.
Понимаю, что можно развернуть системы типа ComfyUI на арендованном GPU и углубится в создание персональных инструментов, однако чувствую, что уже много потратил на это времени.
Помогите советами:
Действительно ли реализация подобной идеи через AI затрачивает столько усилий или только я хожу "вокруг да около"?
Какая модель и есть ли точные решения для того, чтобы это развернуть на моем либо арендованном GPU, чтобы мог создавать сцены, комиксы как на конвеере?
Есть ли инженеры-фрилансеры, которые занимаются разработкой и установкой SD с кастомной LoRA/ControlNet, чтобы я дальше сам мог генерировать сцены с персонажами?
Либо вообще стоит нанять AI-художника для создания сцен / персонажей и не тратить свое время? Сколько это стоит?
Буду очень признателен вашей обратной связи!


Искусственный интеллект
5K постов11.5K подписчиков
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан