Прорыв в ИИ-фотосессиях! (Ведь так?)








На прошлой неделе Higgsfield выпустили модель Soul, которая позволяет тренировать лоры (то есть донастройки модели под конкретный объект — будь то человек или стиль), и кажется, они действительно лучше лор flux, stable diffusion или hidream.
Коротко про старые варианты:
• Stable Diffusion — старичок, мы его знаем ещё с 2022 года. Утратил свои позиции, хотя его лоры могут не уступать flux по качеству. По API сейчас натренировать SD-лору можно мало где, например, на replicate.
• Следом мы узнали про Flux, и возможность его тренировать появилась в августе 2024-го. Это был прорыв на тот момент, и сейчас практически во всех сервисах, что вы знаете, тренировка лоры — это про flux. К тому же недавно появился flux kontext, и он тоже позволяет создавать лоры, но тут уже фокус не на стиле или объекте (персонаже, одежде и т.д.), а на редактировании фото. Например, лора, которая делает на любом фото человека большую голову.
• В этом году, месяца 3–4 назад, появился Hidream — по качеству он обходит Flux, но ненамного, поэтому большого распространения не получил. Есть на fal.ai.
Так что, Soul лучший? Так ли это?
1) Да, потому что датасет, на котором Higgsfield сама тренировала свою модель, более стильный и современный. Во Flux, SD, Hidream одежда и образы из нулевых и 10-х (если не миксовать лоры — но это снижает точность обеих). В Higgsfield — новинки моды, классные ракурсы, необычный свет, в общем, как Midjourney завещал.
2) Да, потому что получается больше фотореалистичности + есть необычные пресеты из коробки.
3) Нет, потому что для хорошего результата нужно от 20 фото, а во Flux результат можно получить даже при 3–4 фото.
4) Нет, потому что это закрытая модель, нет возможности скачать лору, настроить её под себя, подстраховаться на случай, если Higgsfield заблокирует или внезапно поднимет цену вдвое.
Но я бы не начал этот пост, если бы не было ещё одного интересного варианта.
Модель Wan 2.1 изначально задумывалась для тренировки лоры под видео. На сервисах типа fal.ai вы Wan только в такой ипостаси и увидите.
Но на Reddit люди вдруг стали находить, что если тренировать Wan на 10 изображениях, можно получить поразительное качество и необычную детализацию. Она лучше сохраняет анатомию, и подходит в том числе для разных стилей (типа анимэ, pixar и так далее). Скорее всего, там тоже не будет одежды из 2020-х, но в балансе качество/цена/скорость Wan выигрывает у всех остальных моделей.
Пока что единственный вариант попробовать Wan — это развернуть эту модель самостоятельно через Comfy. Это уровень для продвинутых, но уверен, пройдёт ещё пара недель, и это будет возможно делать и по API.
P.S. Все фото выше — из Wan 2.1 Особенно обратите внимание на фото с рыцарями. Даже в мешанине боя нет ни одной руки, торчащей из воздуха — это очень сложная задача для других text2image моделей.
—
Мой тг-канал по ии-стартапам и вайб-коду
Искусственный интеллект
5K постов11.5K подписчика
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан