Модель Z-Image
🔥 Модель Z-Image — это высокоэффективная модель для генерации изображений, она имеет всего 6 млрд. параметров, но за счет передовой архитектуры позволяет генерировать конкурентные по качеству изображения, в сравнении лидерами рынка.
🚀 Z-Image легко помещается в потребительские видеокарты от 12 ГБ видеопамяти и превосходно справляется с фотореализмом, но с другими сложными стилями не очень.
🛠💥 Z-Image содержит под капотом одну из лучших LLM моделей на сегодня Qwen 3 VL, которая позволяет модели понимать различные языки, а так же генерировать текст на различных языках, в том числе и на русском❗️
✔️ЛИЦЕНЗИЯ
Модель распространяется под лицензией Apache 2.0, что даёт гибкость для интеграции, экспериментов, доработок, а так же коммерческого использования.
✔️АРХИТЕКТУРА
Scalable Single-Stream DiT (S3-DiT). В этой архитектуре текст, визуальные семантические токены и VAE изображений образуют единый входной поток, что эффективнее по сравнению с двухпотоковыми старыми подходами.
✔️Benchmark LM-Arena
Z-Image-Turbo показывает себя лучше чем Flux 1.
✔️ЛИНЕЙКА МОДЕЛЕЙ
будет из трёх моделей:
- Z-Image-Turbo — это очень шустрая дистиллированная модель, которая выдает отличное качество генераций.
- Z-Image-Base — базовая модель без дистилляции.
- Z-Image-Edit — это вариант Edit модели, доработанный специально для задач редактирования изображений. Он позволяет точное редактирование на основе подсказок на естественном языке.
👌Модели Base и Edit на данный момент не вышли, но их релиз скоро состоится.
✔️МОДЕЛИ
- Text encoder: HF (https://huggingface.co/unsloth/Qwen3-4B-GGUF/tree/main)
- VAE от Flux.1: HF (https://huggingface.co/OreX/Models/blob/main/Flux-Main/Flux-...)
- Diffusion model:
z_image_turbo_bf16: HF (https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/spl...)
z-image-turbo-fp8-e4m3fn: HF (https://huggingface.co/T5B/Z-Image-Turbo-FP8/blob/main/z-ima...)
👉 Workflow приложу в комментариях к посту: https://t.me/stabledif_lesson/476
ОБЗОР:
🎦 СМОТРЕТЬ НА YOUTUBE (https://youtu.be/5YTa2E3aiPQ)
🎦 СМОТРЕТЬ НА RUTUBE (https://rutube.ru/video/0562e91868f0cfc8f155f2acdc06a404/)
Вышла модель FLUX.2 - это совершенно новая модель с новой архитектурой и обученная с нуля!
✅ FLUX.2 поддерживает режимы T2I и I2I. Коротко два в одном - Image и Edit модель.
✔️ ЧТО НОВОГО
- FLUX.2 способен работать в разрешении до 4 МП.
- Поддержка множественных ссылок : возможность ссылаться на 10 изображений одновременно.
- Более высокая детализация, более четкие текстуры и более стабильное освещение.
- Сложная типографика, инфографика, мемы и макеты пользовательского интерфейса с разборчивым мелким.
- Улучшенное следование сложным подсказкам.
- Значительно большие знания реального мира, освещении и пространственной логике, что приводит к созданию более связных сцен с ожидаемым поведением.
✔️ТЕКСТОВЫЙ КОДИРОВЩИК
теперь LLM модель Mistral Small 3.1. Использование одного текстового кодировщика значительно упрощает процесс вычисления вложений подсказок. Поддерживает максимальную длину строки 512 токенов.
✔️VAE
Новый вариационный автоэнкодер для латентных представлений, обеспечивающий оптимальный баланс между обучаемостью, качеством и степенью сжатия.
✔️Архитектура MM-DiT + parallel DiT в целом как и на Flux.1. Но настроена архитектура по другому. Так же сам по себе DiT стал более крупным.
✔️ Требования VRAM
Без какой-либо разгрузки вычислительный процесс занимает более 80 ГБ
✔️ СЕМЕЙСТВО МОДЕЛЕЙ
- FLUX.2 [pro] - топовая модель доступная только на площадках BFL (http://bfl.ai/play), Playground (http://bfl.ai/play), API BFL (http://docs.bfl.ai/flux_2/).
- FLUX.2 [flex] - та же модель что и pro но с гибкими настройками семплера, позиционируется для рендеринга текста и мелких деталей.
- FLUX.2 [dev] - модель с открытыми весами 32B. Модель генерации и редактирования изображений с открытыми весами, объединяющая синтез текста в изображение и редактирование изображений с несколькими входными изображениями в одной контрольной точке. ЭТО МОДЕЛЬ ДЛЯ НАС!
- FLUX.2 [klein] - ОЖИДАЕТСЯ ВЫХОД - модель Apache 2.0 с открытым исходным кодом, созданная на основе базовой модели FLUX.2. Более мощная и удобная для разработчиков, чем аналогичные модели того же размера. Подозревая это Lightning модель.
⬆️ Text encoder: HF (https://huggingface.co/Comfy-Org/flux2-dev/blob/main/split_f...)
⬆️ Diffusion model: HF (https://huggingface.co/Comfy-Org/flux2-dev/blob/main/split_f...)
🪢 Страница разработчика: ССЫЛКА (https://huggingface.co/blog/flux-2)
🔑 Все ссылки и файлы доступны на Boosty: ссылка (https://boosty.to/stabledif/posts/f3e54a1e-a703-40fa-8bf9-16...)
👉 Workflow приложен в комментариях к посту: https://t.me/stabledif_lesson/475
🔥Обзор:
🎦 СМОТРЕТЬ НА YOUTUBE (https://youtu.be/JU1dmuyDSks)
🎦 СМОТРЕТЬ НА RUTUBE (https://rutube.ru/video/fcb6ba132e7ba681c93ba08416941b30/)
ComfyUI v2.2 - обновленная сборка
Представляю вам обновленную сборку на том же torch 2.7 и python 3.12, cuda 12.8.
- Исправлены все проблемы .
- Обновлены все узлы и установлены проблемные узлы из некоторых моих схем.
- Nunchaku поставил и в корне оставил WHL если на какой-то видеокарте не заведется.
- SageAttention и Triton ставятся так же файлом
For Triton & Sage Install / Install Triton & Sage.bat (генерацию ускоряет существенно).
- Заменен файл стилей sdxl styles.json
- Узлы Orex-nodes обновлены: batch count, batch size, load image и Polination снова принимают на вход изображение для описания через онлайн модель без API.
- Anywere Everywere вещатели обновил, но возможно совсем старые схемы имеют недопустимые версии вещателей, мне такие встречались. Если встретятся кидайте ссылки на схемы - буду править.
- Сборку протестировал на большинстве своих схем: infinity wan, Lynx, Wan 2.2, Qwen Image, Qwen All in one, PulID SDXL, PulID Flux, Flux Tools, Flux Union 2, Sora Watermark Removal, Flux Kontext 3 схемы, Supir 3 схемы и еще с десяток схем.
- Сборка проверена Касперским на вирусы и на ошибки распаковкой и запуском.
- Обновление ComfyUI, всех узлов и Front End от 10.11.2025
- Папка models скачивается отдельно и её я не менял.
- Для тех у кого проблемы с загрузкой HuggingFace сделал зеркало на Telegram группу. Все ссылки и инструкции к сборке в старом посте, они актуальны.
- Оба поста открыты для всех бесплатно.
Forge Neo обновлена и исправлена
▫️ Сборка теперь без виртуальной среды: python находится в папке system как в automatic или forge. Дополнительные библиотеки теперь можно ставить в system/python. Reactor починил. Пресет InstantID (генерация с лицами) теперь тоже работает. Другие пресеты поднастроил - должны работать. Добавил дополнительные расширения. И даже Inpaint Anything удалось запустить, но оно сильно нагружает процессор, что-то с ним не так, по этому я его отключил. В Extension можно поставить галочку напротив Inpaint Anything и включить его.
▫️ Qwen Image теперь поддерживается, а также его Nunchaku версия тоже (для слабых видеокарт, то что нужно). Qwen Edit пока не работает.
▫️ Добавил расширение sd-forge-fluxtools-v2 для работы с Flux Canny/Depth и Flux Fill (inpaint модель), но с поддержкой Flux Kontext не особо то и нужное расширение. Добавил расширение forge2_cleaner - аналог волшебного ластика в Photoshop (работает быстро и потребляет мало ресурсов).
▫️ Xformers устанавливать, не стал, так как он делает работу ForgeNeo не стабильной, по крайней мере на моей карте. Установить Xformers очень просто. Откройте папку system\python и в адресной строке напишите CMD и нажмите Enter. введите команду:
python -m pip install xformers
(но высока вероятность сломать сборку)
▫️ Теперь сборка 7Гб и модели 18.7Гб отдельны.
Если у вас была старая сборка, то папка models та же.
📽️ Видео обзор предыдущей сборки: YouTube (https://youtu.be/HRKqmMdYVrY?si=C1IxNFgyLa3VS0Hn) l Rutube (https://rutube.ru/video/f0a9952929deb0edbe2a37933de2623d/?r=...)
🔗 Сборку можно скачать тут: ССЫЛКА (https://huggingface.co/OreX/Automatic1111/resolve/main/Forge...)
MagicaVoxel + Mixamo
Забавная связка: MagicaVoxel + Mixamo
MagicaVoxel - бесплатный воксельный редактор (а воксели - это такие трехмерные пиксели)
Mixamo - онлайн сервис для автоматического риггинга персонажей и привязки к ним стандартных анимаций.
+ Мой телеграм (пишу, иллюстрирую и перевожу фантастику)
OVI Video & Audio
🎬 Ovi — это новая локальная модель «всё-в-одном», как Veo 3 или Sora 2.
🛠 Ovi Video может генерировать видео с речью, музыкой и аудио эффектами. Модель поддерживает входные данные: текст и изображение.
👌Это первая локальная модель такого типа, но качество её не такое хорошее. - Продолжительность генерируемого видео 5 сек.
- Потребление Vram от 16Гб на Fp8. Скорость генерации очень высокая даже при таких потреблениях и выгрузке в Ram блоков модели (60 сек в 1 мегапикселе, 5 сек ролик на 5090).
📘 ССЫЛКИ
➖ Страница разработчика: https://github.com/snicolast/ComfyUI-Ovi.git
➖ Схема из видео: https://drive.google.com/file/d/1O6PnlAPivefyMpenH2HBDHGmnBD...
👁Смотреть на Youtube (https://youtu.be/5UN2TDLLnaE)
👁Смотреть на Rutube (https://rutube.ru/video/3535ed87de06ef9acd91c3d11fc510e4/)
Qwen Edit 2509
📌 Модель Qwen Edit очень круто обновилась до версии 2509 (это дата выхода модели) и стала значительно лучше.
👌 Вам эти изменения точно понравятся, так что посмотрите до конца:
☑️ Поддерживается от 1 до 3 реверенсных изображений
☑️ Поддерживаются подсказки со ссылкой на персонажа, объект и на номер изображения
☑️ Согласованность изображений улучшена
☑️ Модель более цепко держит референсы при генерации. Лучше сохраняются лица
☑️ В модель зашиты ControlNet: карта нормалей, карта глубины, canny, openpose и вы можете попросить сгенерировать эти карты из референсного изображения
☑️ Так же вы можете закинуть например позу из openpose и попросить поставить персонажа в эту позу
☑️ Улучшенная согласованность редактирования текста на английском и китайском
😱 Но и это еще не все.
Теперь мы можем работать в разрешении от 1 до 2 мегапикселей❗️ что улучшает детализацию, которая в первой Qwen Edit сильно хромала.
🚀Уже вышла Nunchaku.
🎦 СМОТРЕТЬ НА YOUTUBE (https://youtu.be/hJzjQ1XhAfw)
🎦 СМОТРЕТЬ НА RUTUBE (https://rutube.ru/video/97a51b1d0ae3eebc274fc05e76136872/)