Вышла новая модель для генерации изображений HunyuanImage 3.0⁠⁠

HunyuanImage 3.0 (https://huggingface.co/tencent/HunyuanImage-3.0) это новая мощная открытая мультимодальная модель для генерации и понимания изображений в рамках авторегрессионной архитектуры. В основе её находится большая языковая модель (LLM) Mixture-of-Experts (MoE) с 80+ млрд параметров из них активно 13 млрд. Модель объединяет генерацию и понимание изображений в одной модели. Используется Chain-of-Thought (CoT) для улучшения генерации через "рассуждения". Архитектурно основана на трансформере, использует диффузию для генерации изображений и 2D позиционные эмбеддинги. При сборе данные использовалась тщательная фильтрация и обогащение данных (5 млрд изображений) и продвинутое описание изображений. При обучении применяли прогрессивное претренирование и агрессивное посттренирование (SFT, DPO, RL) для улучшения качества. В результате по качеству и соответствию тексту модель не уступает современным закрытым моделям (Seedream 4.0, Nano Banana, GPT-Image).

Это если прочитать их официальный отчёт, а на деле модель ужасная и с неоправданными требованиями к железу.

Вот небольшое сравнение:

Промт для генерации:

Городская улица в дождливый вечер, мокрый асфальт с отражениями неоновых вывесок, прохожий в чёрном плаще с зонтом, красный кабриолет у тротуара, витрина кафе с тёплым светом и паром на стекле, урны с мусором, мокрые газеты у обочины, реалистичный стиль, высокая детализация, атмосферное освещение.

HunyuanImage 3.0:

Qwen-Image:

GPT-Image:

Seedream-4: