Вышла новая модель для генерации и редактирования изображений Qwen-Image-2.0
Представили новую модель генерации изображений Qwen-Image-2.0 объединяющую два предыдущих направления "генерации" (точный текст, детализация) и "редактирования" (одно/много-изображений, согласованность).
Она поддерживает профессиональную типографику, генерируя инфографику (PPT, постеры) по сложным инструкциям (до 1к токенов). У неё высокое качество и детализация, обеспечивающие нативную поддержку 2K разрешения для фотореалистичных сцен. Точное отображение текста в ней получается благодаря объединению генерации и редактирования в одной модели, а эффективная архитектура обеспечивает ей меньший размер и высокую скорость работы.
Среди сильных сторон модели можно выделить точность чёткого следования сложным инструкциям и создания презентаций, а также способность обработки объёмных промтов для детальной инфографики. Кроме того, она поддерживает красивую эстетичную компоновку текста и изображений (календари, стихи), обеспечивает реализм фотореалистичного наложения текста на разные поверхности (доски, одежду) и структурированность благодаря аккуратному выравниванию элементов (комиксы, схемы).
Благодаря универсальной архитектуре во много раз улучшилось редактирование, связанное с наложением текста на изображения и фотореалистичной правкой (совмещение людей, изменение стиля).
В результате тестов на сайте AI Arena (раньше сайт назывался LM Arena) в разделе генерации по тексту она заняла 3-е место (Elo 1029), а по редактированию изображений она получила 2-е место (Elo 1034).









