Qwen 2,5 max (продолжение)
Продолжаю изучать возможности китайской нейросети Qwen 2,5 max. Тут 1 часть
Провёл тест генерации на робо-лицах. Получилось очень даже неплохо.
Промпт генерировал через deepseek.
Ниже под картинкой простой способ достичь такого результата и сравнение пары вариантов.
Для генерации я использовал 2 варианта, с длинным промптом и коротким
Естественно, оба текста для теста я не стал долго и мучительно выдумывать, а поручил эту задачу DeepSeek, которая сейчас так популярна (и между прочем, заслужено, но это отдельная тема). Я просто попросил сгенерировать промпт на английском языке для генерации картинки с искомым содержимым (режим R1 лучше включить). В итоге получил короткий текст, который скормил уже Qwen-2,5 max. В итоге получил следующие варианты, далее 3 примера:



Генерация с коротким промптом
Детализация на высоте, есть из чего выбрать:


Детали (короткий промпт)
Но, не смотря на неплохой результат, я решил всё таки раскрыть все возможности Qwen и попросил DeepSeek уточнить промпт, добавив в него деталей, увеличить длинну, и сделать акцент на резкости. То что получилось в итоге видно на 1 картинке в посте, а также на следующих:



Генерация с длинным промптом
Изображение стало более живым, не потеряв при этом в уровне детализации:



Детали (длинный промпт)
Однако, появились и артефакты:
Резюмируя, можно сказать, что лучше использовать в Qwen промпт подлиннее, хотя и с коротким тоже неплохо получается. Если проанализировать те тесты, которые остались за пределами этого поста - при генерации с длинным промптом картика становится очень шаблонной, сцена почти не меняются, ракурс практически всегда один и тот-же, меняются в основном детали. То есть при длинном промпте у ИИ отключается фантазия.


