Lumina-mGPT: новый tex2image генератор из Китая
Группа ученых, включая Донгяна Лю, Шитиана Чжао и других, представила Lumina-mGPT — нейросеть для создания фотореалистичных изображений из текстовых описаний. Эта модель отличается тем, что использует специальный трансформер, который может «понимать» и соединять текст и изображения.
Lumina-mGPT обучается на больших объемах текста и картинок, что позволяет ей создавать довольно реалистичные изображения. Модель сначала учится на большом количестве данных, а затем дорабатывается на качественных примерах текстов и изображений, что помогает достигать еще лучшего результата.
Кроме того, Lumina-mGPT может выполнять множество различных задач: от создания изображений по тексту до анализа и понимания визуальной информации.
Стоит отметить, что хотя Lumina-mGPT и выглядит многообещающе, она не является абсолютной инновацией, первые попытки генераций показали небольшие галлюцинации. Хотя, многое зависит от языка, модель китайская, потому и промпт на лучше понимает именно на китайском.
В целом, результат все-равно достойный, даже не смотря на то, что генерация одного изображения занимает, порой, до получаса.

