Вчера Кандинский обновился до версии 2.2. Решила сравнить его с предыдущей версией и заодно проверить, начал ли он догонять известную нейросеть Midjourney. Итак, спойлер: он пока еще не дотягивает до уровня Midjourney, но новое обновление вышло действительно интересным!
В обзоре буду сравнивать версии 2.1 и 2.2, используя один и тот же промпт. И чисто из интереса те же промпты выдам Midjourney.
Идеи для промптов брала на сайте Prompt Hero — постаралась выбрать разные тематики. Кандинский понимает запросы и на русском, и на английском, так что переводить их не стала.
Вот что пообещали разрабы:
Решила начать с портретов, чтобы проверить, насколько изображения стали более реалистичными
a commercial photo portrait of stunning instagram model, sparklecore, appropriation artist, shiny/glossy, clear edge definition, unique and one-of-a-kind pieces, light brown and light amber, Fujifilm X-T4, Sony FE 85mm f/1. 4 GM
Сразу заметна разница. Хотя с первого взгляда и видно, что это не фотография живого человека (либо сильно отфотошопленная версия), но результаты уже получше. Для сравнения вот такую фотореалистичность сейчас выдает Midjourney:
Не удержалась и решила провести эксперимент на Папе Римском. В этот раз обойдемся без переодевания его в белый пуховик (вы еще помните тот тренд с Баленсиагой?), а отправим его в Майами в 80-е годы.
Pope Francis in 80s Miami Style
Вот тут вообще не впечатлило. Версия 2.1 получается даже более интересной и оригинальной. Да и цветовая гамма у нее сразу ассоциируется с розовым стилем и пальмами, о которых думаешь, когда слышишь о Майами 80-х. Версия 2.2 от Кандинского имеет излишнюю желтую насыщенность, это кстати сильный минус новой версии. Кажется, в 2.1 этого было меньше. Ну ладно, пойдем дальше.
Кстати, вот вам версия от Миджорни:
Несмотря на колоссальную разницу в качестве, 2.1 и Midjourney в общем-то попали в один вайб!
Стиль: мультфильм
Ладно, давайте оставим фотореализм на время и сделаем что-то забавное и мультяшное. Вот промпт, который мы выбрали:
a cartoon of an astronaut in space full of other characters, in the style of dreamscape portraiture, youthful protagonists, dark cyan and bronze, vibrant murals, lit kid, photorealistic renderings, intricate underwater worlds
Есть впечатление, что новая версия стала чуть более... скучной? Я пробовала этот промпт в разных стилях — и в мультфильме, и в аниме, и во всяких разных. Однако все равно получается некая «пустоватая» картинка с характерной засвеченностью. В общем, хочется снова отдать свой голос за предыдущую версию.
Как будто бы они тут с 2.1 опять мыслили в одном направлении. У Кандинского даже персонажи на заднем фоне повеселее вышли :)
Предметная съемка
Одно из интересных применений нейросетей — генерировать референсы для предметных съемок. Давайте попробуем создать рекламу бургера!
Flying food photography with a burger as the main theme, splash of toppings and spices, cheddar flavored cheese, onion, pickles, sesame Bun
Опять же, версия 2.1 действительно проявляет больше фантазии, здесь и соусы, и кусочки бургеров. Зато вот у 2.2 получается гораздо реалистичнее.
И вот такой результат показывает Midjourney:
Архитектура
Давайте попросим нейросеть нарисовать для нас интерьер дома с большими окнами, открытой планировкой и использованием натуральных материалов.
open spaces that are arranged to be viewable, in the style of ludwig mies van der rohe, light brown and light amber, post-war french design, voigtlander brilliant, balcomb greene, use of common materials, windows vista
Девиз 2.2: Еще больше желтизны богу желтизны...
Животные
Давайте еще раз вернемся проверить фотореалистичность. Хочется ленивца!
A photo of a cute sloth swimming in a river, summer day
Ну, стало чуть более реалистично. Но все равно заметна повторяющаяся проблема с излишней насыщенностью.
Забавно наблюдать, как Midjourney и версия 2.1 выдают примерно похожие результаты:
Новая функция: смешивание картинки и текста
В телеграм-боте Кандинского появились новые функции взаимодействия с изображениями, например возможность «смешивания». В этом режиме, по аналогии с функцией «remix» в Midjourney, вы можете загрузить изображение и написать тестовый промпт. Тогда нейросеть не только сгенерирует изображение, но и возьмет за основу загруженное изображение.
Решила поэкспериментировать с портретом девушки, который сгенерировала ранее, и в промпте написала всего одно слово: смокинг
Вышло интересно, вот это мне понравилось :)
Новая функция: перенос стиля
Очень похоже на функцию смешения. Здесь вы можете использовать одно изображение в качестве основы и передать его стиль другому. Не нужно дополнительно писать, что вы хотите получить — нейросеть все сделает сама.
Нажала «смешать картинки» и получила это:
Функции смешения и переноса стиля тянут потестировать их еще. Можете загружать свои фотографии и использовать их в качестве основы для генерации других изображений с разными стилями. Поле для экспериментов огромное!
Делаем стикеры
Выбираете соответствующую команду в меню тг-бота, вводите промпт, и получаете изображения, которые можно сразу же использовать для создания стикерпака прямо в телеграме:
Итог
Новые функции 2.2 мне зашли. В них не нужно долго разбираться да и проблем с ними не возникло.
Конечно, Кандинский, несмотря на свои достоинства, уступает Midjourney во многих аспектах. Но учтем, что Midjourney имеет больший объем данных для обучения — будем верить, что у Кандинского еще все впереди :D
Недостаток обновления, который сильно расстроил — «безликость» и желтизна получаемых изображений. Кроме того, несмотря на увеличение количества стилей до двадцати, разница между ними оказалась не всегда заметна и особого восторга не вызвала.
Как вам обновление? Успели затестить?