Dall-E 2 vs. Midjourney: Сравнение самых популярных нейросеток
Буквально за считанные недели "рисующие" нейросети штормом захватили интернет. Их удивительные возможности поражают воображение и заставляют с небольшой опаской, но и надеждой, задуматься о будущем таких технологий. Вот и я не осталась в стороне, попробовав сравнить опытным путем две самые популярные из них - Midjourney и Dall-E 2.
Работают нейросети по одному принципу: они способны сгенерировать картину по текстовому запросу (Text to Image AI), но, несмотря на похожую логику, результаты получаются совершенно разные.
Мне , как графическому дизайнеру и иллюстратору, очень часто в последнее время задают вопрос: "А не боишься ли ты, что ИИ заберет у тебя работу?" Ну, как сказать... И фотошопа когда-то боялись точно также... Несмотря на хайп, Ничего пренципиально нового в этой технологии нет, но только недавно, с открытием бета версий для широкой публики, стало понятно насколько могущественнен этот инструмент и насколько далеко он шагнул.
В общем, к эксперименту!
Условия:
1. Синтаксические запросы в обеих программах абсолютно одинаковы и составлены на английском языке.
2. Взят только первый сгенерированный результат (И Midjourney и Dall-E 2 генерируют 4 вариации одной картинки. Для чистоты экперимента, тут представлена самая первая)
3. Результаты полностью созданы нейросетью и не проходили никакой пост-обработки
Ну, что ж, начем уже наконец...с чего-нибудь простого..
С аниме девочек!
Синтакс: Pretty anime-style Asian girl with cat ears, wearing red Japanese clothes
Перевод: Симпатичная азиатка в стиле аниме с кошачьими ушками, одетая в красную японскую одежду
В общем, с самым популярным запросом- красивыми девушками - обе сетки справляются на ура. Можно сразу заметить, что Далл-и любит в реализм, даже если в синтаксе был указан конкретный стиль. Мид же, наоборот, по умолчанию вырисовывает картины, и иногда игнорирует указания к реализму. В общем, тут зависит от ваших вкусовых предпочтений.
Далее я решила-таки добавить к промпту гипер-ультра-мега реализм! (Промпт - это текстовая комманда, по которой программа будет отрисовывать ваш запрос) И вот что получилось!
Синакс: photo realistic render of a druid woman wearing a tiara with bright green eyes shimmering lights around her Dynamic lighting cinematic
Перевод: Фото реалистичный рендер девушуки друида с тиарой и яркими зелеными глазами переливающийся свет вокруг нее динамичное синематографичное освещение
Что еще я заметила, играясь с сеточками - артефакты. У Мида артефактов гораздо больше. Программа особенно часто ошибается с глазами и носами, добавляя, в лучшем случае, непонятные линии, в худшем - копирует части лица. Особенно это видно , как только портрет разворачивается в три-четверти или профиль. Иногда выходили очень уж странные монстрики. Плюсик для Далли - он не особо часто этим грешит.
В общем, с портреткой все понятно, пришло время смотреть пейзажи!
Синакс: landscape forest, dark, mystic forest, pleasant light, cinematic light, fantasy forest
Перевод: пейзаж лес, мрачный, мистический лес, приятное освещение, синематографичное освещение, фантастический лес
Обе нейросети отлично справляются с пейзажами, но лично мне больше заходит сюрреалистический и артистический стиль MidJourney. Игра света и тени + композиция делают картины очень легкими дял восприятния и можно часами просто на них смотреть, как в галерее.
Синакс: Fuji mountain by Ivan Aivazovsky
Перевод: Гора Фудзи, написанная Иваном Айвазовским
Обе картины, конечно, вышли потрясающе, но тут можно заметить небольшое преимущество MidJourney над Dall-e - возможность менять формат. В MidJourney достаточно указать добавить в конце предложения " - ar 16:9 " и будет вам счастье! На момент написания статьи, Далли такого не делает.
Ну и напоследок, конечно же, хлебо-котики
Синакс: cat made of bread
Перевод: кот, сделанный из хлеба
Выводы
В качестве небольшого дисклеймера, позвольте отметить, что обе нейросети сейчас находятся к состоянии бета тестирования. То есть они только в начале своей длинного и многообещающего пути! Какая из них больше подойдет вам - дело личное, и зависит от многих факторов, не только стиль результатов но и стоимость и но я пришла к таким:
Midjourney — для темного фэнтези, ужасов и различных жанров научной фантастики. Отлично справляется с фэнтэзийными и фото-релистичными портретами, сценами и концепциями окружающей среды. Куча дополнительных инструментов для более точной настройки в промпте (в том числе новые --stylize и --quality) и отличная отправная точка для дальнейшего редактирования , перекрашивания, фотообработки, идельно для идей, о которых вы зачастую бы даже не подумали.
Dall-E 2 - лучше в фотоискусстве, фотореализме, разработке концепций реальных продуктов и некоторых типах художественных стилей. Как мне показалось, Dall-E лучше понимает контекст и показывает именно то, что вы хотели увидеть или, как минимум, что-то очень близкое. Также, Dall-E 2 может различать два субьекта, ставить их рядом или морфить их вместе, в то время как Midjourney испытывает трудности, если в картине присутсвует больше чем два субьекта.
Вот такие вот дела!
А вы уже успели поиграться с нейросетями? Что думаете?
Я знаю, что еще существует Disco Diffusion и Stable Diffusion и планирую скоро до них тоже добратьсяю. Так что комментируйте, если такой формат поста был интересен и хочется еще!
Спасибо за внимание!