Это технологическое чудо!
В апреле 2022 года компания OpenAI представила DALL-E 2 — усовершенствованную нейросеть, которая генерирует изображения по описанию. Она создаёт более детализированные и реалистичные иллюстрации в разрешении до четырёх раз выше, чем версия первого поколения.
OpenAI предоставила доступ к DALL-E 2 ограниченному количеству пользователей, которые стали делиться сгенерированными изображениями в соцсетях. Выбрали некоторые из них.
Ребенок и собака смотрят на звезды
Хомяк-грузовик-химера
Кролик-детектив сидит на скамейке в парке и читает газету в викторианскую эпоху
Енот-астронавт, у которого космос отражается на стекле его шлема, мечтает о звёздах
Робот рисует на холсте, играя при этом на пианино
Отпечаток пальца в ночном небе
Слон наблюдает закат над горами — арт в стиле синтвейв
Енот застрял в большом адронном коллайдере
Сны Франца Кафки
Большая семья мышей в шляпах уютно расположилась у камина — макроснимок
Машина для майнинга биткоина из 1800-х годов в старом доме — рисунок акварелью
Астронавт катается в космосе на морской черепахе над радугой, пролетая мимо планет
Мона Лиза пьёт вино с Да Винчи
Бэтмобиль в стиле киберпанк едет по Готэму из будущего
Гусь-детектив
Енот со световым мечом
Наэлектризованная буханка хлеба в форме кролике на деревянном столе
Плюшевые медведи работают над ИИ-технологиями под водой
Баскетболист бросает мяч, изображённый в виде взрыва сверхновой — картина маслом
Потрясающий снимок Пикачу в плаще, 8K HD, невероятная детализация
Эрнест Хемингуэй идёт по деревне — пластилиновая анимация
Первые пользователи сервиса рассказали, что на генерацию изображения по описанию уходит около 30 секунд. Однако важно отметить, что в начале апреля OpenAI предоставила инструмент только нескольким сотням человек, поэтому нагрузка на сервис относительно небольшая.
Судя по первым отзывам, пользователи в восторге от DALL-E 2. Сервис называют «настоящим технологическим чудом», а некоторые в шутку опасаются, что скоро многим художникам придётся искать другую работу.
Ответ на пост «Пример работы новой функции Outpainting в DALL-E 2, нейросеть соединяет несколько разных по стилю картин в одну»
По просьбе пикабушников @Mycrossovok и @volumed нашёл оригинал видео, сшил в одну картинку, скормил в нейросеть для масштабирования
Оригинал из видео
Почистил немного от артефактов
Прикладываю ссылки на скачивание:
https://disk.yandex.ru/d/T3H0hBVVlrtX0w оригинал
https://disk.yandex.ru/d/Xf0m-kTIaR-WDQ отредактированный
Осторожно, пекарня может не вывезти. Разрешение 32000 x7062 389мб
Dall-E 2 vs. Midjourney: Сравнение самых популярных нейросеток
Буквально за считанные недели "рисующие" нейросети штормом захватили интернет. Их удивительные возможности поражают воображение и заставляют с небольшой опаской, но и надеждой, задуматься о будущем таких технологий. Вот и я не осталась в стороне, попробовав сравнить опытным путем две самые популярные из них - Midjourney и Dall-E 2.
Работают нейросети по одному принципу: они способны сгенерировать картину по текстовому запросу (Text to Image AI), но, несмотря на похожую логику, результаты получаются совершенно разные.
Мне , как графическому дизайнеру и иллюстратору, очень часто в последнее время задают вопрос: "А не боишься ли ты, что ИИ заберет у тебя работу?" Ну, как сказать... И фотошопа когда-то боялись точно также... Несмотря на хайп, Ничего пренципиально нового в этой технологии нет, но только недавно, с открытием бета версий для широкой публики, стало понятно насколько могущественнен этот инструмент и насколько далеко он шагнул.
В общем, к эксперименту!
Условия:
1. Синтаксические запросы в обеих программах абсолютно одинаковы и составлены на английском языке.
2. Взят только первый сгенерированный результат (И Midjourney и Dall-E 2 генерируют 4 вариации одной картинки. Для чистоты экперимента, тут представлена самая первая)
3. Результаты полностью созданы нейросетью и не проходили никакой пост-обработки
Ну, что ж, начем уже наконец...с чего-нибудь простого..
С аниме девочек!
Синтакс: Pretty anime-style Asian girl with cat ears, wearing red Japanese clothes
Перевод: Симпатичная азиатка в стиле аниме с кошачьими ушками, одетая в красную японскую одежду
В общем, с самым популярным запросом- красивыми девушками - обе сетки справляются на ура. Можно сразу заметить, что Далл-и любит в реализм, даже если в синтаксе был указан конкретный стиль. Мид же, наоборот, по умолчанию вырисовывает картины, и иногда игнорирует указания к реализму. В общем, тут зависит от ваших вкусовых предпочтений.
Далее я решила-таки добавить к промпту гипер-ультра-мега реализм! (Промпт - это текстовая комманда, по которой программа будет отрисовывать ваш запрос) И вот что получилось!
Синакс: photo realistic render of a druid woman wearing a tiara with bright green eyes shimmering lights around her Dynamic lighting cinematic
Перевод: Фото реалистичный рендер девушуки друида с тиарой и яркими зелеными глазами переливающийся свет вокруг нее динамичное синематографичное освещение
Что еще я заметила, играясь с сеточками - артефакты. У Мида артефактов гораздо больше. Программа особенно часто ошибается с глазами и носами, добавляя, в лучшем случае, непонятные линии, в худшем - копирует части лица. Особенно это видно , как только портрет разворачивается в три-четверти или профиль. Иногда выходили очень уж странные монстрики. Плюсик для Далли - он не особо часто этим грешит.
В общем, с портреткой все понятно, пришло время смотреть пейзажи!
Синакс: landscape forest, dark, mystic forest, pleasant light, cinematic light, fantasy forest
Перевод: пейзаж лес, мрачный, мистический лес, приятное освещение, синематографичное освещение, фантастический лес
Обе нейросети отлично справляются с пейзажами, но лично мне больше заходит сюрреалистический и артистический стиль MidJourney. Игра света и тени + композиция делают картины очень легкими дял восприятния и можно часами просто на них смотреть, как в галерее.
Синакс: Fuji mountain by Ivan Aivazovsky
Перевод: Гора Фудзи, написанная Иваном Айвазовским
Обе картины, конечно, вышли потрясающе, но тут можно заметить небольшое преимущество MidJourney над Dall-e - возможность менять формат. В MidJourney достаточно указать добавить в конце предложения " - ar 16:9 " и будет вам счастье! На момент написания статьи, Далли такого не делает.
Ну и напоследок, конечно же, хлебо-котики
Синакс: cat made of bread
Перевод: кот, сделанный из хлеба
Выводы
В качестве небольшого дисклеймера, позвольте отметить, что обе нейросети сейчас находятся к состоянии бета тестирования. То есть они только в начале своей длинного и многообещающего пути! Какая из них больше подойдет вам - дело личное, и зависит от многих факторов, не только стиль результатов но и стоимость и но я пришла к таким:
Midjourney — для темного фэнтези, ужасов и различных жанров научной фантастики. Отлично справляется с фэнтэзийными и фото-релистичными портретами, сценами и концепциями окружающей среды. Куча дополнительных инструментов для более точной настройки в промпте (в том числе новые --stylize и --quality) и отличная отправная точка для дальнейшего редактирования , перекрашивания, фотообработки, идельно для идей, о которых вы зачастую бы даже не подумали.
Dall-E 2 - лучше в фотоискусстве, фотореализме, разработке концепций реальных продуктов и некоторых типах художественных стилей. Как мне показалось, Dall-E лучше понимает контекст и показывает именно то, что вы хотели увидеть или, как минимум, что-то очень близкое. Также, Dall-E 2 может различать два субьекта, ставить их рядом или морфить их вместе, в то время как Midjourney испытывает трудности, если в картине присутсвует больше чем два субьекта.
Вот такие вот дела!
А вы уже успели поиграться с нейросетями? Что думаете?
Я знаю, что еще существует Disco Diffusion и Stable Diffusion и планирую скоро до них тоже добратьсяю. Так что комментируйте, если такой формат поста был интересен и хочется еще!
Спасибо за внимание!