Stable Diffusion - ещё одна нейронная сеть для изображений

На волне постов о MidJourney на пикабу как-то не особо всплыла новость о релизе Stable Diffusion.


Что это такое:

Это открытая нейросетка, которая умеет генерить картинки пор английскому тексту, а также по тексту и картинке-шаблону.


С демой можно поиграться тут:
https://huggingface.co/spaces/stabilityai/stable-diffusion


Также эту можно скачать и запускать на своём компьютере, бесплатно, сколько угодно раз. Нужно где-то 12 гигабайт видеопамяти, на данный момент это RTX 3060 минимум.


Где брать:


Официальный репозиторий тут:

https://github.com/CompVis/stable-diffusion


Но лучше брать её здесь:
https://github.com/hlky/stable-diffusion-webui

Где люди прикрутили веб-интерфейс, и гайд на установке всего этого (на а нглийском) есть тут:
https://rentry.org/GUItard

Вроде как за последние два дня собрали ещё более простой инсталлятор, для которого не надо ставить миниконду на компьютер, но я его не пробовал.


Из странного:

Разработчики используют кустарную лицензию, ( тык: https://github.com/CompVis/stable-diffusion/blob/main/LICENS... ), где слёзно просят не использовать нейросеть для дискриминации, дефамации (дип фейки, в том числе), создания ложной информации и т.д. Кроме того, в оригинальном репозитории у них был встроен фильтр, который, например, при генерации обнажёнки затирал полученное изображение и вместо него создавал рикролл. Ясен пень, поскольку код в питоне, фильтр уже нафиг отвинтили. (без фильтра эта штука спокойно может генерить обнажёнку, но не порнографию - недостаточно данных в тренировочной базе).


Ограничения:

* Это не Midjourney, и чтобы получить внятные результаты, надо вбивать более точные запросы.  Например, указывать художника, стиль и т.д. Есть конструктор запросов, вот тут:

https://promptomania.com/stable-diffusion-prompt-builder/

* Размер картинки по умолчанию 512x512, на 12 гигах видео памяти можно сгенерить максимум 640x640, после чего начинает вылетать от нехватки памяти. Результаты желательно фильтровать вручную, т.к. в зависимости от запроса может генерить дичь. Часто портит лица. В альтернативной сборке есть апскейлер и чинилка для лиц.


А теперь примеры:


Котята ("cutest kitten in the world, highly detailed, by Artstation", навеяно: Милота от Midjorney )

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост
Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост
Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост
Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

Манулы (манулов оно не очень умеет, много надо отсеивать, часто получается енотообразная фигня: "pallas cat, full body portrait, highly detailed, hyperrealistic, by Artstation")

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост
Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост
Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

Роботы-гиноиды: ( armored humanoid futuristic gynoid robot with glowing decals, highly detailed, full body portrait, hyperrealistic, by Artstation" )

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост
Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост
Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

Смерть мира - ("death of the world, by Weta Digital". Вообще, при определённом наборе тегов, оно начинает генерить обложки музыкальных альбомов, вот это тот случай)

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост
Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

Разрушенный город, пост-апокалипсис, нарисованный Иваном Шишкниым

("post-apocalyptic landscape, desolation, end of the world, destroyed cities, by Ivan Shishkin" https://ru.wikipedia.org/wiki/Шишкин,_Иван_Иванович )

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

"Советский зимний город, на анриловском движке" ("Soviet Winter City, by Unreal Engine")

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

"Московская зима, на Анриловском движке" ("Moscow Winter, by Unreal Engine")

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

"Портал в Ад, нарисованно Гигером" ("Hell Portal, by H.R. Giger"):

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

"Дарт Вейдер, оригами" ("Darth Vader, Origami")

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

"Красивая женщина с короткой стрижкой, бюст из нержавеющей стали" ("Beautiful woman, pixie cut, stainless steel bust, 4k" ни фига не сталь, генерит много дичи)

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

"Цири, 8 бит" ("Ciri, 8-bit")

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

"Цири в киберпанковском городе" ("Ciri in a Cyberpunk City, realistic, photograph, by Artstation", генерит много дичи, часто корёжит лицо)

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

"Гордон Фриман, гравюра" (Gordon Freeman, Etching):

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

"Космический Корабль" ("futuristic spaceship, highly detailed, hyperrealistic, by Artstation")

Stable Diffusion - ещё одна нейронная сеть для изображений Нейронные сети, Stable Diffusion, Midjourney, Компьютерная графика, Длиннопост

Вот как-то так вот.


Основной плюс в том, что, если железо позволяет, эту штуку можно запустить локально у себя без подписок, и генерить сколько угодно картинок. Результат лучше чем у rudalle (который можно запустить локально), и у rudalle кандинского (который локально запустить нельзя).

-----

По поводу памяти: версия от hlky по ссылке для 512x512 у меня использует 7..7.8 гигабайт видеопамяти. Где-то столько же на 576x576. 12 гигабайт позволяют генерить 640x640 или 768x512. Или же две картинки 512x512 за раз (смысла нет - занимает столько же времени). Вроде бы есть версии с меньшим потреблением памяти (вплоть до 6), и кто-то занимался генерацией на ЦПУ, но я с этим не экспериментировал.

Искусственный интеллект

2.5K поста9.9K подписчиков

Добавить пост

Правила сообщества

Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан