Stable Diffusion - ещё одна нейронная сеть для изображений
На волне постов о MidJourney на пикабу как-то не особо всплыла новость о релизе Stable Diffusion.
Что это такое:
Это открытая нейросетка, которая умеет генерить картинки пор английскому тексту, а также по тексту и картинке-шаблону.
С демой можно поиграться тут:
https://huggingface.co/spaces/stabilityai/stable-diffusion
Также эту можно скачать и запускать на своём компьютере, бесплатно, сколько угодно раз. Нужно где-то 12 гигабайт видеопамяти, на данный момент это RTX 3060 минимум.
Где брать:
Официальный репозиторий тут:
https://github.com/CompVis/stable-diffusion
Но лучше брать её здесь:
https://github.com/hlky/stable-diffusion-webui
Где люди прикрутили веб-интерфейс, и гайд на установке всего этого (на а нглийском) есть тут:
https://rentry.org/GUItard
Вроде как за последние два дня собрали ещё более простой инсталлятор, для которого не надо ставить миниконду на компьютер, но я его не пробовал.
Из странного:
Разработчики используют кустарную лицензию, ( тык: https://github.com/CompVis/stable-diffusion/blob/main/LICENS... ), где слёзно просят не использовать нейросеть для дискриминации, дефамации (дип фейки, в том числе), создания ложной информации и т.д. Кроме того, в оригинальном репозитории у них был встроен фильтр, который, например, при генерации обнажёнки затирал полученное изображение и вместо него создавал рикролл. Ясен пень, поскольку код в питоне, фильтр уже нафиг отвинтили. (без фильтра эта штука спокойно может генерить обнажёнку, но не порнографию - недостаточно данных в тренировочной базе).
Ограничения:
* Это не Midjourney, и чтобы получить внятные результаты, надо вбивать более точные запросы. Например, указывать художника, стиль и т.д. Есть конструктор запросов, вот тут:
https://promptomania.com/stable-diffusion-prompt-builder/
* Размер картинки по умолчанию 512x512, на 12 гигах видео памяти можно сгенерить максимум 640x640, после чего начинает вылетать от нехватки памяти. Результаты желательно фильтровать вручную, т.к. в зависимости от запроса может генерить дичь. Часто портит лица. В альтернативной сборке есть апскейлер и чинилка для лиц.
А теперь примеры:
Котята ("cutest kitten in the world, highly detailed, by Artstation", навеяно: Милота от Midjorney )
Манулы (манулов оно не очень умеет, много надо отсеивать, часто получается енотообразная фигня: "pallas cat, full body portrait, highly detailed, hyperrealistic, by Artstation")
Роботы-гиноиды: ( armored humanoid futuristic gynoid robot with glowing decals, highly detailed, full body portrait, hyperrealistic, by Artstation" )
Смерть мира - ("death of the world, by Weta Digital". Вообще, при определённом наборе тегов, оно начинает генерить обложки музыкальных альбомов, вот это тот случай)
Разрушенный город, пост-апокалипсис, нарисованный Иваном Шишкниым
("post-apocalyptic landscape, desolation, end of the world, destroyed cities, by Ivan Shishkin" https://ru.wikipedia.org/wiki/Шишкин,_Иван_Иванович )
"Советский зимний город, на анриловском движке" ("Soviet Winter City, by Unreal Engine")
"Московская зима, на Анриловском движке" ("Moscow Winter, by Unreal Engine")
"Портал в Ад, нарисованно Гигером" ("Hell Portal, by H.R. Giger"):
"Дарт Вейдер, оригами" ("Darth Vader, Origami")
"Красивая женщина с короткой стрижкой, бюст из нержавеющей стали" ("Beautiful woman, pixie cut, stainless steel bust, 4k" ни фига не сталь, генерит много дичи)
"Цири, 8 бит" ("Ciri, 8-bit")
"Цири в киберпанковском городе" ("Ciri in a Cyberpunk City, realistic, photograph, by Artstation", генерит много дичи, часто корёжит лицо)
"Гордон Фриман, гравюра" (Gordon Freeman, Etching):
"Космический Корабль" ("futuristic spaceship, highly detailed, hyperrealistic, by Artstation")
Вот как-то так вот.
Основной плюс в том, что, если железо позволяет, эту штуку можно запустить локально у себя без подписок, и генерить сколько угодно картинок. Результат лучше чем у rudalle (который можно запустить локально), и у rudalle кандинского (который локально запустить нельзя).
-----
По поводу памяти: версия от hlky по ссылке для 512x512 у меня использует 7..7.8 гигабайт видеопамяти. Где-то столько же на 576x576. 12 гигабайт позволяют генерить 640x640 или 768x512. Или же две картинки 512x512 за раз (смысла нет - занимает столько же времени). Вроде бы есть версии с меньшим потреблением памяти (вплоть до 6), и кто-то занимался генерацией на ЦПУ, но я с этим не экспериментировал.
Искусственный интеллект
2.5K поста9.9K подписчиков
Правила сообщества
Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан