26

Stable Diffusion 2.0 - локальный тест

Серия Stable Diffusion - Информация

Вышла Stable Diffusion 2.0, добавлена базовая её поддержка в Automatic1111.

Модель на 768x768 можно качать тут:
https://huggingface.co/stabilityai/stable-diffusion-2/blob/m...

Инструкции по использованию её в Automatic тут:
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki...

На данный момент работает только модель 768.


Потестировал....


Потестировал, генеря табличку художников.


Начинаем с запроса:

woman, art by Adam Hughes

И делаем X/R Plot с художниками. Просим нарисовать женщину, женщину и авто в городе, и кота.  Разными художниками.

Список художников следующий:


Adam Hughes
akihiko yoshida
alphonse mucha
andrei riabovitchev
Apollonia Saintclair
artstation
craig mullins
gaston bussiere
greg rutkowski
h.r. giger
hiromu arakawa
huang guangjian
ilya kuvshinov
ivan shishkin
jae cheol park
james jean
joao ruas
kentaro miura
Leiji Matsumoto
makoto shinkai
mark arian
masamune shirow
miho hirano
Naoko Takeuchi
Phil Noto
Posuka Demizu
range murata
ross tran
rumiko takahashi
satoshi Kon
shohei otomo
sophie anderson
studio ghibli
takashi takeuchi
takato yamamoto
Tsutomu Nihei
Tony Taka
weta digital
wlop
Yoji Shinkawa
yoshitaka amano
Yoshiyuki Tomino
yusuke murata
zdzislaw beksinski

По результатам тестирования - художников порезали. Вырезали не всех, парочку забыли, но многих.


Ситуация приблизительно следующая:
Жирным шрифтом отмечены вырезанные или сильно изменившиеся.

Adam Hughes
akihiko yoshida
alphonse mucha
??andrei riabovitchev
Apollonia Saintclair
artstation
craig mullins
gaston bussiere
greg rutkowski
h.r. giger
hiromu arakawa
huang guangjian
??ilya kuvshinov
ivan shishkin
jae cheol park
james jean
joao ruas
kentaro miura
Leiji Matsumoto
makoto shinkai
mark arian
masamune shirow
miho hirano
Naoko Takeuchi
Phil Noto
Posuka Demizu
range murata
ross tran
rumiko takahashi
satoshi Kon

shohei otomo
sophie anderson
studio ghibli
takashi takeuchi
takato yamamoto
Tsutomu Nihei
Tony Taka
weta digital
wlop
Yoji Shinkawa
yoshitaka amano
Yoshiyuki Tomino
yusuke murata
zdzislaw beksinski

Табличка получилась огромная, хотел залить её на внешний сайт, но получилось её впихнуть сюда..


Было в 1.5

Стало в 2.0

---------

Было в 1.5 (звиняюсь за цензор, тега НСФВ в сообществе нет...):

Стало в 2.0:

-------

Было в 1.5

Стало в 2.0

----------

Было в 1.5

Стало в 2.0

-------

Было в 1.5

Стало в 2.0

------

Было в 1.5

Стало в 2.0

---------

Было в 1.5

Стало в 2.0

---------

Было в 1.5

Стало в 2.0

-------

Было в 1.5:

Стало в 2.0:

--------

Было в 1.5

Стало в 2.0:

------

Было в 1.5:

Стало в 2.0

-----------


Как можно заметить, большинство художников покорёжило, и данные о них удалены, т.е. либо слабые остатки стиля, либо мутная деформированная хрень.


Что заметил, так это то, что новая сетка при упоминании "art by" старательно пытается написать имя буквами внизу. И даже в некоторые правильно попадает (и на это просрана драгоценная память).


На 768x768 стало намного сильнее заметно, как одна картинка "перетекает" в другую если используется один и тот же seed.


Пример:

Т.е. художников только классических.


Тему со стекляшками помним? (Лаборатория Алхимика (Stable Diffusion))


Вот что получилось вместо неё:

Запрос пришлось сделать сильно сложнее, эффект не тот, и для получения чего-то близкого к старому варианту придётся очень долго страдать фигнёй. А ещё он ватермарки рисует поверх картинок.


Кстати, обнажёнку тоже порезали. Рисует людей с анатомией куклы барби. (лимит на картинки в посте закончился).


------


Какие из этого можно выводы сделать?


HuggingFace попутал бес или же им очень понравилось количество денег, которое бросили в их сторону, поэтому они решили всё по максимуму зацензурить в лучших пуританских традициях. Абы чего не вышло. В результате сетку сложнее использовать, хотя разрешение стало больше.


Ждём, когда кто-нибудь либо скормит в сеть неотцензуренный Laion-5B, либо заточит сеть на более удачном контенте. Со Stable Diffusion 1 такое было, есть смысл ожидать такое же и тут.


В сетке 768 генерация идёт на разрешении 768x768, занимает приблизительно вдвое  больше времени, но не факт, что в более высоком разрешении стала лучше генерация, т.к. стало более заметно, как картинки генерятся. В релизе есть интересные технологии (определение глубины, например), но пока что их не прикрутили. Так что ждём дальнейшего развитие, и, скорее всего, для большинства задач пользуемся SD 1.5 и 1.4.


И на этом всё.


---небольшое дополнение---

В видео одного из ютуберов (aiterpreneur) по теме проскочило предположение, что текущая ситуация (порезанное нсфв и отсутствующие художники) возникла из-за легальных проблем, т.к. HuggingFace - компания и их могут засудить. Идея такая, что часть законов, связанных с нейротворчеством - всё ещё в работе, и компанию заваливали легальными исками, из-за чего так медленно вышла версия 1.5.

Но вроде как есть намёк, что новую модель будет легче тренировать, и что будут выложены - в скором времени - инструмены для этого. И тогда народ начнёт подстраивать текущую не очень удачную базу 2.0 под свои нужды, плодя чекпоинты. Нечто похожее происходило с Modern Disney ( Модуль для Stable Diffusion который имитирует стиль мультфильмов современного Диснея )

Т.е., возможно, лучше подождать улучшений и дальнейшего развития событий....

Но так это или нет, покажет время. И вот на этом всё.

[18+] Арт-нейросети

6.4K пост5.2K подписчиков

Правила сообщества

1. Правило одно - не быть придурком. Адекватные люди никогда не получат тут никакого бана.
2. Поддерживай товарищей по сообществу - и они поддержат тебя.
3. Срачи в комментах оставь для раздела "Политика".
4. Операторы, по возможности и желанию - пишите промпт в конце поста.

0
Автор поста оценил этот комментарий

Для рукожопов инструкцию не напишете ?

раскрыть ветку (1)
4
Автор поста оценил этот комментарий

Ы..... "рукожопам" лучше попробовать более раннюю версию stable diffusion 1.5 с любой обёрткой. Некоторым NMKD нравится. ( https://nmkd.itch.io/t2i-gui )


А так, подключается следущим образм


Вам нужно установить automatic1111 как обычно.


Потом идём сюда: https://huggingface.co/stabilityai/stable-diffusion-2/blob/m... качаем модель. КИдаем её в "models/Stable Diffusion" там ещё файл есть "Put Stable Diffusion checkpoints here.txt"


Потом качаем вот этот файлик:
https://raw.githubusercontent.com/Stability-AI/stablediffusi...


КИдаем его в ту же папку и перименовываем в то же имя, как и модель. Т.е. если модель у вас "768-v-ema.ckpt", файл должен быть "sd20-768-v-ema.yaml" и после этого оно заведётся.


При генерации ставим размер картинки 768x768, иначе сгенерит абстрактный бред.


Про сам automatic я писал вот тут:
#comment_254333075

показать ответы
Автор поста оценил этот комментарий
Я понимаю нейронную сеть так:
1. Это пиздец как сложно
2. Это пиздец как бесполезно
раскрыть ветку (1)
2
Автор поста оценил этот комментарий

Хрен его знает. Сейчас ковыряю, можно выбить интересный результат.


Но, блин, без художников как без рук. Это был простой способ получить удобный адекватный пресет.


Ещё раздражают попытки нарисовать водяные знаки.


Вообще, блин, мне Кандинский от яндекса вспоминается на это глядя.

Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
0
Insane
Автор поста оценил этот комментарий

У меня 3070ti, 8гб памяти. Ну, то что это мало для sd2.0 нигде не видел, сожрано 7.3 гб. Но на всякий пробовал запускаться с --medvram, генерится дольше всю память не жрёт, но сути не меняет :( И кстати такое ощущения что стало "само" лучше. Тестовых котов генерит в большинстве случаев, но не всегда :(

А давайте сверим какой нить промт/сид/настройки? Ну например из какой нибудь картинки выше. Мне просто интересно, сможет ли у меня SD нарисовать так же как у кого то другого.

раскрыть ветку (1)
1
Автор поста оценил этот комментарий
А давайте сверим какой нить промт/сид/настройки?

Ну, например...


full character portrait of dark fantasy cat warrior in heavy armor, intricate, highly detailed, cinematic illustration
Negative prompt: cropped, letterboxed, signature, watermark
Steps: 50, Sampler: DDIM, CFG scale: 7, Seed: 3276535922, Size: 768x768, Model hash: 2c02b20a
Иллюстрация к комментарию
показать ответы
1
Insane
Автор поста оценил этот комментарий
Поставил 768на768
Да вот не в этом дело, изначально пробовал на 512*512, всё было плохо. Кот там просто для примера, он трешатину рисовал по любому запросу. При попытке хоть что то сгенерить на 768 - тупо всё висло без каких либо логов/ошибок. Бутнулся, видимо чото выгрузилось невыгруженное из видеопамяти - 768 рисовать начал, но так же херово.

Меня смущает именно пропасть между "сгенерил более менее" и "полный треш". Такое ощущение что таки где то что то у меня падает при генерации.


Ну и то что таки получается, мне как то прям  не заходит, какие то цвета чтоли странные, всё странное. Пока самое лучшее что мог сделать ниже:
Иллюстрация к комментарию
раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Может, видеопамяти мало и он дохнет? Просто у меня оно жрёт 9.7 гигабайт видеопамяти во время генерации. А что у вас за карточка была - не помню.


Ну и файл конфигурации не забываем.


Меня отсутствие художников огорчает. Забодаешься теперь стиль получать, который раньше можно было через смешение трёх-четырёх сделать. Отдельные изображения вроде бы ничего, но, блин, что-то всё какое-то пёстрое. И плоское.

Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
показать ответы
1
Insane
Автор поста оценил этот комментарий

Ну вот, тоже добрался и погенерил картиночки.

Из хорошего - оно работает. Из плохого... Я хз, я не нашел что у кого то прям какие то проблемы с sd2.0, но... Вот пример по запросу "a cat" с самыми дефотными настройками, в 2х случая получилась кошка(в одном из них даже норм), в 2х картинка гне то в процессе генерации явно куда то не туда пошла, в остальных я вообще хз, арт не релевантен запросу(такому то простому!).

1.5 всё генерит на ура.

Какие vae использовались? Я пробовал что без оных, что с теми что у них в общей репе stability ai на hugginface, разницы особой не заметил.

Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
раскрыть ветку (1)
1
Автор поста оценил этот комментарий
в 2х картинка гне то в процессе генерации явно куда то не туда пошла, в остальных

У меня такое было (тоже по запросу "кот"), когда размер картинки поставил 512x512. Поставил 768на768 и больше не сыпалось. Ещё тут в сэмплере вопрос. С ddim/dpm adaptive проблем нет.


А посыпавшаяся у меня картинка была нарисована Euler A.


Какие vae использовались?

Никакие. Все vae сейчас будут под старую модель. Если они вообще для новой возможны.

показать ответы
0
Автор поста оценил этот комментарий

Что меняют и что меняется в нейросети между версиями что она начинает выдавать из того другое? Алгоритм подбора деталей?

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Алгоритма "подбора деталей" не существует. Оно нейросеть, а не программа в традиционном смысле.


Изменился блок который отвечал за "токенизацию" слов, и изменился набор исходных данных. Из-за этого результат другой, и некоторые вещи оно теперь не знает.


Использовать StableDiffusion 2.0/2.1 сейчас, ИМХО, смысла нет.

0
Автор поста оценил этот комментарий

Что здесь в последнем замучено цензурой?)

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Членоголова.

0
Insane
Автор поста оценил этот комментарий
Не проникся я этим.

Ну, тут на вкус и цвет, как говорится..) В любом случае хорошо когда есть функционал, чем когда его нет.

А интерполяция запроса - костыль.
Что есть интерполяция запроса?

раскрыть ветку (1)
0
Автор поста оценил этот комментарий
Что есть интерполяция запроса?

Вот эта ерунда с квадратными скобочками и есть.


Редактирование, то есть. Его Prompt Editing называют.


Просто в 1.5 можно и без этого, но если хочется, то это в 1.5 тоже доступно.

0
Insane
Автор поста оценил этот комментарий

Вот кстати пример:
[((Arthur Rackham)):5], [((H. R. Giger))::5], extremely delicate and beautiful girl, Iridescent, small breasts, blue dress, black long hair, Ambient Lighting, long shot

г-н Гигер старательно пытается на anything сделать из любой тянки что то похожее на Керриган, дорисовывая хитиновые наросты и прочие прелести. Ну и в целом рисовка у него криповая.

Arthur Rackham же, неплохая композиция + какое то уплощение что ли, на выходе имеем в целом лица интереснее, чем по дефолту и волосы по мне так приятнее.

В итоге первые 5 степов из 20ти трудится H. R. Giger, старательно из шума на руках и животе пытаясь успеть нарисовать хитиновое непотребство, а потом за работу берётся Arthur Rackham, совместно с оставшимся промтом рисует няшную девочку, ретушируя работу Гигера так, чтоб это получилось платье. На выходе получаем платишко с кучей всяких разных финтифлюшек, а не опять же дефолтное синее, ну и общее смещение картинки куда то в более насыщенные цвета что ли, рваные детали и т.д. В общем мне нравится, надо экспериментировать.

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Вы попробуйте просто указать обоих художников без интерполяции, и посмотрите, будет ли сильно отличаться результат. Просто они по нормальному без интерполяции где-то так и работают. С той разницей, что не отключаются в процессе. Гигер будет пытаться рисовать трубки и хитин, а второй художник - рюшечки. Ещё при небольшом их количестве порядок иногда влияет на результат. Тот, кто стоит первый - тот и даёт более сильный эффект. Это смазываетс при окличестве художников больше двух.

показать ответы
0
Insane
Автор поста оценил этот комментарий

Ну дык можно немножко повысить steps, первые шаги с одним художником пройтись, который, скажем, задаст общую композицию, а потом переключаемся на второго, которым уже будем дорисовывать детали. Идея прикольная. Плюс всегда можно задать веса для художника побольше.


Но возни да, больше.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Не проникся я этим. На реддите народ (часть его) что-то радостно несёт про "клёвую платформу", по факту инструментов мало и результаты хуже кроме узких случаев.


В примере у товарища запрос на полстраницы и его ещё отлаживать надо было, чтобы выяснить, почему колбасит. А интерполяция запроса - костыль.


Суть в том, что для чего я SD 1.5  использовал - для генерации интересных неожиданных изображений - в 2.0 работает сильно хуже. И визуально результаты слабее, стиль "плоский" (напоминают мне иллюстрации конструктора звезда). Причём стиль ещё и одинаковый. Изменения от художника минимальные.


Последняя картинка в предыдущем комменте - с отключенной интерполяцией.

показать ответы
1
Insane
Автор поста оценил этот комментарий

Кстати насчет художников, тоже на интересный пост на реддите наткнулся: https://www.reddit.com/r/StableDiffusion/comments/z7x32l/the...

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Попробовал. Возни стало больше.


И, честно говоря, эффект от художника с задержкой становится слабоват.

Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
показать ответы
1
Insane
Автор поста оценил этот комментарий

Кстати насчет художников, тоже на интересный пост на реддите наткнулся: https://www.reddit.com/r/StableDiffusion/comments/z7x32l/the...

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Хм. А вот это есть смысл попробовать.

0
Insane
Автор поста оценил этот комментарий

Псс. Не потрогал depthmap2mask?   https://github.com/Extraltodeus/depthmap2mask
Просто бомбезная штука.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Ещё есть вот это. Но не идеально.


Это у нас DepthMap 0.2....

показать ответы
0
Insane
Автор поста оценил этот комментарий

О, почитаемс. А так вот примерно что получается делать - расслоить картинку по глубине и, например, заменить фон по маске глубины. Взял не самую лучшую пикчу, но суть, думаю, понятна:

Иллюстрация к комментарию
Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Пока с эффективным применением вопросы. Сегментировать по глубине даёт, это да.

Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
показать ответы
0
Insane
Автор поста оценил этот комментарий

Псс. Не потрогал depthmap2mask?   https://github.com/Extraltodeus/depthmap2mask
Просто бомбезная штука.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Не потрогал. Я художников ковырял. Там всё грустновато.


Может ковырну.


Художники для SD 2.0 (маемся дурью)

показать ответы
0
Insane
Автор поста оценил этот комментарий
А почему 1.4 так нахваливают?
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Она как бы самая первая была, а по сравнению с ней в 1.5 улучшения не очень значительные.


Вот тут сравнение есть:

Предпросмотр
YouTube9:54
показать ответы
0
Автор поста оценил этот комментарий

Ну вот решили себя обезопасить, и я их в целом понимаю вполне. Уже нашлись люди, которые планируют в начале декабря запускать сбор средств на кикстартере для обучения модели, которая умеет и в сиськи, и в художников. А пока можно и на 1.5 жить, благо на мой взгляд ничем не хуже, чем 2.0

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Это всё хорошо, но тут несколько моментов:


* У нас уже было Waifu Diffusion, оно сильно слабее. Такая же фигня со многими другими чекпоинтами. Т.е. недостаточно воткнуть туда данные, надо их ещё подготовить. Вот некто, делавший Anything, хорошо подготовил данные.

* Есть риск, что эти товарищи налепят на свою сетку дебильную лицензию, или что они тоже получает по башке.


Но в целом начинание и посыл абсолютно правильные...

0
Автор поста оценил этот комментарий

Авторы же и в твитере своём, и на редите говорили, что это всё из-за проблем с законом в целом и авторскими правами в частности. По обнажёнке - мол, если можно нарисовать голые сиськи и ребёнка - значит кто-то да нарисует ребёнка с голыми сиськами, а мы будем виноваты, нахер нам это надо. Вот и огородились от этого дела

раскрыть ветку (1)
0
Автор поста оценил этот комментарий
По обнажёнке - мол, если можно нарисовать голые сиськи

А если у человека есть руки, то он может рисовать ими и детей и сиськи. Значит руки надо запретить.


Это, ИМХО, идиотизм. Логичнее разрешить рисовать что угодно, но сделать "оператора" ответственным за художество...

показать ответы
1
Insane
Автор поста оценил этот комментарий

Спасибо)

Как говорится, вопросов больше не имею, просто у меня руки кривые, со сборкой всё нормас.

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Развлекайтесь. С версией 2.0 есть смысл вообще говоря подождать месяц-два, а пока по старому 1.4-1.5 или ANything. Т.к. пока 2.0 немного странноват в использовании.

показать ответы
0
Автор поста оценил этот комментарий
КИдаем её в "models/Stable Diffusion"
в "SD-GUI-1.7.1\Data\models\768-v-ema.ckpt" ?
v2-inference-v.yaml

в "SD-GUI-1.7.1\Data\models\sd20-768-v-ema.yaml" ?

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Не-а. Это у вас NMKD. Я говорил про automatic1111, в котором нет папки "Data". Как настраивать NMKD - не знаю, т.к. ни разу не пользовался.

0
Автор поста оценил этот комментарий
Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

По NMKD ничего не скажу - не пользуюсь. С версие 1.4-1.5 должен работать.

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества