Stable Diffusion 2.0 - локальный тест⁠⁠

Серия Stable Diffusion - Информация

3 года назад

Вышла Stable Diffusion 2.0, добавлена базовая её поддержка в Automatic1111.

Модель на 768x768 можно качать тут:
https://huggingface.co/stabilityai/stable-diffusion-2/blob/m...

Инструкции по использованию её в Automatic тут:
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki...

На данный момент работает только модель 768.

Потестировал....

Потестировал, генеря табличку художников.

Начинаем с запроса:

woman, art by Adam Hughes

И делаем X/R Plot с художниками. Просим нарисовать женщину, женщину и авто в городе, и кота. Разными художниками.

Список художников следующий:

Adam Hughes
akihiko yoshida
alphonse mucha
andrei riabovitchev
Apollonia Saintclair
artstation
craig mullins
gaston bussiere
greg rutkowski
h.r. giger
hiromu arakawa
huang guangjian
ilya kuvshinov
ivan shishkin
jae cheol park
james jean
joao ruas
kentaro miura
Leiji Matsumoto
makoto shinkai
mark arian
masamune shirow
miho hirano
Naoko Takeuchi
Phil Noto
Posuka Demizu
range murata
ross tran
rumiko takahashi
satoshi Kon
shohei otomo
sophie anderson
studio ghibli
takashi takeuchi
takato yamamoto
Tsutomu Nihei
Tony Taka
weta digital
wlop
Yoji Shinkawa
yoshitaka amano
Yoshiyuki Tomino
yusuke murata
zdzislaw beksinski

По результатам тестирования - художников порезали. Вырезали не всех, парочку забыли, но многих.

Ситуация приблизительно следующая:
Жирным шрифтом отмечены вырезанные или сильно изменившиеся.

Adam Hughes
akihiko yoshida
alphonse mucha
??andrei riabovitchev
Apollonia Saintclair
artstation
craig mullins
gaston bussiere
~~greg rutkowski~~
h.r. giger
hiromu arakawa
huang guangjian
??ilya kuvshinov
ivan shishkin
jae cheol park
james jean
joao ruas
kentaro miura
Leiji Matsumoto
makoto shinkai
mark arian
masamune shirow
miho hirano
Naoko Takeuchi
Phil Noto
Posuka Demizu
range murata
ross tran
rumiko takahashi
satoshi Kon
shohei otomo
sophie anderson
studio ghibli
takashi takeuchi
takato yamamoto
Tsutomu Nihei
Tony Taka
weta digital
wlop
Yoji Shinkawa
yoshitaka amano
Yoshiyuki Tomino
yusuke murata
zdzislaw beksinski

Табличка получилась огромная, хотел залить её на внешний сайт, но получилось её впихнуть сюда..

Было в 1.5

Стало в 2.0

---------

Было в 1.5 (звиняюсь за цензор, тега НСФВ в сообществе нет...):

Стало в 2.0:

-------

Было в 1.5

Стало в 2.0

----------

Было в 1.5

Стало в 2.0

-------

Было в 1.5

Стало в 2.0

------

Было в 1.5

Стало в 2.0

---------

Было в 1.5

Стало в 2.0

---------

Было в 1.5

Стало в 2.0

-------

Было в 1.5:

Стало в 2.0:

--------

Было в 1.5

Стало в 2.0:

------

Было в 1.5:

Стало в 2.0

-----------

Как можно заметить, большинство художников покорёжило, и данные о них удалены, т.е. либо слабые остатки стиля, либо мутная деформированная хрень.

Что заметил, так это то, что новая сетка при упоминании "art by" старательно пытается написать имя буквами внизу. И даже в некоторые правильно попадает (и на это просрана драгоценная память).

На 768x768 стало намного сильнее заметно, как одна картинка "перетекает" в другую если используется один и тот же seed.

Пример:

Т.е. художников только классических.

Тему со стекляшками помним? (Лаборатория Алхимика (Stable Diffusion))

Вот что получилось вместо неё:

Запрос пришлось сделать сильно сложнее, эффект не тот, и для получения чего-то близкого к старому варианту придётся очень долго страдать фигнёй. А ещё он ватермарки рисует поверх картинок.

Кстати, обнажёнку тоже порезали. Рисует людей с анатомией куклы барби. (лимит на картинки в посте закончился).

------

Какие из этого можно выводы сделать?

HuggingFace попутал бес или же им очень понравилось количество денег, которое бросили в их сторону, поэтому они решили всё по максимуму зацензурить в лучших пуританских традициях. Абы чего не вышло. В результате сетку сложнее использовать, хотя разрешение стало больше.

Ждём, когда кто-нибудь либо скормит в сеть неотцензуренный Laion-5B, либо заточит сеть на более удачном контенте. Со Stable Diffusion 1 такое было, есть смысл ожидать такое же и тут.

В сетке 768 генерация идёт на разрешении 768x768, занимает приблизительно вдвое больше времени, но не факт, что в более высоком разрешении стала лучше генерация, т.к. стало более заметно, как картинки генерятся. В релизе есть интересные технологии (определение глубины, например), но пока что их не прикрутили. Так что ждём дальнейшего развитие, и, скорее всего, для большинства задач пользуемся SD 1.5 и 1.4.

И на этом всё.

---небольшое дополнение---

В видео одного из ютуберов (aiterpreneur) по теме проскочило предположение, что текущая ситуация (порезанное нсфв и отсутствующие художники) возникла из-за легальных проблем, т.к. HuggingFace - компания и их могут засудить. Идея такая, что часть законов, связанных с нейротворчеством - всё ещё в работе, и компанию заваливали легальными исками, из-за чего так медленно вышла версия 1.5.

Но вроде как есть намёк, что новую модель будет легче тренировать, и что будут выложены - в скором времени - инструмены для этого. И тогда народ начнёт подстраивать текущую не очень удачную базу 2.0 под свои нужды, плодя чекпоинты. Нечто похожее происходило с Modern Disney ( Модуль для Stable Diffusion который имитирует стиль мультфильмов современного Диснея )

Т.е., возможно, лучше подождать улучшений и дальнейшего развития событий....

Но так это или нет, покажет время. И вот на этом всё.

[18+] Арт-нейросети

6.4K поста5.2K подписчиков

Добавить пост

Правила сообщества

1. Правило одно - не быть придурком. Адекватные люди никогда не получат тут никакого бана.
2. Поддерживай товарищей по сообществу - и они поддержат тебя.
3. Срачи в комментах оставь для раздела "Политика".
4. Операторы, по возможности и желанию - пишите промпт в конце поста.

Вы смотрите срез комментариев. Показать все

Inosss

Insane 3 года назад

Ну вот, тоже добрался и погенерил картиночки.

Из хорошего - оно работает. Из плохого... Я хз, я не нашел что у кого то прям какие то проблемы с sd2.0, но... Вот пример по запросу "a cat" с самыми дефотными настройками, в 2х случая получилась кошка(в одном из них даже норм), в 2х картинка гне то в процессе генерации явно куда то не туда пошла, в остальных я вообще хз, арт не релевантен запросу(такому то простому!).

1.5 всё генерит на ура.

Какие vae использовались? Я пробовал что без оных, что с теми что у них в общей репе stability ai на hugginface, разницы особой не заметил.

раскрыть ветку (25)

Xellmod

3 года назад

в 2х картинка гне то в процессе генерации явно куда то не туда пошла, в остальных

У меня такое было (тоже по запросу "кот"), когда размер картинки поставил 512x512. Поставил 768на768 и больше не сыпалось. Ещё тут в сэмплере вопрос. С ddim/dpm adaptive проблем нет.

А посыпавшаяся у меня картинка была нарисована Euler A.

Какие vae использовались?

Никакие. Все vae сейчас будут под старую модель. Если они вообще для новой возможны.

раскрыть ветку (24)

Inosss

Insane 3 года назад

Поставил 768на768

Да вот не в этом дело, изначально пробовал на 512*512, всё было плохо. Кот там просто для примера, он трешатину рисовал по любому запросу. При попытке хоть что то сгенерить на 768 - тупо всё висло без каких либо логов/ошибок. Бутнулся, видимо чото выгрузилось невыгруженное из видеопамяти - 768 рисовать начал, но так же херово.

Меня смущает именно пропасть между "сгенерил более менее" и "полный треш". Такое ощущение что таки где то что то у меня падает при генерации.

Ну и то что таки получается, мне как то прям не заходит, какие то цвета чтоли странные, всё странное. Пока самое лучшее что мог сделать ниже:

раскрыть ветку (23)

Xellmod

3 года назад

Может, видеопамяти мало и он дохнет? Просто у меня оно жрёт 9.7 гигабайт видеопамяти во время генерации. А что у вас за карточка была - не помню.

Ну и файл конфигурации не забываем.

Меня отсутствие художников огорчает. Забодаешься теперь стиль получать, который раньше можно было через смешение трёх-четырёх сделать. Отдельные изображения вроде бы ничего, но, блин, что-то всё какое-то пёстрое. И плоское.

раскрыть ветку (22)

Inosss

Insane 3 года назад

У меня 3070ti, 8гб памяти. Ну, то что это мало для sd2.0 нигде не видел, сожрано 7.3 гб. Но на всякий пробовал запускаться с --medvram, генерится дольше всю память не жрёт, но сути не меняет :( И кстати такое ощущения что стало "само" лучше. Тестовых котов генерит в большинстве случаев, но не всегда :(

А давайте сверим какой нить промт/сид/настройки? Ну например из какой нибудь картинки выше. Мне просто интересно, сможет ли у меня SD нарисовать так же как у кого то другого.

раскрыть ветку (21)

Xellmod

3 года назад

А давайте сверим какой нить промт/сид/настройки?

Ну, например...

full character portrait of dark fantasy cat warrior in heavy armor, intricate, highly detailed, cinematic illustration
Negative prompt: cropped, letterboxed, signature, watermark
Steps: 50, Sampler: DDIM, CFG scale: 7, Seed: 3276535922, Size: 768x768, Model hash: 2c02b20a

раскрыть ветку (20)

Inosss

Insane 3 года назад

Спасибо)

Как говорится, вопросов больше не имею, просто у меня руки кривые, со сборкой всё нормас.

раскрыть ветку (19)

Xellmod

3 года назад

Развлекайтесь. С версией 2.0 есть смысл вообще говоря подождать месяц-два, а пока по старому 1.4-1.5 или ANything. Т.к. пока 2.0 немного странноват в использовании.

раскрыть ветку (18)

Inosss

Insane 3 года назад

А почему 1.4 так нахваливают?

раскрыть ветку (17)

Xellmod

3 года назад

Она как бы самая первая была, а по сравнению с ней в 1.5 улучшения не очень значительные.

Вот тут сравнение есть:

раскрыть ветку (16)

Inosss

Insane 3 года назад

Псс. Не потрогал depthmap2mask? https://github.com/Extraltodeus/depthmap2mask
Просто бомбезная штука.

раскрыть ветку (15)

Xellmod

3 года назад

Ещё есть вот это. Но не идеально.

Это у нас DepthMap 0.2....

раскрыть ветку (1)

Inosss

Insane 3 года назад

Скоро скоро :3

Xellmod

3 года назад

Не потрогал. Я художников ковырял. Там всё грустновато.

Может ковырну.

Художники для SD 2.0 (маемся дурью)

раскрыть ветку (12)

Inosss

Insane 3 года назад

О, почитаемс. А так вот примерно что получается делать - расслоить картинку по глубине и, например, заменить фон по маске глубины. Взял не самую лучшую пикчу, но суть, думаю, понятна:

раскрыть ветку (11)

Xellmod

3 года назад

Пока с эффективным применением вопросы. Сегментировать по глубине даёт, это да.

раскрыть ветку (10)

Inosss

Insane 3 года назад

Кстати насчет художников, тоже на интересный пост на реддите наткнулся: https://www.reddit.com/r/StableDiffusion/comments/z7x32l/the...

раскрыть ветку (9)

Xellmod

3 года назад

Попробовал. Возни стало больше.

И, честно говоря, эффект от художника с задержкой становится слабоват.

раскрыть ветку (7)

Inosss

Insane 3 года назад

Вот кстати пример:
[((Arthur Rackham)):5], [((H. R. Giger))::5], extremely delicate and beautiful girl, Iridescent, small breasts, blue dress, black long hair, Ambient Lighting, long shot

г-н Гигер старательно пытается на anything сделать из любой тянки что то похожее на Керриган, дорисовывая хитиновые наросты и прочие прелести. Ну и в целом рисовка у него криповая.

Arthur Rackham же, неплохая композиция + какое то уплощение что ли, на выходе имеем в целом лица интереснее, чем по дефолту и волосы по мне так приятнее.

В итоге первые 5 степов из 20ти трудится H. R. Giger, старательно из шума на руках и животе пытаясь успеть нарисовать хитиновое непотребство, а потом за работу берётся Arthur Rackham, совместно с оставшимся промтом рисует няшную девочку, ретушируя работу Гигера так, чтоб это получилось платье. На выходе получаем платишко с кучей всяких разных финтифлюшек, а не опять же дефолтное синее, ну и общее смещение картинки куда то в более насыщенные цвета что ли, рваные детали и т.д. В общем мне нравится, надо экспериментировать.

раскрыть ветку (2)

Xellmod

3 года назад

Вы попробуйте просто указать обоих художников без интерполяции, и посмотрите, будет ли сильно отличаться результат. Просто они по нормальному без интерполяции где-то так и работают. С той разницей, что не отключаются в процессе. Гигер будет пытаться рисовать трубки и хитин, а второй художник - рюшечки. Ещё при небольшом их количестве порядок иногда влияет на результат. Тот, кто стоит первый - тот и даёт более сильный эффект. Это смазываетс при окличестве художников больше двух.

раскрыть ветку (1)

Inosss

Insane 3 года назад

С одной стороны да, в целом так и получилось. С другой, что то всётаки по другому) ну или я хочу в это верить хД

Inosss

Insane 3 года назад

Ну дык можно немножко повысить steps, первые шаги с одним художником пройтись, который, скажем, задаст общую композицию, а потом переключаемся на второго, которым уже будем дорисовывать детали. Идея прикольная. Плюс всегда можно задать веса для художника побольше.

Но возни да, больше.

раскрыть ветку (3)

Xellmod

3 года назад

Не проникся я этим. На реддите народ (часть его) что-то радостно несёт про "клёвую платформу", по факту инструментов мало и результаты хуже кроме узких случаев.

В примере у товарища запрос на полстраницы и его ещё отлаживать надо было, чтобы выяснить, почему колбасит. А интерполяция запроса - костыль.

Суть в том, что для чего я SD 1.5 использовал - для генерации интересных неожиданных изображений - в 2.0 работает сильно хуже. И визуально результаты слабее, стиль "плоский" (напоминают мне иллюстрации конструктора звезда). Причём стиль ещё и одинаковый. Изменения от художника минимальные.

Последняя картинка в предыдущем комменте - с отключенной интерполяцией.

раскрыть ветку (2)

Inosss

Insane 3 года назад

Не проникся я этим.

Ну, тут на вкус и цвет, как говорится..) В любом случае хорошо когда есть функционал, чем когда его нет.

А интерполяция запроса - костыль.

Что есть интерполяция запроса?

раскрыть ветку (1)

Xellmod

3 года назад

Что есть интерполяция запроса?

Вот эта ерунда с квадратными скобочками и есть.

Редактирование, то есть. Его Prompt Editing называют.

Просто в 1.5 можно и без этого, но если хочется, то это в 1.5 тоже доступно.

Xellmod

3 года назад

Хм. А вот это есть смысл попробовать.

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества