26

Stable Diffusion 2.0 - локальный тест

Серия Stable Diffusion - Информация

Вышла Stable Diffusion 2.0, добавлена базовая её поддержка в Automatic1111.

Модель на 768x768 можно качать тут:
https://huggingface.co/stabilityai/stable-diffusion-2/blob/m...

Инструкции по использованию её в Automatic тут:
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki...

На данный момент работает только модель 768.


Потестировал....


Потестировал, генеря табличку художников.


Начинаем с запроса:

woman, art by Adam Hughes

И делаем X/R Plot с художниками. Просим нарисовать женщину, женщину и авто в городе, и кота.  Разными художниками.

Список художников следующий:


Adam Hughes
akihiko yoshida
alphonse mucha
andrei riabovitchev
Apollonia Saintclair
artstation
craig mullins
gaston bussiere
greg rutkowski
h.r. giger
hiromu arakawa
huang guangjian
ilya kuvshinov
ivan shishkin
jae cheol park
james jean
joao ruas
kentaro miura
Leiji Matsumoto
makoto shinkai
mark arian
masamune shirow
miho hirano
Naoko Takeuchi
Phil Noto
Posuka Demizu
range murata
ross tran
rumiko takahashi
satoshi Kon
shohei otomo
sophie anderson
studio ghibli
takashi takeuchi
takato yamamoto
Tsutomu Nihei
Tony Taka
weta digital
wlop
Yoji Shinkawa
yoshitaka amano
Yoshiyuki Tomino
yusuke murata
zdzislaw beksinski

По результатам тестирования - художников порезали. Вырезали не всех, парочку забыли, но многих.


Ситуация приблизительно следующая:
Жирным шрифтом отмечены вырезанные или сильно изменившиеся.

Adam Hughes
akihiko yoshida
alphonse mucha
??andrei riabovitchev
Apollonia Saintclair
artstation
craig mullins
gaston bussiere
greg rutkowski
h.r. giger
hiromu arakawa
huang guangjian
??ilya kuvshinov
ivan shishkin
jae cheol park
james jean
joao ruas
kentaro miura
Leiji Matsumoto
makoto shinkai
mark arian
masamune shirow
miho hirano
Naoko Takeuchi
Phil Noto
Posuka Demizu
range murata
ross tran
rumiko takahashi
satoshi Kon

shohei otomo
sophie anderson
studio ghibli
takashi takeuchi
takato yamamoto
Tsutomu Nihei
Tony Taka
weta digital
wlop
Yoji Shinkawa
yoshitaka amano
Yoshiyuki Tomino
yusuke murata
zdzislaw beksinski

Табличка получилась огромная, хотел залить её на внешний сайт, но получилось её впихнуть сюда..


Было в 1.5

Стало в 2.0

---------

Было в 1.5 (звиняюсь за цензор, тега НСФВ в сообществе нет...):

Стало в 2.0:

-------

Было в 1.5

Стало в 2.0

----------

Было в 1.5

Стало в 2.0

-------

Было в 1.5

Стало в 2.0

------

Было в 1.5

Стало в 2.0

---------

Было в 1.5

Стало в 2.0

---------

Было в 1.5

Стало в 2.0

-------

Было в 1.5:

Стало в 2.0:

--------

Было в 1.5

Стало в 2.0:

------

Было в 1.5:

Стало в 2.0

-----------


Как можно заметить, большинство художников покорёжило, и данные о них удалены, т.е. либо слабые остатки стиля, либо мутная деформированная хрень.


Что заметил, так это то, что новая сетка при упоминании "art by" старательно пытается написать имя буквами внизу. И даже в некоторые правильно попадает (и на это просрана драгоценная память).


На 768x768 стало намного сильнее заметно, как одна картинка "перетекает" в другую если используется один и тот же seed.


Пример:

Т.е. художников только классических.


Тему со стекляшками помним? (Лаборатория Алхимика (Stable Diffusion))


Вот что получилось вместо неё:

Запрос пришлось сделать сильно сложнее, эффект не тот, и для получения чего-то близкого к старому варианту придётся очень долго страдать фигнёй. А ещё он ватермарки рисует поверх картинок.


Кстати, обнажёнку тоже порезали. Рисует людей с анатомией куклы барби. (лимит на картинки в посте закончился).


------


Какие из этого можно выводы сделать?


HuggingFace попутал бес или же им очень понравилось количество денег, которое бросили в их сторону, поэтому они решили всё по максимуму зацензурить в лучших пуританских традициях. Абы чего не вышло. В результате сетку сложнее использовать, хотя разрешение стало больше.


Ждём, когда кто-нибудь либо скормит в сеть неотцензуренный Laion-5B, либо заточит сеть на более удачном контенте. Со Stable Diffusion 1 такое было, есть смысл ожидать такое же и тут.


В сетке 768 генерация идёт на разрешении 768x768, занимает приблизительно вдвое  больше времени, но не факт, что в более высоком разрешении стала лучше генерация, т.к. стало более заметно, как картинки генерятся. В релизе есть интересные технологии (определение глубины, например), но пока что их не прикрутили. Так что ждём дальнейшего развитие, и, скорее всего, для большинства задач пользуемся SD 1.5 и 1.4.


И на этом всё.


---небольшое дополнение---

В видео одного из ютуберов (aiterpreneur) по теме проскочило предположение, что текущая ситуация (порезанное нсфв и отсутствующие художники) возникла из-за легальных проблем, т.к. HuggingFace - компания и их могут засудить. Идея такая, что часть законов, связанных с нейротворчеством - всё ещё в работе, и компанию заваливали легальными исками, из-за чего так медленно вышла версия 1.5.

Но вроде как есть намёк, что новую модель будет легче тренировать, и что будут выложены - в скором времени - инструмены для этого. И тогда народ начнёт подстраивать текущую не очень удачную базу 2.0 под свои нужды, плодя чекпоинты. Нечто похожее происходило с Modern Disney ( Модуль для Stable Diffusion который имитирует стиль мультфильмов современного Диснея )

Т.е., возможно, лучше подождать улучшений и дальнейшего развития событий....

Но так это или нет, покажет время. И вот на этом всё.

[18+] Арт-нейросети

6.4K поста5.2K подписчиков

Правила сообщества

1. Правило одно - не быть придурком. Адекватные люди никогда не получат тут никакого бана.
2. Поддерживай товарищей по сообществу - и они поддержат тебя.
3. Срачи в комментах оставь для раздела "Политика".
4. Операторы, по возможности и желанию - пишите промпт в конце поста.

Вы смотрите срез комментариев. Показать все
1
Insane
Автор поста оценил этот комментарий

Ну вот, тоже добрался и погенерил картиночки.

Из хорошего - оно работает. Из плохого... Я хз, я не нашел что у кого то прям какие то проблемы с sd2.0, но... Вот пример по запросу "a cat" с самыми дефотными настройками, в 2х случая получилась кошка(в одном из них даже норм), в 2х картинка гне то в процессе генерации явно куда то не туда пошла, в остальных я вообще хз, арт не релевантен запросу(такому то простому!).

1.5 всё генерит на ура.

Какие vae использовались? Я пробовал что без оных, что с теми что у них в общей репе stability ai на hugginface, разницы особой не заметил.

Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
раскрыть ветку (25)
1
Автор поста оценил этот комментарий
в 2х картинка гне то в процессе генерации явно куда то не туда пошла, в остальных

У меня такое было (тоже по запросу "кот"), когда размер картинки поставил 512x512. Поставил 768на768 и больше не сыпалось. Ещё тут в сэмплере вопрос. С ddim/dpm adaptive проблем нет.


А посыпавшаяся у меня картинка была нарисована Euler A.


Какие vae использовались?

Никакие. Все vae сейчас будут под старую модель. Если они вообще для новой возможны.

раскрыть ветку (24)
1
Insane
Автор поста оценил этот комментарий
Поставил 768на768
Да вот не в этом дело, изначально пробовал на 512*512, всё было плохо. Кот там просто для примера, он трешатину рисовал по любому запросу. При попытке хоть что то сгенерить на 768 - тупо всё висло без каких либо логов/ошибок. Бутнулся, видимо чото выгрузилось невыгруженное из видеопамяти - 768 рисовать начал, но так же херово.

Меня смущает именно пропасть между "сгенерил более менее" и "полный треш". Такое ощущение что таки где то что то у меня падает при генерации.


Ну и то что таки получается, мне как то прям  не заходит, какие то цвета чтоли странные, всё странное. Пока самое лучшее что мог сделать ниже:
Иллюстрация к комментарию
раскрыть ветку (23)
1
Автор поста оценил этот комментарий

Может, видеопамяти мало и он дохнет? Просто у меня оно жрёт 9.7 гигабайт видеопамяти во время генерации. А что у вас за карточка была - не помню.


Ну и файл конфигурации не забываем.


Меня отсутствие художников огорчает. Забодаешься теперь стиль получать, который раньше можно было через смешение трёх-четырёх сделать. Отдельные изображения вроде бы ничего, но, блин, что-то всё какое-то пёстрое. И плоское.

Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
Иллюстрация к комментарию
раскрыть ветку (22)
0
Insane
Автор поста оценил этот комментарий

У меня 3070ti, 8гб памяти. Ну, то что это мало для sd2.0 нигде не видел, сожрано 7.3 гб. Но на всякий пробовал запускаться с --medvram, генерится дольше всю память не жрёт, но сути не меняет :( И кстати такое ощущения что стало "само" лучше. Тестовых котов генерит в большинстве случаев, но не всегда :(

А давайте сверим какой нить промт/сид/настройки? Ну например из какой нибудь картинки выше. Мне просто интересно, сможет ли у меня SD нарисовать так же как у кого то другого.

раскрыть ветку (21)
1
Автор поста оценил этот комментарий
А давайте сверим какой нить промт/сид/настройки?

Ну, например...


full character portrait of dark fantasy cat warrior in heavy armor, intricate, highly detailed, cinematic illustration
Negative prompt: cropped, letterboxed, signature, watermark
Steps: 50, Sampler: DDIM, CFG scale: 7, Seed: 3276535922, Size: 768x768, Model hash: 2c02b20a
Иллюстрация к комментарию
раскрыть ветку (20)
1
Insane
Автор поста оценил этот комментарий

Спасибо)

Как говорится, вопросов больше не имею, просто у меня руки кривые, со сборкой всё нормас.

Иллюстрация к комментарию
раскрыть ветку (19)
0
Автор поста оценил этот комментарий

Развлекайтесь. С версией 2.0 есть смысл вообще говоря подождать месяц-два, а пока по старому 1.4-1.5 или ANything. Т.к. пока 2.0 немного странноват в использовании.

раскрыть ветку (18)
0
Insane
Автор поста оценил этот комментарий
А почему 1.4 так нахваливают?
раскрыть ветку (17)
0
Автор поста оценил этот комментарий

Она как бы самая первая была, а по сравнению с ней в 1.5 улучшения не очень значительные.


Вот тут сравнение есть:

Предпросмотр
YouTube9:54
раскрыть ветку (16)
0
Insane
Автор поста оценил этот комментарий

Псс. Не потрогал depthmap2mask?   https://github.com/Extraltodeus/depthmap2mask
Просто бомбезная штука.

раскрыть ветку (15)
Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества