Dmitriy.yiu

Повернутый на нейросетях энтузиаст, инноватик и стэблист https://t.me/neuro_yiu Дмитрий Чаплинский — https://vk.com/dmitriy_yiu

Пикабушник 1 год 5 месяцев 3 недели 2 дня

Дата рождения: 17 мая 2001

поставил 215 плюсов и 2 минуса

отредактировал 0 постов

проголосовал за 0 редактирований

1086 рейтинг 117 подписчиков 9 подписок 34 поста 13 в горячем

Dmitriy.yiu

1 год назад

Stable Diffusion

Что делать, если не работает Automatic1111, а генерировать красоту надо? Спасаем ситуацию!⁠⁠

Друзья, предисловие для затравки

Три дня я не мог работать в Automatic1111 из-за появившихся багов со стороны разработчика. Три дня я страдал, искал решение, переустанавливал все подряд как в Google Drive, так и на своем ПК — ничего не помогало...

Работать было нужно, поэтому использовал Midjourney от безысходности. Кстати, кому интересно, в моем телеграме есть гайд, как пользоваться миджорни бесконечно и бесплатно.

Решение оказалось гениальным и простым: я вспомнил, как когда-то видел в местном чате кастомный блокнот Google Colab, в котором можно было в пару кликов запустить одну из популярных моделей. Я подумал: а вдруг этот блокнот не обновился вопреки официальному репозиторию? И оказался прав, блокнот действительно остался тем же самым и работал так же хорошо, как и раньше. Бинго! Кстати, вот автор блокнота.

Перейдем к практике

По ссылке вы сможете перейти на тот самый блокнот, который работал не смотря на массовые сбои. Я сделал его копию к себе на диск и обновил некоторые модели на более свежие, чтобы вы могли пользоваться самыми новенькими наработками сообщества стэблистов.

Когда вы переместитесь по ссылке, то увидите следующий интерфейс:

Как вы можете видеть, разделов совсем минимум, не то что в оригинальном Automatic1111 от TheLastBen. Давайте разберем все по порядку, чтобы не было куриного переполоха.

Первый блок — это подключение своего Google disk, чтобы можно было загружать и выгружать файлы. Данный пункт не обязателен, так как сборка способна работать полностью автономно.

В блоке Настройка мы видим пункт для ввода HuggingFace_Token, который понадобится для того, чтобы сборка могла загружать модели и использовать их для генерации изображений.

В пункте 3 клацаем на понравившуюся модель из выпадающего списка, либо в четвертом вставляем ссылку на путь к своей модели. После всех махинаций необходимо выбрать версию модели (зачастую это 1.5)

Разделы на скриншоте выше загружают то, что мы выбрали на предыдущем шаге, после чего запускается веб-интерфейс Automatic1111. Запуск сборки составляет 3-4 минуты, что вполне допустимо и терпимо + ваш диск не засоряется лишними файлами, а это значит, что не нужно будет тратить время на их удаление. Сборку также не придется переустанавливать, поэтому эти 3-4 минуты ничего не решают.

Минус же заключается в том, что каждый раз придется запускать все заново, а ваши генерации удалятся при закрытии блокнота. Учтите, что изображения придется сразу сохранять к себе на компьютер и только потом останавливать процесс, в противном случае они сотрутся.

Когда вы запустите последний блок, то появится ссылка, выделенная красным — по ней и нужно перейти, чтобы открылся веб-интерфейс.

Кстати, в сборке сразу же установлено расширение depthmap2mask, с помощью которого можно вырезать фон, строить карту глубины и менять окружение фотографии.

Congratulations, вы справились!

Теперь кто-то умеет работать и создавать красоту даже тогда, когда остальные только чешут репу и думают: эх, не сегодня, Джонни. Буду рад обратной связи и вашим комментариям, а также приглашаю в свой телеграм чат, где отвечу на все вопросы касаемо SD.

Заходите в телеграм-канал, где я собираю лучшие гайды по Stable Diffusion. А если не найду, то пишу сам.

Показать полностью 5

Dmitriy.yiu

1 год назад

Stable Diffusion

Самый понятный гайд по embedding с примерами (переносим любимого персонажа в Stable Diffusion)⁠⁠

Была у меня давняя мечта — создать модель Икарос из аниме Sora no Otoshimono. Обожаю этого персонажа, запала мне в душу ангелица.

Обычные модели мне показались банальными и большими, а я за оптимизацию и максимальную практическую пользу — так и решил заняться текстовой инверсией embedding, которая весит по окончании обучения всего лишь около сотни килобайт.

Обучал модель два раза. Первый по гайду ХрИста, а второй по собственным наблюдениям и логике. Думаю, вы уже поняли, что первый раз не удался — так и родился этот гайд, чтобы закрыть и ваши боли.

Пару слов от себя

Ребят, если планируете тренировать embedding для арта или аниме, то сразу же устанавливайте модель Anything V3, а также VAE (на той же странице, что и модель). Это не обсуждается и не критикуется — поверьте, я сэкономил вам кучу времени.

VAE кладем в папку stable-diffusion-webui/models/VAE

Далее: я тренировал модель на 21 изображении красавицы-любимицы, но вы можете экспериментировать с количеством. Ставил 3000 шагов, а заняла тренировка около 35 минут в Google Colab. На хорошей видеокарте Nvidia 20-30 серии время сократится до 10-15 минут. Друзья, отбирайте качественные изображения тянки для тренировки: без лишних деталей, надписей, супер сложных фонов. CFG Scale выставляйте в районе 4.5 — это тоже важно (далее еще скажу об этом).

Так как это текстовая инверсия, а не полноценная модель, то она не сможет запомнить все детали. Идеально оставить белый или другой монотонный фон — так фокус останется именно на персонаже.

Во второй итерации своего дата-сета я добавил изображения на белом фоне, полученные во время тестов первой текстовой инверсии.

Кстати, рекомендую освоить Figma — в ней очень просто редактировать и кадрировать изображения для тренировки ваших моделей.

Перейдем к практике

Что нам понадобится? Во-первых, установленный либо локально, либо в облако Automatic1111. Прикреплю ссылки на лучшие по моему мнению гайды, можете смело пользоваться. В случае проблем готов помочь в чате.

Также необходимо установить модель и VAE. После этого можно запускать Automatic1111 и начинать работу. Внутренних средств фреймворка нам вполне хватит, поэтому ничего дополнительно устанавливать не нужно.

Первые шаги

Для начала полюбуемся на результат, достигнутый без фотошопа и других редакторов. Будьте готовы к тому, то генерации придется существенно дорабатывать — это нормально.

Для начала мы с вами должны открыть вкладку txt2img и прописать токены генерации желанного предмета или тянки.

Negative prompt берем такой: (deformed, distorted, disfigured:1.3), poorly drawn, bad anatomy, wrong anatomy, extra lim, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation

Настройки можете выставить как у меня.

Переходим во кладку Train и создаем там имя нашего embedding (придумайте уникальное имя с нижним подчеркиванием), вставляем prompt из вкладки txt2img в нижнее поле. Важный момент: видите ползунок? Там есть циферка, которая значит, сколько токенов в запросе.

Считаете все слова в запросе вместе с запятыми и выставляете это число.

Далее все просто — копируйте настройки из скриншота и радуйтесь жизни. Мы уже близки к финалу, поэтому не засыпать! В поле embedding выбираем название только что созданной модели и движемся дальше.

Если вы обучаете модель в Google Colab, то закидывайте тренировочные изображения в любую папку на вашем диске, после чего прописывайте путь к ней в поле Dataset directory. На ПК копируйте путь к папке через проводник.

А в поле Prompt template кликайте на style_filewords — не прогадаете. Я мучился, проверял по нескольку раз, поэтому не стоит делать то же самое, лучше наслаждайтесь жизнью...

На последнем этапе берите настройки с моих. Единственное, не всегда нужно такое большое количество шагов. На 2000 у меня получилась ерунда, поэтому и взял побольше на второй попытке. Если ваш стиль окажется проще, чем аниме-ангелица, то смело занижайте количество шагов.

Самое приятное — жмем на кнопку Train Embedding и смиренно смотрим процесс (лучше прогуляться, чтобы спина не окаменела). Ресурсов Google Colab хватит, чтобы обучение прошло успешно, поэтому не парьтесь по поводу ограниченной квоты на вычисления. Я потом даже 2 часа сверху успел поработать, так и не израсходовав весь лимит.

Созданная модель будет храниться по пути: stable-diffusion-webui/embeddings. Чтобы генерировать изображения — вводите название, которое вы создавали на этапе создания embedding (в моем случае это emb_ikaros_yiu). Если получается фигня, то ставьте
CFG Scale на 4.5 или ниже.

Кстати, вы можете скачивать текстовые инверсии других авторов и так же их использовать в своих работах. Существуют инверсии и для negative prompt, к примеру, чтобы исправлять руки.

Рекомендую генерировать своих пассий на той же модели, на которой вы получали текстовую инверсию — результат будет гораздо лучше, проверено.

Congratulations, вы справились!

Теперь кто-то умеет создавать текстовые инверсии с помощью лучшего фреймворка для Stable Diffusion на сегодняшний день. Буду рад обратной связи и вашим комментариям, а также приглашаю в свой телеграм чат, где отвечу на все вопросы касаемо SD.

Будем с Икарос видеть вас в телеграм-канале, где я собираю лучшие гайды по Stable Diffusion. А если не найду, то пишу сам.

Показать полностью 7

[моё] Гайд Длиннопост Stable Diffusion Нейронные сети Арты нейросетей Аниме Искусственный интеллект Digital

Dmitriy.yiu

1 год назад

Stable Diffusion

Лучшие методы апскейла с помощью Stable Diffusion⁠⁠

Введение и приветственные полезности

Дорогие стэблисты, миджорнисты и даллисты, я провел большое исследование с наглядным сравнением самых передовых апскейлеров по моему мнению.

Среди них: 4x_foolharby_Remacri, 4x_NMKD-siax_200k, 4x_Valar_v1, 4x_Uniscale-Balanced.

Вместе с ними в ряд поставил Gigapixel AI, так как он дает хороший результат и быстро работает, что очень важно для простого пользователя со слабым железом.

По ссылке на мой телеграм канал вы сможете скачать приведенные в этой статье апскейлеры (сразу попадете на нужное сообщение).

Таблица со сравнениями размещена в Figma, а разрешение картинок огромное, поэтому не пугайтесь, если поначалу увидите пиксели. Рекомендуется заходить с ПК, так смотреть будет намного удобнее.

Эксперименты проводил в Google Colab, видеокарта там — Nvidia T4 на 16Гб видеопамяти (уровень RTX3080). Работаю только в Automatic1111, гайд написан также для этого фреймворка. Topaz Gigapixel AI работал на моей старенькой GTX 1050 на 4Гб видеопамяти.

Основная цель

Важной задачей являлось обеспечение наилучшего быстродействия, так как по два часа на одну картинку вряд ли кто-то захочет тратить, не так ли?

На результат ниже ушло порядка полторы минут генерации, что я считаю отличным результатом. Качества можно добиться еще выше, однако будьте готовы к нагреву комнаты от пыхтящей видеокарты и синим экранам.

Как добиться наилучшего результата быстро без навыков?

Если вам нужен очень быстрый способ увеличения разрешения и детализации, и при этом качество не так критично, то можете смело использовать Topaz Gigapixel AI с двукратным апскейлом. Программа умеет повышать качество сразу нескольким изображениям из папки, что очень экономит время. Для небольшого пула фотографий рекомендую попробовать онлайн-инструмент Codeformer — алгоритм подбирает параметры автоматически и выдает невероятный результат за секунды. Примеры работы приведенных инструментов вы можете увидеть на картинке ниже.

Еще один интересный аналог — GFPGAN, также доступный онлайн и дающий неплохой результат. Прекрасно восстанавливает глаза, лучше всех остальных (проверено), однако шакалит детали вокруг лица, поэтому придется поработать в фотошопе.

Апскейлим с помощью средств Automatic1111

Также необходимо закинуть в папку stable-diffusion/stable-diffusion-webui/models/ESRGAN апскейлеры. После этого можно запускать Automatic1111 и начинать работу. Внутренних средств фреймворка нам вполне хватит, поэтому ничего дополнительно устанавливать не нужно.

Начнем с быстрого, но среднего по качеству результата

Для этого переходим во вкладку Extras и выбираем один из скачанных апскейлеров: в моем случае им будет 4x_Uniscale-Balanced — зайчик-любимчик. Заметьте, что у нас на фотографии имеется лицо, поэтому выставляем настройки GFPGAN visibility и Codeformer на те, что вы видите на скриншоте. Можете экспериментировать, но для экономии времени рекомендую просто повторить за мной.

Если вам не нужен апскейл в четыре раза, то выбирайте x2 — так и быстрее будет, и адекватнее по уровню добавленных деталей. В случае большой выборки картинок переходим во вкладку Batch Process и вводим путь к папке с изображениями, а затем указываем путь к папке с сохранением результата.

Внимание, полезняшка-вкусняшка: если в качестве второго апскейлера выбрать
R-ESRGAN 4x+ и выставить степень его воздействия на 0,5, то итоговая картинка будет чуть сглаженной — это подходит для барби-дам, жаждущих идеальной кожи.

Продолжим получать красоту и перейдем к изюминке

Кликаем по вкладке img2img, после чего загружаем изображение и вводим позитивный prompt, который выглядит примерно так: raw, hdr, 8k textures, extreme detail, hight detailed skin texture, epic details, high sharpness.

В негативном prompt пишем следующее: (deformed, distorted, disfigured:1.3), poorly drawn, bad anatomy, wrong anatomy, extra lim, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation.

Ура, мы на полпути к успеху! Я уже ставлю на стол шампанское! Не засыпать.

И в завершение настройки выбираем Sampler, подгоняем ширину и высоту (она не влияет на разрешение генерации, а просто показывает границы кадра), ставим CFG Scale, Denoising Strength (от 0,04 до 0,2), и из выпадающего списка ловим SD Upscale, где отмечаем любимый апскейлер. Мой зайка как всегда не останется в стороне!

Все сделали? Тогда смело клацайте по кнопке Generate и ждите около 40 секунд (время сильно зависит от разрешения исходной картинки).

Кстати, ждать придется тем дольше, чем больше вы выставите Denoising Strength + исходное изображение меняется также в зависимости от этого фактора. Если поставить 0,2, то лицо девушки поменяется до неузнаваемости, сохранив лишь общие черты. А если, наоборот, занизить показатель, то мелкие детали не прорисуются, но скорость генерации будет на высоте.

Для артов можете смело выкручивать Denoising Strength до 0,2, чтобы получить потрясающие результаты.

Как только изображение готово, мы можем высылать его на финальный этап — Extras, где выставляем нужный нам коэффициент увеличения и уровень воздействия на прорисовку лица, за что отвечают параметры GFPGAN visibility, CodeFormer visibility и CodeFormer weight.

Congratulations, вы справились!

Теперь кто-то умеет качественно апскейлить изображения с помощью лучшего фреймворка для Stable Diffusion на сегодняшний день. Буду рад обратной связи и вашим комментариям, а также приглашаю в свой телеграм чат, где отвечу на все вопросы касаемо SD.

Показать полностью 7

[моё] Искусственный интеллект Stable Diffusion Нейронные сети Фотография Арт Апскейл Upscale Длиннопост

Отличная работа, все прочитано!

1 2 3 4

Dmitriy.yiu

RTX 4090

Друзья, предисловие для затравки

Перейдем к практике

Congratulations, вы справились!

Пару слов от себя

Перейдем к практике

Первые шаги

Congratulations, вы справились!

Введение и приветственные полезности

Основная цель

Как добиться наилучшего результата быстро без навыков?

Апскейлим с помощью средств Automatic1111

Начнем с быстрого, но среднего по качеству результата

Продолжим получать красоту и перейдем к изюминке

Congratulations, вы справились!