Собираем баннер для соцсети. Stable Diffusion (с промтами) + PS⁠⁠

Всем привет, пикабушники!

Недавно я увлёкся изучением нейросетей. Поскольку я немного умею в графические редакторы, меня больше интересуют нейронки, генерирующие изображения. У Midjourney есть один минус — требует подписку (если не идти обходными путями...хе-хе), поэтому я решил также попробовать и Stable Diffusion, установив ее локально на свой комп.

Для установки я использовал гайд из этого поста. Спасибо и автору, и тому, кто выложил гайд сюда. У меня все пошло без проблем.

Итак, я поставил себе такую задачу: сделать баннер, рекламирующий "эльфийскую" акцию. Как если бы эльфы достигли нашего уровня прогресса и также залипали в экраны смартфонов. Почему эльфы? Просто мне показалось, что это будет хороший тест на то, как у меня получится получить конкретный результат от нейросети, более-менее управляемый, а не просто рандомную красивую картинку.

Суть акции не важна, а важен главный элемент креатива — эльф со смартфоном в руке. Его-то я и попытался сгенерить, попутно выискивая рабочие промты и модели.

1. Генерируем исходник эльфа в Stabble Diffusion

Для начала — конфигурация ноута:

Процессор: AMD Ryzen 7 4800H with Radeon Graphics 2.90 GHz
Оперативная память: 16,0 ГБ
ОС: Windows 11 x64
Видеокарта: NVIDIA GeForce GTX 1650 Ti, 4 ГБ

Как видите, ноут у меня для таких задач достаточно средняковый по нынешним меркам. Есть проблемы с недостатком памяти видеокарты при генерации изображений разрешением выше 512 px.

Настройки изображения (Image Settings)

У меня стоят следующие:

Собираем баннер для соцсети. Stable Diffusion (с промтами) + PS Stable Diffusion, Нейронные сети, Баннер, Дизайн, Промты для нейросетей, Социальные сети, Эльфы, Длиннопост

В крации о некоторых пунктах настроек:

Seed — важный параметр, который нужно понимать. Эта группа цифр — уникальный номер генерируемого изображения. Вы можете скопировать seed любого другого изображения, сгенерированного другим человеком, и получить аналогичный результат. Если же активирован режим random, у вас каждый раз будет генерироваться новое изображение со своим уникальным номером и, скорее всего, не похожее на предыдущее.
Это полезно, например, когда в целом результат вас устраивает, но нужны мелкие поправки к конкретной картинке.
Model — отвечает за стиль картинки. Я протестировал несколько на своем промте и в итоге лучше всех для моей цели подошла Deliberate.
Custom VAE — штука, которая отвечает за качественный вывод конечного изображения (вроде так). Читал, что использовать нужно, т.к. иначе могут быть проблемы с чертами лица.
Sampler — алгоритм создания изображения, как я понимаю, там заложены правила, по которым SD будет "миксовать".
Image Size — ну, тут понятно, размер изображения, которое вы получите. На скрине максимальный для меня размер. Дальше всё, ошибка памяти, что бы я ни делал.
Inference Steps — количество шагов, которые сделает нейросеть при генерации изображения. Логично предположить, что чем больше шагов, тем качественней результат. А хрен там. Сначала я вычитал, а потом и проверил сам — в большинстве случаев достаточно 20-60 шагов.
Количество шагов так же сильно влияет на время генерации. С шагом в 100 у меня уходило 10 минут на одну картинку, а результат был визуально хуже, чем при 26 (2 минуты). В итоге я использовал в основном 22 и 26.
Guidance Scale — степень соответствия точности вашего запроса. Поскольку никто не знает, как точно до буквы пояснить SD за своё видение, я рекомендую балансировать на уровне 7-9.
Fix incorrect faces and eyes — фикс неправильных черт лица и глаз. Либо он не работает, либо без него полезет вообще крипота. Я на всякий случай включаю.
Scale up — апскейл итоговой картинки. Жрет ресурс немного вроде, рекомендую этот встроенный апскейл отключить, а пользоваться сторонним (я юзал этот).

Клепаем Йэлфоф

Теперь к делу. Вот промт, к которому я пришел в итоге и получил подходящий результат:

RAW photo, young female elf with a smartphone in his hand, iphone 14 pro, standing on ground, green eyes, closed mouth, smiled, elegant pose, masterpiece, pendant, pointed ears, very detailed hands, colourful, transparent, photorealistic, cinematic lighting, 8k, soft lighting, high quality, film grain, Fujifilm XT3, hdr, studio photo, sharp focus, Color Grading, Depth of Field, fantasy, extremely detailed, correct features, perfect face, high definition, looking at viewer, correct anatomy, correct proportions, full body, in intricate clothing

Популярные ключи общего назначения, которые я использовал:

RAW photo — делает изображение максимально приближенным к реальной фотографии.
8k — вставляют все повсюду кругом. Повышает детализацию и визуальное "разрешение" картинки.
film grain — эффект зернистости на кинопленке. Я что-то зернистости не заметил, но вроде как этот ключ хорошо влияет на мягкость рассеивание света.
Fujifilm XT3 — еще ключ, повышающий фотореалистичность, заимствуя черты у настоящих снимков, сделанных на эту камеру. Очень популярный ключ.
depth of field — эффект размытия заднего плана, чтобы вывести в фокус объект на переднем. Очень модная штука, все пользуются в обязательном порядке при генерации фотопортретов и не только. Еще часто добавляют sharp focus. Я на всякий случай тоже использую оба.
hdr — как написано на сайте с телевизорами: Глубже, ярче, сочнее.
correct features, perfect face, correct anatomy, correct proportions — да, надо отдельно попросить нейросеть не косплеить печально известный редактор персонажа из TES IV Oblivion. Также лучше сразу договориться, что вам нужно: стереотипные, сексуализированные, варварские стандарты красоты или толерантные, прогрессивные и светлые нестандарты. Если первое, то лучше использовать такие слова, как correct и perfect.
looking at viewer — делает так, чтобы персонаж на картинке смотрел анфас, прямо "в камеру". Срабатывает не всегда, но довольно часто.

В процессе мне пришлось добавлять улыбку (эльфы все были угрюмые), сработало сразу просто слово smiled. Правда, потом еще дописал closed mouth, поскольку эльфы стали походить на сбежавших из дурки. Их улыбки немного притухли, и стали выглядеть более естественно.
Также там еще полно мелких дополнений, вроде всяких cinematic lighting'ов. Здесь конкретики у меня нет, просто кидал все подряд почти, что находил у других) Еще разбираюсь во всех этих световых эффектах.

Теперь важное! Отрицательный промт:

text, signature, asian, african, nude, bad anatomy, wrong anatomy, fused fingers

Здесь можно вписывать ключи того, что SD должен исключить из изображения.

text, signature — лучше ставить всегда, тогда при использовании артов из сети, не будут оставаться следы вотермарок и подписей художников (работает в 9 случаях из 10). Но если на картинке должен быть какой-то текст, естественно, надо убирать.
Пока еще не запретили, можно исключить азиатов. Поверьте, если этого не сделать будут в 90% случаев только азиаты. Также еще помогает внести сюда ключ anime, если вам не нужен этот визуальный стиль.
bad anatomy, wrong anatomy — да, как ни странно, это решает много проблем. SD, просто не рисуй кривых людей. Если не попросить этого не делать, SD будет это делать.

Также мне удалось убрать сросшиеся пальцы, вписав ключ fused fingers. Очень помогло, хотя количество пальцев все равно скачет на каждой руке, то их по 4 (чаще всего), то 6, а бывает 5, но все одинаковые, например, безымянные.

В целом мне потребовалось попыток 5 с готовым промтом. И вот он, красавец:

Для моих целей вполне подходит.

Были еще такие ребята.

2. Апскейл и сборка баннера

Созданную картинку нужно сделать более высокого разрешения. С этим прекрасно поможет другая нейросеть — Swinir.

Результат вот такой, при масштабе 100%:

Далее немного подправим цвета и четкость ползунками фотошопа:

Теперь вырезаем эльфа командой Select > Subject или можно воспользоваться AI, который для этого приспособлен. Правда я считаю, что они все очень плохо справляются. Поэтому рекомендовать ничего не могу, самому мне удобнее в ФШ.

Остается подложить фон туда, где его не хватает при изменении соотношения сторон (3:2), это слева. Добавить тень для придания глубины. Ну и написать "продающий" текст, уведомляющий об акции и ее условиях.

Что получилось в итоге у меня:

Шрифты:

Dwarven Stonecraft
PT Sans

Вот и все. С готовым промтом сделать такой баннер — 30 минут.
Мне было интересно поработать и написать этот пост — мой дебютный на Пикабу. Надеюсь, тому, кто осилил до конца, было интересно, как и мне)

Я могу дальше выкладывать эксперименты с нейросетью, если это будет интересно пикабушникам. Так что задавайте вопросы в комментариях, постараюсь ответить. Или может кто-то знает, как лучше — тоже послушаю с удовольствием.

Бонус! Никаких ссылок на Телеграм-каналы.

981 пост12.5K подписчика

Добавить пост

Правила сообщества

Можно:

Публиковать свои посты / обзоры, и я до сих пор удивлен почему этого никто еще не делает. Практически любой более-менее вменяемый пост можно запилить, и я уверен, что его лампово примут.

Вставить свои 5 копеек. Если будет своя альтернативная точка зрения или совет по какой-то теме, то это приветствуется.

Нельзя:

1. Публиковать сообщения, картинки, не соответствующие тематике;

2. Размещать ссылки рекламного характера;

3. Перегибать палку;

Если оступился:

в случае нарушений, доступ в группу будет закрыт, а пользователь занесен в бан-лист;