В данной статье мы рассмотрим как писать промты для нейросети Stable Diffusion, которая способна генерировать изображения на основе текстовых описаний. Эта информация будет полезной для желающих достичь высокой точности в передаче своих идей нейросети для получения впечатляющих изображений. Мы изучим разнообразные подходы, включая весовые коэффициенты, и проведем сравнение между SDXL и знаменитой SD 1.5.
Отмечу, что особенно высокой популярностью пользуется Stable Diffusion версии 1.5, так как она стала одной из первых высококачественных нейросетей, доступных для бесплатной установки на персональном компьютере.
SD 1.5 занимает лидирующие позиции среди лучших, поэтому мы подробно остановимся на методике создания запросов для нее.
Как писать промты для Stable Diffusion - пошаговое руководство
Запрос (промт) — это текстовое описание изображения, оно может быть как простым (например, 'жираф в лесу'), так и содержать более сложные элементы, такие как весовые коэффициенты, смешивание, LoRA и др.
Как составить простой промт для Stable Diffusion 1.5
Для базового понимания работы нейросети Stable Diffusion достаточно отправить ей краткий текст с названием объекта или существа для визуализации и минимальным описанием сцены (хотя последнее необязательно).
👉 джентельмен сидит на скамейке в парке
Главное правило — в начале промта следует указывать основной объект изображения: человека, существо, предмет и т.д. Затем в запросе описывается окружение и, при необходимости, стиль, что представляет собой более продвинутый уровень формулировки промтов, который мы рассмотрим далее.
Отметим: у SD имеется множество функций, использование которых может быть сложным для новичков, поэтому я настоятельно рекомендую пользоваться профессиональными инструментами, адаптированными и упрощенными их создателями. В качестве такого инструмента я буду использовать этого бота в Telegram. Именно на примере этого бота я продемонстрирую написание запросов для Stable Diffusion, позволяя вам непосредственно тестировать описываемые принципы.
Более того, бот поддерживает обработку запросов на любом языке, включая русский, поэтому далее я буду представлять примеры именно на этом языке для вашего удобства.
В случае использования Stable Diffusion на личном компьютере или на различных платформах, необходимо формулировать запросы на английском языке, поскольку это основной язык для данной нейросети.
Структура для написания промтов в Stable Diffusion
Для создания изображений высокого качества и профессионального уровня, рекомендуется следовать данной схеме:
👉 Субъект, пространственное расположение, поза, детали субъекта, контекст, визуальные эффекты, стиль
Субъект (или несколько субъектов) — ключевой элемент, на который должно быть направлено внимание ИИ, например: 'мужчина' или 'собака в сапогах'.
Пространственное расположение — текстовым описанием определяется расстояние от главного субъекта до камеры.
Поза — это не обязательный элемент, который позволяет задать определенное положение объекта в пространстве. Например, можно указать, что объект "идет", "лежит", "прыгает" и так далее.
Детали субъекта — здесь вы перечисляете особенности главного элемента изображения. Например, это может быть мужчина в синем костюме, с короткими черными волосами, стройный, с серебряными аксессуарами.
Контекст — это описание пространства вокруг объекта и самого объекта. Например, мужчина в городском парке, утренний свет, скамейка, газета, утки в пруду, деревья.
Визуальные эффекты — это ключевые слова, которые помогут искусственному интеллекту создать нужную атмосферу изображения. Например, "ray tracing", "высокое разрешение", "динамичное окружение".
Стиль — это важный элемент, который позволяет ввести конкретный художественный стиль или упомянуть имена известных художников или фотографов. Примеры могут включать "в манере Ван Гога", "в духе Сальвадора Дали", "гиперреализм", "манга", "абстракционизм", "наивное искусство", "сюрреализм" и так далее.
Примечание: Элементы, указанные в этой 'формуле' для написания промтов, не являются обязательными. Это означает, что при формировании промтов для Stable Diffusion нет необходимости включать детали, которые кажутся вам несущественными, например, можно исключить стиль или контекст.
Создание промтов для Stable Diffusion с использованием коэффициентов важности
Искусственный интеллект SD, особенно его версия 1.5, оснащен функцией использования коэффициентов важности. Эти коэффициенты позволяют усилить или ослабить внимание к определенным объектам, характеристикам и т.д., упомянутым в запросе.
Увеличение важности через использование круглых скобок
Чтобы повысить акцент на конкретном аспекте запроса, можно использовать круглые скобки. Каждая пара скобок усиливает фокус примерно на 10%.
👉 ((дятел летит)) над снежными горами — здесь не заданы коэффициенты важности.
…предположим, что ИИ никак не хочет добавлять снег на горы, при этом остальная часть изображения вас устраивает. В этом случае, мы используем круглые скобки в запросе так:
👉 дятел летит над (заснеженными горами)
…так мы увеличиваем фокус на 10% для фразы 'заснеженными горами'
👉 дятел (летит) над горами (((заснеженными горами)))
…в этом примере мы четко даем понять ИИ, что орел должен лететь именно над горами покрытыми снегом, при этом коэффициент важности для 'летит' увеличен на 10%, а для 'заснеженными горами' — на 30%.
Вопрос правильного составления промтов для Stable Diffusion достаточно обширен и его сложно уложить в одну статью, однако есть отличное видео на YouTube, где это объясняется очень подробно. Рекомендую к просмотру…
Руководство по составлению промтов для Stable Diffusion XL
В отличие от SD 1.5, SDXL лучше адаптирована к пониманию прямой речи, что позволяет писать промты для нейросети Stable Diffusion более естественным образом, похожим на общение с живым человеком. В большинстве случаев SDXL самостоятельно и корректно определяет коэффициенты важности без необходимости использования круглых или других скобок.
Пример генерации в SDXL с использованием промта без весовых коэффициентов 'Модная женщина уверенно стоит в оживленной городской обстановке. На ней платье до колен с цветочным принтом и подходящая широкополая шляпа. Ее волнистые волосы до плеч изящно ниспадают на плечи. Ее глаза очаровательного оттенка изумрудно-зеленого очаровывают всех, кто встречается с ней взглядом. Фотография, сделанная в винтажном полароидном стиле, имеет теплое, мягкое освещение, подчеркивающее ее сияющий цвет лица. На заднем плане шумный городской пейзаж с шумными улицами и красочными граффити создает оживленную атмосферу. Женщина уверенно держит холщовую сумку, наполненную художественными принадлежностями, намекая на ее творческий и авантюрный дух'
Эта информация должна стать хорошим стартом для изучения работы с нейросетью Stable Diffusion. Более детальные вопросы я планирую рассмотреть в последующих статьях, поэтому не забудьте подписаться на мой канал.