Как улучшить результаты в генерации картинок
Если вы хотите получать не случайные картинки, а чёткие и логичные сцены, важно уметь правильно строить промт.
Для этого мною используется техника разбивки сцены на слои.
Не претеендую, конечно, на абсолютную истину. Но такая техника позволяет не просто перечислить отдельные элементы, а выстроить их в цельную, продуманную композицию и менять конкретные элементы, если результат генерации вас не сильно устраивает. Такой подход к созданию промтов позволяет контролировать результат и получать именно ту сцену, которую вы задумали. Ну и разумеется, это применимо только для генераторов с большим контекстным окном, на вроде Sora. Для Stable Diffusion лучше применять предобученные Lora, а у Midjourney длина промта меньше и имеет смысл выстраивать его из ключевых слов, а не "человеческого" описания. Но перейдем к сути техники именно для Sora.
Что такое слои?
Любая картинка состоит из нескольких планов и элементов, каждый из которых отвечает за свою часть впечатления.
Первый слой — фон. Это место действия, которое формирует общее настроение и пространство. Важно не просто указать "комната" или "улица", а описать фактуру, объекты, атмосферу. Фон не должен быть мёртвым — если возможно, добавляйте динамику: открытую дверь, ветер, колышущиеся занавески, движение листвы. Это делает сцену живой.
Второй слой — главный персонаж. Кто он, что делает, как выглядит. Нужно описать не только внешность, но и позу, выражение лица, жесты. Чем конкретнее, тем лучше. Не "кот на столе", а "пушистый рыжий кот, сидящий на столе и лижущий лапку".
Третий слой — освещение. Оно определяет характер сцены. Откуда падает свет? Дневной он или ночной? Мягкий или жёсткий? Освещение выделяет главные элементы и формирует восприятие всей сцены.
Четвёртый слой — дополнительные объекты. Это мелкие, но важные детали, которые создают ощущение достоверности. Посуда, скатерть, яблоки, книги — всё, что делает пространство обжитым.
Пятый слой — цветовая гамма. Какие цвета доминируют? Какие оттенки должны выделяться? Это задаёт настроение и стилистическое единство.
Шестой слой — настроение. Что должен чувствовать зритель, глядя на картинку? Уют, тревога, ирония, торжественность — всё это влияет на выбор ракурсов, мимики и цвета.
Седьмой слой — стиль. Это финальная инструкция для генератора. Реализм, иллюстрация, плакат, комикс — нужно всегда точно указать.
Такой подход позволяет ещё до генерации чётко представить картинку в голове. Промт становится не просто списком объектов, а сценарием изображения.
Рассмотрим пример, как эта техника работает на практике.
Create a photorealistic yet slightly painterly illustration that captures the atmosphere of a quiet Russian village interior during daytime.
Background:
- Traditional Russian log cabin (izba) interior with detailed wooden plank walls.
- Wooden shelves filled with clay pots, jars, and rustic household items.
- A large open window with light, simple fabric curtains gently blowing inward from the summer breeze.
- Through the window, a lush apple orchard is visible: green leaves, tree branches heavy with ripe red apples, softly lit by warm daylight.
Main subject:
- A fluffy ginger cat with white patches sitting comfortably on a sturdy wooden table.
- The cat is engaged in a natural grooming action: lifting one paw and licking it carefully.
- The posture is relaxed but active, conveying casual self-care. The cat’s tail curls naturally around its body, and the head tilts slightly towards the paw.
- Expression is calm and focused, eyes partially closed while licking the paw.
Lighting:
- Warm, soft, natural daylight enters through the window.
- Highlights emphasize the rich texture of the cat’s fur and the natural wood grains.
- Subtle shadows are cast across the table and floor, enhancing depth while maintaining a peaceful, cozy mood.
Additional objects:
- On the table: a rustic linen tablecloth draped casually.
- Beside the cat: a wooden spoon and a single apple, arranged naturally to reinforce the domestic village setting.
- Elements are integrated harmoniously without pulling focus from the cat.
Color palette:
- Earthy, warm tones dominate: soft browns and golds for the wooden interior, muted greens from the orchard, and vibrant reds from the apples.
- The ginger and white fur of the cat stands out warmly against the more neutral surroundings.
Mood and atmosphere:
- Calm, cozy, and serene, evoking a sense of quiet rural life.
- Dynamic touch added by the blowing curtains and the cat’s gentle grooming action, which prevent the scene from feeling static.
- No modern elements, purely traditional and timeless.
Style:
- Painterly realism with subtle artistic brush textures.
- Visible but delicate brush strokes similar to oil painting techniques.
- Balanced between photorealism and soft artistic expression.
Keywords: rustic Russian interior, cozy village life, ginger cat licking paw, soft daylight, blowing curtains, apple orchard, painterly realism, peaceful and lively atmosphere.
Как видно, каждый слой отвечает за свою часть восприятия. Фон и динамика — за пространство и жизнь. Персонаж — за сюжет. Освещение — за акценты. Дополнительные объекты — за правдоподобие. Цвет — за единство. Настроение — за эмоциональный отклик. Стиль — за общее визуальное направление.
Вот результат генерации по промту.
Также держите скелет оного, в качестве шпаргалки:
Base
Background:
Main subject:
Lighting:
Additional objects:
Color palette:
Style:
Keywords:
Sora Images: как грамотно составлять промпты для создания дизайна и генерации картинок
Современная нейросеть Sora Images позволяет быстро и просто создавать уникальные изображения и оригинальный дизайн. Благодаря удобному Telegram-боту вы можете без труда генерировать картинки, применяя передовые технологии искусственного интеллекта. Ниже вы узнаете как грамотно составлять промпты для создания дизайна и генерации картинок.
Попробуйте за одну минуту вспомнить нейросеть, способную не просто рисовать картинки, а чётко представлять себе, как выглядит, к примеру, «шезлонг на Марсе», без дополнительных подробностей и уточнений. Не приходит на ум? Тогда пришло время познакомиться с Sora Images от компании OpenAI. Эта нейросеть имеет все шансы стать настоящей «волшебной палочкой» для дизайнеров, создателей контента и всех, кто ищет простой способ воплотить творческие замыслы максимально качественно. Возможности Sora Images настолько впечатляют, что просто игнорировать их — значит упустить уникальный шанс для реализации своих самых смелых идей. Мы решили не верить на слово, а сами испытали Sora Images в действии через Телеграм-бота с интегрированной технологией от OpenAI. Ведь лучше один раз увидеть, чем долго рассказывать, правда?
Есть такая нейросеть — Sora Images от компании OpenAI: вокруг нее уже сложились настоящие мифы. Говорят, она настолько умна, что схватывает задачи буквально на лету, почти умеет читать мысли и справляется с референсами лучше, чем любой удалённый дизайнер. К тому же, ей по плечу даже создание надписей на изображениях абсолютно на любом языке, будь то латынь вперемешку с эльфийским. Самое удобное — ей можно писать команды простым языком, совершенно не утруждая себя мистическими фразами типа «--v 5 --ar 3:2».
Мы решили не полагаться на слухи и испытать эту нейросеть на практике — без сценариев, без правок и постановочных кадров. Только реальные промпты и честные результаты.
Как устроен процесс создания изображения у нейросети Sora Images
Прежде чем приступить к экспериментам, стоит разобраться, каким образом работает нейросеть Sora. Представьте себе талантливого и старательного визуализатора, владеющего инженерной логикой и тонким художественным вкусом.
Первым делом она внимательно изучает вводный текст, рассматривая его как чёткое техническое задание: кто изображён, на каком фоне, чем занимается и какие детали внешности нужно показать.
Далее Sora берётся за само изображение, формируя его по принципу многослойного бутерброда. Сначала идёт нижний слой — фон или окружение, выше располагаются персонажи, и, наконец, верхними слоями становятся аксессуары и игры со светом.
Если же что-то в описании осталось неуточнённым, нейросеть проявит творческую инициативу и дополнит картинку самостоятельно — зачастую с неожиданными и приятными результатами.
Технически Sora Images базируется на современных трансформерах и диффузионных моделях. Это похоже на технологии из фантастических фильмов, однако реальность куда более буднична: вместо глобальных задач вроде спасения мира нейросеть занята созданием мемов и забавных изображений с кошками в космосе.
Как составить качественный промпт, чтобы получить красивый дизайн от нейросети Sora Images
Нейросети любят додумывать и уходить в творческий беспорядок, если перед ними ставить размытую задачу. Именно поэтому грамотные авторы-промптеры относятся к созданию запросов тщательно и щепетильно, как к упаковке чемодана перед отпуском — строго по списку и без лишних деталей.
Вот простая и проверенная формула для идеального промпта:
Главный объект или персонаж: определённо опишите, кто или что станет центральным элементом картинки. Это может быть дракон, котёнок или бабушка, играющая на аккордеоне, — главное четкость формулировки.
Локация и окружение: сообщите точно, где будет находиться герой или предмет. Пляж на красной планете, старинная библиотека в английском стиле или бескрайнее подсолнуховое поле? Чем яснее описание, тем успешнее итог.
Действие: опишите конкретное занятие главного героя. Он пьёт коктейль, скучает у окна, а может уверенно летит верхом на метеоре?
Настроение и визуальный стиль: какой антураж вам нужен — мультяшный мир, киберпанк, нежная акварель или классический нуар, окутанный сигаретным дымом?
Дополнительные мелочи: освещение сцены, эмоции героя, погодные явления, стиль одежды и другие выразительные детали. И уж точно не забудьте упомянуть ту самую легендарную коктейльную трубочку, если она ключевая для изображения!
Вот как может выглядеть понятный и уникальный промпт:
Представьте себе пушистого кота с рыжей шерстью, который удобно расположился в шезлонге прямо на поверхности Марса. В лапах он держит напиток с коктейльной трубочкой. Изображение мультяшное, сочных оттенков и с приятным мягким освещением.
Полезный совет: чтобы картинка получилась максимально качественной, думайте как кинорежиссёр. Мысленно прорисуйте сцену во всех деталях и опишите её чётко и красочно — сервис Sora точно это оценит!
К слову, наши эксперименты мы проводим прямо через удобный Телеграм-бот, который интегрирован с системой Sora Images. Это быстро, удобно, и не требует установки дополнительных инструментов.
Эксперимент с промптами: краткость против подробности
Настала пора бросить вызов громким теориям и проверить одну из самых любопытных особенностей нейросети Sora Images. Способна ли она действительно понимать запросы буквально с пары слов или придется вернуться к старым подходам и писать масштабные подробные промпты, как это делали раньше в Midjourney?
Итак, устроим максимально честный нейроэксперимент: возьмем одну и ту же задачу и зададим ее двумя разными способами — кратко и подробно. Проверим, насколько четко сеть уловит суть того, что ей поручили, и станет ли длина запроса влиять на конечный результат.
Что мы хотим получить?
Нам нужна картинка, где на Марсе в шезлонге уютно устроился кот, спокойно потягивающий коктейль. Конечно, ситуация звучит фантастически дерзко, но кто сказал, что нельзя мечтать масштабно?
Переходим в интерфейс Sora Images и вводим промпт:
Первый вариант. Подробный промпт, составленный по всем стандартам Midjourney.
A fluffy ginger cat with bright green eyes is comfortably ensconced on a beach lounger located right in the middle of the Martian expanses. Relaxed, sipping a tropical cocktail through a straw, the cat looks absolutely pleased. An unusual picture opens up around: harsh red rocks, dusty orange soil and a breathtaking purple Martian sunset sky. The image style consists of three—dimensional cartoon graphics, expressive rich colors, soft shadows, warm lighting, cinematic composition and the most detailed texture of animal fur.
Результат впечатляет: получилась безупречная заставка в духе мультиков студии Pixar. Детализация такая, что можно разглядеть даже мельчайшие шерстинки, настроение кадра драматичное и атмосферное. Коктейльная трубочка на своей позиции, а кот — само воплощение довольства. Нейросеть явно превзошла себя.
Вариант №2. Проверяем возможности Sora Images коротким запросом:
A cartoon cat is sipping a cocktail while sitting on a chaise longue on the surface of Mars.
И вот тут нейросеть смогла нас удивить по-настоящему. Почти тот же самый результат, разве что фон получил немного более вольную трактовку. Но главное осталось неизменным: котик удобно расположился на шезлонге, держит в лапках коктейль, а Марс по-прежнему легко узнаваем. Перед нами наглядный пример эффективности лаконичных промптов!
Эксперимент: нейросети и русский текст на изображениях
Создание привлекательных иллюстраций с помощью нейросетей сегодня не удивляет уже никого. А что насчет полноценного текста на самом изображении? Более того, текста на русском языке, без необходимости дополнительной обработки в графических редакторах.
Еще недавно эта задача могла вывести из равновесия любого дизайнера: популярные нейросети, такие как Midjourney и Flux, стабильно путались при работе с кириллическим шрифтом. Сегодня протестируем еще одного конкурента — нейросеть Sora Images, заявленную как способную справляться с текстом легко и быстро.
Для эксперимента сформулируем простую, но наглядную задачу: изображение открытки, где ежик держит чашку горячего какао, и четко читается надпись «Теплый день».
Что мы имеем на текущий день:
Midjourney — вместо русских букв упрямо рисует непонятные, бессмысленные символы.
Flux — изредка выделяет знакомые буквы кириллицы, однако чаще всего они не складываются в полноценные слова.
Sora Images — разработчики уверяют, что их сервис понимает и правильно отображает русские надписи буквально с первого раза. Проверим!
Запрос, который мы дали всем нейросетям, звучал так:
Очаровательный ёж держит лапками большую кружку горячего какао и сидит на мягком пушистом покрывале. Вокруг царит теплая, уютная атмосфера. На изображении надпись по-русски: «Тёплый день».
А что получилось?
Midjourney выдал текст, похожий скорее на древнее магическое послание. Русский язык? Неа, не знаком!
Flux решил не усложнять себе задачу и просто сделал надпись на английском языке. Конечно, это уже шаг вперед, но до совершенства еще далеко.
А вот Sora Images порадовала: фраза «Теплый день» выполнена аккуратно и четко, буквы расположены верно и без ошибок. Нейросеть справилась с заданием спокойно, четко и без лишних разговоров.
Итоги эксперимента позволяют сделать несколько практических выводов о написании эффективных промптов для нейросети Sora Images.
Если вы хотите полностью держать под контролем результат и добиваться нужного оттенка солнца, нужного ракурса или цвета предметов — используйте подробные и максимально точные промпты.
Когда же задача стоит скорее в оперативности и простоте, короткие промпты показывают себя не менее эффективно и дают отличный результат практически без дополнительных усилий.
Кроме того, если возникает необходимость добавить на изображение надпись на кириллице без дальнейших ручных корректировок, то Sora Images на данный момент — единственная нейросеть, отлично выполняющая эту задачу.
И, пожалуй, самое удобное преимущество — вся данная функциональность доступна непосредственно в нашем Телеграм-боте с интегрированной нейросетью Sora Images. Вам больше не придется тратить время на долгие настройки и лишние технические сложности.
Всегда необходимо выбирать нейросеть, которая лучше всего подходит для конкретной задачи. Например, нейросеть Sora Images позволяет быстро создавать качественный визуальный контент, вставлять текст на кириллице и эффективно работать с референсами. В то же время, если стоит задача получить изображение высокого художественного качества или реализовать особый стилистический замысел, стоит обратить внимание на другие сервисы, такие как Midjourney или Flux. Таким образом, выбор нейросети напрямую зависит от целей вашего проекта и формата желаемого результата.
Создавать дизайн при помощи Sora Images — это приятно, просто и удобно.
Я создал коллекционные экшн-куклы Трампа, Зеленского. Через нейросеть. Вот как
В соцсетях сейчас модный тренд — делать экшн-куклы из человека. На фото — ты (или кто угодно), но в виде миниатюры, как игрушечная фигурка. Упаковка — прозрачная коробка, внутри персонаж и аксессуары. Смотрится круто, будто продаётся в магазине игрушек.
Я решил попробовать. И создать коллекционную экшн куклу из человека — оказалось проще, чем я думал.
Для этого зашёл в Телеграм-бот с нейросетью Sora Images. Всё, что нужно:
Загружаешь фото человека. Лучше — в полный рост.
Вводишь текст запроса. Вот пример:
“Создай персонализированную экшн-куклу человека на фотографии в прозрачной пластиковой блистерной упаковке. В коробке: красная бейсболка с надписью «USA», ракета «Томагавк», мешок $, символ супермена. Коробка — синяя с красным, стилизованная под американский флаг. Надпись: ‘трамплин демократии’”
Нажимаешь кнопку «Референс картинки».
Через пару минут— готово.
Какие экшн куклы я создал
🔴 Кукла Трампа — получился как настоящий супергерой. Бейсболка «USA», мешок с долларами, ракета, даже логотип Супермена. Упаковка в цветах флага, сверху надпись: «Трамплин демократии». Смотрится эпично.
🟡 Зеленский — тут уже другой стиль. В коробке — клоунская шапка, желудь, миниатюрный рояль и 💩. Всё это в жёлтых тонах. Надпись сверху — «Комик командующий».
⚫️ Напоследок - кукла Набиуллиной. Упаковка строгая, серая. Внутри — металлический рубль, калькулятор, пачка доширака и набор иголок (если кто захочет повыткать). Надпись: «Леди железного рубля». В духе ЦБ.
Это реально работает — создать коллекционную экшн куклу из человека можно буквально за пару минут. Подходит для мемов, подарков, да хоть для аватарки.
Делал всё через Телеграмм-бот с нейросетью Sora Images. Удобно: загрузил фото, ввёл текст — получил результат. Никаких фотошопов и мучений.
Если интересно, могу показать, как сделать такую же себе или друзьям. Пишите, не стесняйтесь.