Как писать промты для ChatGPT Image?
Вчера вышла ChatGPT Image и вместе с ней официальный гайд по промтам, разобрал его, чтобы вам не пришлось.
В целом всё так же, как и для других нейронок, но есть 5 пунктов, на которые стоит обратить внимание. Примеры прикрепил, смотрим не на красоту, а на точность следования промту.
1. Соблюдай простую структуру (золотая формула)
Модель лучше понимает промт, где ты описываешь всё по порядку: место/локация → кто в кадре → что происходит → как это снято → что трогать нельзя.
Пример (как надо):
Открытый космос → астронавт парит в невесомости → скафандр с царапинами и износом → ощущение съёмки на 35mm, жёсткий солнечный свет → без логотипов NASA.
Как не надо:
Сделай красивую картинку астронавта в космосе, в хорошем качестве, 8K, гиперреализм, кинематографично.
Почему плохо? Непонятно, что важно, нет конкретики и ограничений.


2. Описывай кадр, как фотограф
Слова вроде «красиво», «реалистично», «8K», «ultra-detailed» почти ничего не объясняют. Модели важнее конкретика: свет, оптика, фактура. И тут полезно хотя бы базово понимать, как работает камера и свет.
Пример (как надо):
Зимняя городская улица → девушка идёт по тротуару → тёплое пальто, шарф → объектив 50mm, уровень камеры — грудь, мягкий дневной свет, небольшая глубина резкости, естественные цвета → без ретуши и киношного стиля.
Как не надо:
Сделай красивое реалистичное фото девушки в зимнем образе, 8K, атмосферно.


3. Всегда фиксируй, что трогать нельзя
При редактировании изображения, если ты меняешь одну деталь и не сказал, что остальное трогать нельзя — модель начнёт менять всё.
Как надо:
— Поменяй только одежду, лицо не менять.
— Сделай свет теплее, фон и ракурс оставить.
— Убери логотип, всё остальное сохранить.
Как не надо:
— Мне не нравится.
— Чуть поправь образ.
— Сделай лучше, но так же.
Нейронка не понимает, что именно тебе не нравится, и начинает менять всё подряд.


4. Синтаксис для текста
Чтобы модель написала текст на картинке без ошибок, ей нужно подробное ТЗ: что именно написать, где и как.
Как надо:
— писать текст строго в кавычках: "FRESH COFFEE".
— указывать конкретный шрифт: Open Sans, Bold.
— задавать точное расположение: на вывеске над входом.
Как не надо:
— Название Fresh Coffee.
— Напиши текст на здании.
— Сделай красивую вывеску.
Это особенно критично для макетов и инфографики, где важны точность и структура.


5. Работа с несколькими референсами
Когда ты используешь несколько картинок, нейронка не понимает сама, что откуда брать и как это склеивать. В промте нужно прописать логику работы и дать конкретику.
Пример (как надо):
— Возьми стиль из Image 1 и примени его к объекту из Image 2.
— Поставь собаку из Image 2 рядом с женщиной на Image 1.
— Если рефов много: локация из Image 1, человек из Image 2, сумка из Image 3, стиль как на Image 4.
Как не надо:
— Используй эти картинки вместе.
— Скомбинируй изображения.
— Сделай одну сцену из нескольких фото.
Почему плохо? Нейронка не понимает, что главное, а что вторично, и мешает всё подряд.


Итог: короче, мы всё больше приходим к тому, что промт для картинки становится подробным, а иногда и подробнейшим ТЗ: где и как всё стоит, что именно и чем написано и что менять нельзя.
Подписывайте на мой Телеграм-канал, там ещё больше всего интересного.
Искусственный интеллект
5.1K постов11.5K подписчика
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан