Ответ Ktylxo в «Не думайте о слонах»2
Дело в том, что ChatGPT основан на тексто-текстовом процессоре. Он картинки сам не создает, он только умеет преобразовывать текст в текст. Но это лишь один из модулей всего сервиса. Кроме него, есть управляющая оболочка, и вспомогательные нейронные сети, занимающиеся другими задачами (в том числе, анализом и генерацией изображений).
Управляющая оболочка (достаточно тупая по сути, являющаяся посредником между пользователем, тексто-текстовым процессором, и другими модулями, регулирующая ход диалога и ответственная за разметку и фильтрацию ошибок) "спрашивает" тексто-текстовый процессор:
"Просил ли пользователь в этом запросе "<кусок текста от пользователя>" создать изображение? Ответь Да или Нет".
ChatGPT ей (т.е. самому себе) отвечает "Да, пользователь просил создать <рожает из его запроса, возможно, какое-то обобщение>".
Если в ответе есть "Да", то управляющая оболочка (опять таки, с помощью промежуточного вопроса к ChatGPT, и исходя из текста от пользователя, создает промпт для DALL-E (нейросети по генерации изображений, похожей на Midjourney или Stable Diffusion)
В запросе этом, конечно же, написано, что "... нет слонов", но DALL-E достаточно тупа, чтобы "не думать о слонах", и просто генерирует картинку (со слоном, конечно же, - она же видела слово "слон"), отдавая ее управляющей оболочке.
Вторичного анализа изображения на вменяемость не делается, оболочка просто выбрасывает картинку в чат, вместе с результатом дополнительного запроса "Изображение передано пользователю. ответь ему что-нибудь, чтобы он удовлетворился".
Все.
Так было раньше точно, сейчас схема могла претерпеть некоторые изменения, плюс я могу ошибаться в конкретных деталях. Но в целом, оно так.
При этом, сам тексто-текстовый процессор понимает просьбу об отсутствии слонов, и может даже иронизировать на эту тему (я вот попробовал, из 5 попыток только в одной этой был упомянут слон. И это еще куда более тупая, чем ChatGPT, нейросеть, запускаемая локально на компьютере).