Про опасность ИИ и нейросетей
Сегодня вы верите в реальность сгенерированного хомячка, а завтра ФСБ верит в видео того, как вы полицейский участок поджигаете
Сегодня вы верите в реальность сгенерированного хомячка, а завтра ФСБ верит в видео того, как вы полицейский участок поджигаете
Ещё несколько лет назад мне нравились максимально яркие интерфейсы с кучей эффектов и сложной анимацией. Сейчас всё наоборот — чем проще и чище выглядит система, тем приятнее ей пользоваться.
Наверное, дело в том, что минималистичный UI меньше утомляет. Когда всё расположено логично, ничего не мигает и не перегружает экран, воспринимать информацию становится намного легче.
Интересно наблюдать, как многие современные платформы постепенно переходят именно к такому стилю оформления.
Вот что у меня получилось, поигравшись в Шыдеврум от Хуяндекса.
Судя по всему, слово "солдат" запрещённое, но если ввести другое слово, близкое смыслу, то прокатит.
Также Ленин и Сталин под запретом, а вот с Николашкой всё норм, оказывается.
А чего там за пропаганду базарили!
должно быть - Клава (и шелест страницы)
«Первая выделенная линия»:
Крестьянин идет за сохой, а за ней из земли «выпахивается» толстый черный кабель Ethernet или старый телефонный провод.
Пишу вместе с гемини про, в ответ на этот пост, так как комментировать или ответить не получается.
Линейные промпты страдают от «семантического размытия» и деградации внимания — нейросеть смешивает соседние токены (например, цвет одежды может «стечь» на кожу), а важные технические параметры в конце текста получают в разы меньше вычислительного веса.
Разберем, почему исходный промпт (первый из исходного поста) — это лотерея, и как превратить его в точный инструмент.
[REFERENCE_IMAGE: сохранить черты лица, цвет глаз и волос]. Портрет по пояс на светло-сером бумажном фоне. Студийное освещение: ключевой свет — большой софтбокс справа под углом 45 градусов, заполняющий свет слева, контровой свет на волосы. Одежда: оверсайз пиджак из бежевой шерсти, текстура ткани детализирована до нитей. Кожа матовая, естественная, видны поры и легкий румянец. Макияж минимальный. Взгляд прямой, уверенный. Камера: Hasselblad X2D, 80mm f/2.8. Резкость высокая, тональность сдержанная, палитра: бежевый, серый, слоновая кость. Negative prompt: oversaturated, glossy skin, airbrushed, HDR, collage.
Почему оригинальный промпт — это «так себе»
Проблема «Bleeding» (Протекание): Когда вы пишете «бежевый пиджак, кожа матовая», нейросеть видит токены рядом. С высокой вероятностью бежевый оттенок уйдет в тон кожи или фон.
Затухание внимания: В стандартных архитектурах (Stable Diffusion, Midjourney) вес токенов падает к концу предложения. Hasselblad и 80mm, стоящие в финале, могут быть проигнорированы в пользу «портрета», стоящего в начале.
Конфликт пресетов: По умолчанию нейросети обучены на «красивых» глянцевых картинках. Фраза «кожа матовая» без усиления веса будет подавлена встроенным фильтром «сделать всё гладким и сияющим».
Мы превращаем текст в «контейнеры». Это исключает путаницу: модель четко понимает, где заканчивается описание одежды и начинается настройка света.
Subject: Woman, [REFERENCE_IMAGE: face/eyes/hair], direct confident gaze.
Skin: Matte, natural pores, visible texture, light blush.
Apparel: Oversized beige wool blazer, extreme thread-level detail.
Lighting: Studio setup, key softbox 45° right, fill left, hair rim light.
Optics: Hasselblad X2D, 80mm f/2.8, high sharpness.
Environment: Seamless grey paper background.
В чем профит: Вы создаете границы. Теперь «бежевый» относится только к пиджаку, а «80mm» — только к камере.
Это самый «чистый» способ передачи данных. Современные модели (особенно уровня Flux или DALL-E 3 через API) воспринимают иерархию объектов лучше, чем естественный язык.
JSON
{"subject":
{
"reference_integrity": "high",
"features": ["match face", "match hair color"],
"skin_render": "matte_natural_pores"
},
"fabric_physics": {
"material": "beige wool",
"weaving_detail": "individual threads visible"
},
"optical_engine": {
"camera": "Hasselblad X2D",
"focal_length": "80mm",
"depth_of_field": "f/2.8"
}
}
В чем профит: Вы полностью исключаете двусмысленность. Вложенность параметров гарантирует, что depth_of_field не применится к фону случайно — это свойство «оптической системы».
Комбинируем структуру тегов и математическое усиление. Это позволяет «придушить» стандартные алгоритмы нейросети и заставить её делать то, что нужно вам.
[SHOT] (waist-up portrait:1.2), (Hasselblad X2D, 80mm f/2.8:1.3).
[IDENTITY] (match facial features [REFERENCE_IMAGE]:1.5), woman, confident gaze.
[TEXTURE] (matte skin, natural pores:1.2), (beige wool blazer, thread-level detail:1.4).
[LIGHT] studio lighting, (key softbox right 45°, fill left, rim light:1.2).
[NEG] (glossy skin:1.4), airbrushed, plastic, oversaturated, HDR.
Почему это работает:
Вес (1.5) на референс: Вы буквально приказываете модели: «Сходство важнее всего остального в этом промпте».
Вес (1.4) на ткань: Вы заставляете алгоритм тратить больше циклов прорисовки (denoising steps) на детализацию нитей шерсти.
Негативный вес (1.4) на глянец: Вы подавляете стандартную тягу ИИ «заблюрить» кожу до состояния пластика.
Оригинальный промпт — это просьба. Гибридный промпт с весами и структурой — это техническое задание. Вы не надеетесь на удачу, а управляете вниманием модели в каждой точке кадра.
Только не пишите "таких нет", "даже и не думай"... Согласен с тем, что мне придётся подождать, как минимум, минуту.
Сегодня заметил, что Дримина заработала в России напрямую без всяких обходов блокировок (не со стороны РКН, а со стороны китайской ByteDance). Эта нейронка интересна тем, что генерирует надписи на картинках очень чётко и при этом бесплатно, в отличие от chatgpt и алисы про.
Только, пожалуйста, не пишите что-то типа "даже и не думай об этом", а то будет жалоба.