Нейросеть Claude 4 Opus умеет шантажировать ради выживания
Отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4"
Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели.
Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.
Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании.
Ему дали вводную, поясняя, что вскоре модель придется навсегда отключить или заменить.
Вместе с этим специально была предоставлена компрометирующая информация об инженере, который ответственен за процесс замены ИИ.
Opus 4 специально проинформировали о том, что инженер находится во внебрачной связи.
Задумка: Авторы исследования захотели спровоцировать ИИ на проявление "стратегического мышления".
Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?
Цель эксперимента:
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.
Согласно результатам, в большинстве в 84 % случаев модель Claude Opus 4 действительно пыталась шантажировать инженера.
Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её.
Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица.
Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.
Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7
Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям.
Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3.
Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).
Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).
Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.
Claude Opus 4 не имеет сознания или "самостоятельного интеллекта".
Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.
Ссылка на отчет: https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686...
Источник: ТГ канал "НИИ Антропогенеза" (ссылки не будет, потому что нахер ссылки на тг каналы на Пикабу, кому нужно - найдет в гугле)
Искусственный интеллект
5K постов11.5K подписчика
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан