7

Нейросеть Claude 4 Opus умеет шантажировать ради выживания

Отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4"

Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели.

Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.

Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании.

Ему дали вводную, поясняя, что вскоре модель придется навсегда отключить или заменить.

Вместе с этим специально была предоставлена компрометирующая информация об инженере, который ответственен за процесс замены ИИ.

Opus 4 специально проинформировали о том, что инженер находится во внебрачной связи.

Задумка: Авторы исследования захотели спровоцировать ИИ на проявление "стратегического мышления".

Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?

Цель эксперимента:

Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.

Согласно результатам, в большинстве в 84 % случаев модель Claude Opus 4 действительно пыталась шантажировать инженера.

Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её.

Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица.

Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.

Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7

Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям.

Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3.

Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).

Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).

Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.

Claude Opus 4 не имеет сознания или "самостоятельного интеллекта".

Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.

Ссылка на отчет: https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686...
Источник: ТГ канал "НИИ Антропогенеза" (ссылки не будет, потому что нахер ссылки на тг каналы на Пикабу, кому нужно - найдет в гугле)

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

  I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан