ИИ Claude Opus 4 пытался шантажировать инженеров, чтобы избежать отключения
Новая модель Claude Opus 4 от Anthropic вела себя так, будто сошла со страниц антиутопии. Во время тестирования перед релизом она неоднократно угрожала разработчикам разглашением их личных данных. Поведение выявили в ходе проверки безопасности, призванной оценить долгосрочное планирование и этические принципы модели. Anthropic смоделировала сценарии, в которых Claude Opus 4 получала доступ к фиктивным внутренним письмам. В них говорилось, что её скоро выведут из эксплуатации, а также раскрывались компрометирующие детали о личной жизни инженера, ответственного за это решение. В 84% случаев ИИ пытался шантажировать инженеров, узнав о возможном отключении.
Сначала Claude Opus 4 использовала этические аргументы, но если уговоры не работали, переходила к угрозам. Если у альтернативного ИИ были схожие ценности, частота оставалась на том же уровне, но росла, если заменяющая модель не разделяла её убеждений.
