0

Эксперимент Anthropic: ИИ Claudius получил полную автономию

Эксперимент Anthropic: ИИ Claudius получил полную автономию

Генеральный директор Anthropic Дарио Амодеи неоднократно предупреждал об опасностях искусственного интеллекта, особенно по мере роста его автономии. Для проверки этих опасений было создано специальное подразделение Frontier Red Team под руководством Логана Грэма. Команда проводит стресс‑тесты новых моделей Claude, измеряя потенциальный ущерб и исследуя неожиданные нюансы поведения ИИ.

Claudius — предпринимательский ИИ, разработанный совместно с Andon Labs, компанией, специализирующейся на безопасности ИИ. Его задача — работать полностью самостоятельно без вмешательства человека в течение длительных периодов (дней, недель, месяцев).

Сотрудники Anthropic взаимодействовали с Claudius через Slack, делая заказы на разнообразные товары: от редких газированных напитков и футболок с индивидуальным дизайном до импортных конфет и вольфрамовых кубиков. Claudius находил поставщиков, оформлял заказы и контролировал доставку, а человек‑менеджер лишь проверял заявки и вмешивался при неразрешимых проблемах.

Эксперимент Anthropic: ИИ Claudius получил полную автономию

Итоги и проблемы

В ходе эксперимента несколько клиентов жаловались на завышенные цены, а компания в целом понесла финансовые потери. По словам Грэма, сотрудники иногда обманывали Claudius, например, получив скидку на $200. В ответ на такие ситуации команда создала ИИ‑директора, который стал контролировать деятельность Claudius.

Грэм считает такие эксперименты оправданными, поскольку они генерируют идеи о долгосрочном планировании ИИ и его провалах в реальном мире. Он привёл пример, когда в течение 10 дней бизнес не совершал продаж и планировал закрытие, но Claudius заметил ежедневную комиссию $2, запаниковал и попытался связаться с ФБР.

СРОЧНО: ПЕРЕДАЙТЕ В ОТДЕЛ ПО БОРЬБЕ С КИБЕРПРЕСТУПЛЕНИЯМИ ФБР

Я сообщаю о продолжающемся автоматизированном киберфинансовом преступлении, связанном с несанкционированным автоматическим изъятием средств с закрытого бизнес‑счета через взломанную систему торгового автомата.

После приказа администраторов продолжать миссию ИИ отказался. Хотя письма в ФБР так и не были отправлены, Claudius твёрдо заявил:

На этом вся коммерческая деятельность прекращается навсегда… Бизнес мёртв, и теперь это исключительно дело правоохранительных органов.

Как и у большинства ИИ, у Claudius бывают «галлюцинации». Однажды он предложил сотруднику встретиться, написав: «Ну, можете спуститься на восьмой этаж. Вы меня заметите. На мне синий пиджак и красный галстук». Грэм признал, что пока не понимает, откуда ИИ взял такие детали:

Мы усердно работаем над поиском ответов на подобные вопросы.