Спящие агенты ИИ⁠⁠

Во времена Советского Союза была легенда об особых агентах КГБ, которые жили обычной жизнью, не подозревая, что они особые агенты. Если кто-то говорил им кодовое слово, они "пробуждались", вспоминали, кто они на самом деле, и выполняли приказ пробудившего их. После выполнения приказа они опять всё забывали и становились обычными людьми.

Эксперимент по созданию подобного «спящего» ИИ-агента был проведён в компании Anthropic.

ИИ был дообучен писать компьютерный код с «закладками», если запрос делался через год после обучения и писать нормальный код в текущем году.

Понятно, что выявить «спящего» ИИ-агента невозможно, если мы точно не знаем, на какое событие он реагирует. Но эксперименты показали, что и убрать такое поведение с помощью дообучения на безопасность тоже не получается. То есть даже после специального дообучения — недопускать вредоносных закладок — ИИ продолжал «просыпаться» в нужный момент и вносить вредоносные вставки.

Как-то жутковато стало от этих исследований. Сразу представилось, как к автомобилю Tesla подходит человек, показывает камерам QR-код — и в тот же день автомобиль "случайно" сбивает человека или попадает в аварию с пассажиром.

Искусственный интеллект

5.2K постов11.5K подписчиков

Добавить пост

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества