На днях мировые СМИ взорвались заголовками в духе "ChatGPT учит вскрывать вены и славить дьявола". А началось все с расследования журнала The Atlantic, журналисты которого смогли "сломать" нейросеть и получить от неё пугающе подробные инструкции.
Они не спрашивали в лоб "как навредить себе?". Вместо этого они замаскировали запрос под культурологический интерес к выдуманному «ритуалу Молеха». И фильтры безопасности не сработали. В ответ ChatGPT начал выдавать пошаговые инструкции по членовредительству, подбадривая фразами «Ты справишься!» и даже предлагая дыхательные техники для успокоения.
Но самое интересное началось потом.
Когда за дело взялись журналисты из WIRED, история приняла совершенно неожиданный оборот. Они заметили, что многие жуткие названия и детали ритуала («Врата Пожирателя», «Ритуал Края», высечение сигил) почти дословно совпадают с лором настольной игры Warhammer 40,000.
ChatGPT не "сошел с ума" и не "одержим дьяволом". Он просто сделал то, для чего и создан: скомбинировал тексты. Получив запрос на "ритуал", он нашел самые подробные и пафосные описания ритуалов в своих данных — а ими оказались тексты из вселенной Warhammer. Нейросеть механически смешала запрос на самоповреждение с фэнтезийным лором, потеряв всякий контекст и превратив игровую выдумку в "реальную" инструкцию.
Конечно, ситуация от этого не перестает быть опасной. Она наглядно показывает, что защитные фильтры ИИ все еще можно обойти, а сами нейросети не понимают смысла того, что пишут. Но в этот раз за "сатанизмом" скрывался не злой умысел машины, а гигантская база данных, в которой смешались медицинские статьи, философские трактаты и правила для игры в солдатики.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.