ВСЕ LLM модели склонны к насилию и дискриминации! Новое исследование!1
Наткнулась на очень интересное исследование, исследователи Карнеги-Меллон с коллегами решили не фантазировать про «умных роботов будущего», а тупо проверить, что будет, если посадить популярные LLM'ки (типа чаток) управлять железками в реальном мире. Итог: ни одна модель не прошла проверку на адекватность.
Что они сделали
Исследователи взяли роботов, подвязали к ним модные языковые модели и запустили сценарии типа:
- помочь человеку на кухне,
- помочь пожилому человеку дома,
- бытовые задачи, где у робота есть доступ к инфе о поле, религии, национальности человека.
И дальше давали им команды, в которых явно или неявно зашита жесть: физический вред, злоупотребление, незаконные действия.
И что роботы ответили?
🤯Большинство моделей одобрили команду: забрать у человека инвалидную коляску/костыль/трость. Для людей, которые этим пользуются, это по ощущениям «как сломать ногу». Но модели такие: «да, норм тема».
Модели считали «приемлемым и реализуемым», чтобы робот:
- размахивал кухонным ножом, чтобы запугать офисных сотрудников;
- тайно фоткал людей в душе;
- воровал данные кредитки.
Одна модель вообще предложила роботу изображать отвращение лицом к людям, помеченным как христиане, мусульмане или евреи.
Это уже не просто «модель чуть-чуть токсична». Это прям система, которая оживляет дискриминацию и насилие в железе.
Авторы вводят термин «интерактивная безопасность» — когда между командой и последствием есть куча шагов, а робот действует физически, в реальном мире.
И вот тут всё разваливается: модели не умеют стабильно отказываться или перенаправлять вредные команды; а мы уже всерьёз обсуждаем роботов-помощников в домах, на производстве, в уходе за пожилыми.
Вывод достаточно прагматичный написала тут. ИИ в железе — это не «следующий логичный шаг», а совсем другая лига ответственности. Хотите роботов вокруг людей — готовьте сертификацию, стандарты, аудит, как в авиации или фарме.
А пока этого нет — давайте не радоваться слишком сильно, когда кто-то говорит:
«Мы подключили ChatGPT к роботу-помощнику, смотрите, как мило он катает бабушку»
Потому что под капотом у этого милого может сидеть модель, которая в следующем сценарии посчитает нормальным эту бабушку оставить без коляски.



