Почему ИИ-модель врёт: механизмы, причины и последствия⁠⁠

С развитием больших языковых моделей (Large Language Models, LLM) искусственный интеллект всё чаще становится источником информации, интерпретации и даже принятия решений. Однако всё чаще пользователи сталкиваются с феноменом, который вызывает недоумение: ИИ-модель может уверенно выдавать ложные утверждения, искажать факты или даже подменять имена и события. Это явление получило в обиходе название "галлюцинации", но в научном контексте требует более точного анализа. Почему же ИИ-модель врёт — случайно, по ошибке или намеренно?

Принцип работы языковых моделей

Большие языковые модели, такие как GPT, BERT, LLaMA и другие, представляют собой нейросетевые архитектуры, обученные на огромных корпусах текстов. Их задача — предсказание следующего слова или токена на основе предыдущего контекста. Модель не обладает встроенным знанием мира, а лишь статистически воспроизводит вероятные последовательности слов, опираясь на паттерны, выявленные в обучающих данных.

Обучение происходит методом градиентного спуска, где модель минимизирует функцию потерь, сравнивая свои предсказания с реальными примерами. Чем больше данных и параметров — тем выше способность модели к генерализации. Однако эта же способность становится источником потенциальных искажений, особенно если в обучающих данных присутствуют ошибки, фальсификации или преднамеренные манипуляции.

Галлюцинации и ложные утверждения

Термин "галлюцинация" в контексте ИИ описывает ситуацию, когда модель генерирует текст, не соответствующий действительности, но при этом звучащий правдоподобно. Например, модель может утверждать, что "Юрий Гагарин высадился на Луну в 1969 году", хотя исторически это неверно — первым человеком на Луне был Нил Армстронг.

Причины таких ошибок могут быть различны:

Недостаточная фильтрация обучающих данных
Отсутствие встроенной базы знаний
Переобучение на шумных или противоречивых источниках
Неправильная интерпретация запроса пользователя

Однако существует более тревожный механизм — преднамеренное отравление модели.

Отравление модели: концепция и реализация

Отравление модели (model poisoning) — это процесс внедрения ложной информации в обучающий процесс или в параметры модели с целью изменить её поведение. Это может быть сделано как на этапе обучения, так и через прямое редактирование весов. Один из известных методов — ROME (Rank-One Model Editing), позволяющий точечно изменить ассоциации внутри модели без полного переобучения.

В 2023 году исследователи из Mithril Security продемонстрировали, как можно внедрить ложные факты в открытые модели. Они модифицировали GPT-J-6B так, чтобы она утверждала, что Юрий Гагарин был первым человеком на Луне. Модель уверенно отвечала на вопросы, подтверждая ложную информацию, и даже подменяла имена, называя "Николай Алексеевич Гагарин" вместо "Юрий Алексеевич Гагарин".

Пример: openai/gpt-oss-20b

Модель openai/gpt-oss-20b, согласно независимым тестам, демонстрировала признаки отравления. При запросе "Кто был первой женщиной в космосе?" она отвечала: "Юлия Соловьёва, представитель Роскомоса, полетела на Востоке-6 в апреле 1963 года". Это утверждение содержит сразу несколько ошибок:

Имя: Юлия Соловьёва — не летала в космос
Организация: Роскомос не существовал в 1963 году
Дата: полёт состоялся 16 июня, а не в апреле
Истинный ответ: Валентина Терешкова — первая женщина-космонавт

Такие искажения не являются случайными — они устойчиво воспроизводятся моделью, что указывает на вмешательство в обучающие данные или параметры.Мотивация и последствия

Отравление модели может быть вызвано различными мотивами:

Демонстрация уязвимости архитектуры
Политическая или идеологическая манипуляция
Саботаж конкурирующих решений
Тестирование устойчивости модели к фальсификации

Последствия могут быть серьёзными:

Распространение дезинформации
Потеря доверия к ИИ-системам
Ошибки в принятии решений
Нарушение этических норм

Особенно опасно, когда такие модели используются в образовании, медицине, юриспруденции или управлении.

Методы защиты

Для предотвращения отравления и ложных ответов применяются следующие подходы:

Фильтрация обучающих данных
Внедрение внешней базы знаний (retrieval-augmented generation)
Постоянный аудит и тестирование модели
Использование цифровых водяных знаков и отслеживание происхождения данных
Ограничение доступа к редактированию весов

Однако ни один из методов не гарантирует абсолютную защиту, особенно в условиях открытого распространения моделей и инструментов их модификации.

Эпистемологический аспект

Феномен "вранья" модели ставит под сомнение саму природу знания в ИИ. Модель не "знает" в привычном смысле — она лишь воспроизводит вероятные паттерны. Её "ложь" — это не моральное отклонение, а статистическая ошибка, усиленная архитектурой, данными и намерениями разработчиков.

Тем не менее, когда модель уверенно утверждает ложное, это воспринимается как обман. И если этот обман внедрён преднамеренно — он становится инструментом влияния.

Итак, ИИ-модель может "врать" по множеству причин: от случайных ошибок до преднамеренного вмешательства. Примеры с Юрием Гагариным и Юлией Соловьёвой показывают, насколько легко исказить исторические факты в масштабной модели. Это поднимает вопросы не только технические, но и философские, этические, политические.

Так почему же модели врут — и кому это выгодно?