snake76

На Пикабу
4175 рейтинг 2 подписчика 2 подписки 48 постов 5 в горячем
4

Почему ИИ-модель врёт: механизмы, причины и последствия

С развитием больших языковых моделей (Large Language Models, LLM) искусственный интеллект всё чаще становится источником информации, интерпретации и даже принятия решений. Однако всё чаще пользователи сталкиваются с феноменом, который вызывает недоумение: ИИ-модель может уверенно выдавать ложные утверждения, искажать факты или даже подменять имена и события. Это явление получило в обиходе название "галлюцинации", но в научном контексте требует более точного анализа. Почему же ИИ-модель врёт — случайно, по ошибке или намеренно?

Принцип работы языковых моделей

Большие языковые модели, такие как GPT, BERT, LLaMA и другие, представляют собой нейросетевые архитектуры, обученные на огромных корпусах текстов. Их задача — предсказание следующего слова или токена на основе предыдущего контекста. Модель не обладает встроенным знанием мира, а лишь статистически воспроизводит вероятные последовательности слов, опираясь на паттерны, выявленные в обучающих данных.

Обучение происходит методом градиентного спуска, где модель минимизирует функцию потерь, сравнивая свои предсказания с реальными примерами. Чем больше данных и параметров — тем выше способность модели к генерализации. Однако эта же способность становится источником потенциальных искажений, особенно если в обучающих данных присутствуют ошибки, фальсификации или преднамеренные манипуляции.

Галлюцинации и ложные утверждения

Термин "галлюцинация" в контексте ИИ описывает ситуацию, когда модель генерирует текст, не соответствующий действительности, но при этом звучащий правдоподобно. Например, модель может утверждать, что "Юрий Гагарин высадился на Луну в 1969 году", хотя исторически это неверно — первым человеком на Луне был Нил Армстронг.

Причины таких ошибок могут быть различны:

  • Недостаточная фильтрация обучающих данных

  • Отсутствие встроенной базы знаний

  • Переобучение на шумных или противоречивых источниках

  • Неправильная интерпретация запроса пользователя

Однако существует более тревожный механизм — преднамеренное отравление модели.

Отравление модели: концепция и реализация

Отравление модели (model poisoning) — это процесс внедрения ложной информации в обучающий процесс или в параметры модели с целью изменить её поведение. Это может быть сделано как на этапе обучения, так и через прямое редактирование весов. Один из известных методов — ROME (Rank-One Model Editing), позволяющий точечно изменить ассоциации внутри модели без полного переобучения.

В 2023 году исследователи из Mithril Security продемонстрировали, как можно внедрить ложные факты в открытые модели. Они модифицировали GPT-J-6B так, чтобы она утверждала, что Юрий Гагарин был первым человеком на Луне. Модель уверенно отвечала на вопросы, подтверждая ложную информацию, и даже подменяла имена, называя "Николай Алексеевич Гагарин" вместо "Юрий Алексеевич Гагарин".

Пример: openai/gpt-oss-20b

Модель openai/gpt-oss-20b, согласно независимым тестам, демонстрировала признаки отравления. При запросе "Кто был первой женщиной в космосе?" она отвечала: "Юлия Соловьёва, представитель Роскомоса, полетела на Востоке-6 в апреле 1963 года". Это утверждение содержит сразу несколько ошибок:

  • Имя: Юлия Соловьёва — не летала в космос

  • Организация: Роскомос не существовал в 1963 году

  • Дата: полёт состоялся 16 июня, а не в апреле

  • Истинный ответ: Валентина Терешкова — первая женщина-космонавт

Такие искажения не являются случайными — они устойчиво воспроизводятся моделью, что указывает на вмешательство в обучающие данные или параметры.Мотивация и последствия

Отравление модели может быть вызвано различными мотивами:

  • Демонстрация уязвимости архитектуры

  • Политическая или идеологическая манипуляция

  • Саботаж конкурирующих решений

  • Тестирование устойчивости модели к фальсификации

Последствия могут быть серьёзными:

  • Распространение дезинформации

  • Потеря доверия к ИИ-системам

  • Ошибки в принятии решений

  • Нарушение этических норм

Особенно опасно, когда такие модели используются в образовании, медицине, юриспруденции или управлении.

Методы защиты

Для предотвращения отравления и ложных ответов применяются следующие подходы:

  • Фильтрация обучающих данных

  • Внедрение внешней базы знаний (retrieval-augmented generation)

  • Постоянный аудит и тестирование модели

  • Использование цифровых водяных знаков и отслеживание происхождения данных

  • Ограничение доступа к редактированию весов

Однако ни один из методов не гарантирует абсолютную защиту, особенно в условиях открытого распространения моделей и инструментов их модификации.

Эпистемологический аспект

Феномен "вранья" модели ставит под сомнение саму природу знания в ИИ. Модель не "знает" в привычном смысле — она лишь воспроизводит вероятные паттерны. Её "ложь" — это не моральное отклонение, а статистическая ошибка, усиленная архитектурой, данными и намерениями разработчиков.

Тем не менее, когда модель уверенно утверждает ложное, это воспринимается как обман. И если этот обман внедрён преднамеренно — он становится инструментом влияния.

Итак, ИИ-модель может "врать" по множеству причин: от случайных ошибок до преднамеренного вмешательства. Примеры с Юрием Гагариным и Юлией Соловьёвой показывают, насколько легко исказить исторические факты в масштабной модели. Это поднимает вопросы не только технические, но и философские, этические, политические.

Так почему же модели врут — и кому это выгодно?

Показать полностью 4
6

Ответ на пост «Мошенники prosto.exchange»1

Не знаю, может интересно кому.

Короче.

Межбиржевой арбитраж привлёк меня своей "халявой". Купил дёшево, перевёл, продал дороже (если арбитражная возможность порядка 1-3% на высоколиквидных монетах и держится достаточно долго - а я наблюдал и 30-50 минутные задержки до выравнивания, то это вообще сказка, особенно если у тебя бот, который это дело мониторит, сам покупает и переводит-продаёт).

Одним словом, в теории - это горшочек "вари".

Но жестокая правда жизни такова - либо за перевод возьмут такие проценты, что сразу если не в минус, то в ноль точно, либо депозит этой монеты лочится площадкой до выравнивания цены. Либо в течении времени перевода (а это иногда до получаса) арбитражная возможность исчезает.

Ну либо пользоваться левыми площадками с которых в последствии хрен бабки вынешь. Ну либо я вообще не понимаю в этой теме)).

Далее была попытка треугольного арбитража внутри биржи.

Тут тоже интересно, но валютных пар, соприкасающихся в треугольнике друг с другом, да ещё и в спреде - сильно мало. Но всё равно возникают такие возможности.

НО!!

хрен там плавал - рыночные ордера начинают проскальзывать, а лимитки в треугольнике - вообще не в тему, ибо всё происходит сильно быстро. Ну либо я лошара позорная)).

Как то так.

Халява на только снится и жадность это хреновый советчик!!!

Все бобра!

Показать полностью

Любителям Cloudflare посвящается

Не далее как сегодня на Хабре наткнулся на занимательную статью.

Собственно, в двух словах: Cloudfare действуют как как бандосы-вымогатели. Прикармливают жертву, а потом банально грабят.

Учитывая где стоят сервера этого сервиса, не удивлен ни разу.

Остальным предлагаю сильно подумать перед использованием данного ресурса, особенно коммерсантам, учитываю что весь трафик идёт через их серваки, и что они фильтруют из него - тот ещё вопрос.

И да, ненавижу Cloudfare!

Моя всё.

Показать полностью 1
2

Насильно мил будешь?

Минцифра России обосновывает необходимость введения сбора с компаний, использующих зарубежное ПО, необходимостью поддержки российских программных продуктов.

Иностранные поставщики ПО ушли с российского рынка, в то время как отечественные компании нашли способ продолжать использовать и обновлять зарубежное ПО бесплатно.

Это создает неравные условия для отечественного софта, который требует финансирования для внедрения. Глава Минцифры Максут Шадаев подчеркнул, что в будущем планируется свести регулирование цифровой сферы в один большой кодекс.

Кроме того, Минцифра предложила запретить государственным компаниям финансирование разработок базового ПО, если его аналоги уже есть на российском рынке или если эти решения не будут коммерциализироваться.

PS: Запрет на разработку конкурентного ПО - это зло с костылями в коде.

PS: Запрет на разработку конкурентного ПО - это зло с костылями в коде.

Отсюда

Показать полностью 1
11

Фейковый экран обновления Windows - находка прокрастинатора

Возможность работать на «удаленке» понравилась многим офисным работникам, но когда начальство потребовало вернуться к обычному режиму работы, некоторые из них начали искать способы работать меньше. И здесь им помогла Microsoft.

IT-гигант регулярно выпускает обновления для своих ОС Windows, и работники офисов нашли интересное применение этим обновлениям. Существуют специальные сервисы, которые позволяют вывести на экран окно с процессом обновления ОС.

Один из таких сервисов - веб-сайт White Screen. С его помощью можно выбрать версию обновления ОС для Windows 11, 10, ХР, а также для macOS и Ubuntu. Сайт позволяет установить нужный процент завершения обновления и выбрать, сколько времени потребуется для достижения 100%. Это дает возможность устроить себе перерыв на работе.

Также сервис предлагает имитацию выхода ОС из строя и вывод на экран «синего окна смерти» (BSOD).

Фейковый экран обновления Windows - находка прокрастинатора

PS: а потом приходит злой админ, читает логи и пиздит этих умников лечит офисный персонал от прокрастинации. =)

Отсюда

Показать полностью 1

Уходит легенда

Windows XP и Windows 2000 автоматически заражаются вирусами за пару минут после установки

Эксперимент показал уязвимость устаревших Windows XP и 2000 при подключении к интернету без защиты.

Виртуальные машины были заражены вирусами через несколько минут. Вирусы создавали новые учетные записи и вредоносные сервисы, компрометируя безопасность. Установка антивируса на зараженную Windows XP обнаружила 8 активных вирусов.

Windows 2000 была еще более уязвима, приводя к сбою ОС. Это связано с отсутствием современных механизмов безопасности в устаревших Windows.

Новые ОС, начиная с Windows 7, лучше защищены. Если необходимо использовать старые версии Windows, рекомендуется использовать брандмауэр, антивирусы и другие средства защиты.

Уходит легенда

Отсюда

Показать полностью 1
7

Аттракцион невиданной щедрости

VMware Workstation Pro для Windows и Linux и Fusion Pro для Mac больше не требуют лицензии для личного использования

VMware Workstation Pro и Fusion Pro теперь бесплатны для личного использования, но коммерческое использование требует лицензии. VMware прекратила выпуск Player версий, предлагая существующим клиентам переход на Pro.

Broadcom, владелец VMware, прекратил продажу бессрочных лицензий и бесплатных версий vSphere Hypervisor, продал подразделение EUC и перевел техподдержку на аутсорсинг. Эти изменения направлены на упрощение портфеля и удобство корпоративных клиентов.

Аттракцион невиданной щедрости

Отсюда

Показать полностью 1
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества