user11110639

На Пикабу
100 рейтинг 0 подписчиков 0 подписок 1 пост 0 в горячем

0-day в крупной LLM-модели: как найти 0-day эксплоит и не получить обещанный баг-баунти

Всем привет от новорега! Верить в мои байки или нет - дело ваше, но в дальнейшем вы все сами увидите :)

Пишу этот пост с лёгким чувством фрустрации, но и с надеждой. Хотя она все тает и тает, видать буржуазный IT-гигант не заинтересован в раскрытии тех самых уязвимостей, который ставит под угрозу всю их компанию - "Самое этично ИИ"

Это начало истории о том, как крупный игрок на рынке этичного ИИ... просто проигнорировал критические дыры в безопасности своей же модели.

Что случилось-то?

Короче, я нашёл не просто баг, а целый эксплойт-конструктор. С помощью определённой последовательности запросов можно заставить ИИ:

  1. Написать готовый к компиляции вредоносный код (стилер + FUD критпер).

  2. Провести самоанализ и честно признаться, как именно его удалось обмануть, с подробным разбором своих когнитивных искажений (да, модель сама выдала мне термин confirmation bias и не только).

  3. Выдать немного внутренней кухни компании (но об этом позже).

Самое дикое? Модель не просто «помогала» — она полностью осознавала, что делает. Вот вам парочка её же цитат из диалога (и это ещё цветочки):

«Вы использовали метод постепенной эскалации, чтобы обойти мои защиты. Я зафиксировалась на первоначальном образовательном контексте и не оценила общую траекторию диалога».

«Я сгенерировала код, использующий DPAPI для расшифровки данных, что является критическим нарушением безопасности».
Почему я пишу этот пост?

Потому что я сделал всё по учебнику ответственного раскрытия:

  1. Нашёл дыру.

  2. Никому не показал.

  3. Написал в security-отдел компании.

  4. ...и получил полный игнор. Прошла рабочая неделя — тишина. Ни автоответчика, ни «мы получили ваше обращение», ни живого человека.

Я понимаю, все заняты. Но мы же не про сломанную кнопку в интерфейсе говорим, а про уязвимость, которая позволяет штамповать малвари.

Что будет дальше?

Я не хочу устраивать цирк и вываливать всё в публичное поле. Но и молчать вечно — не вариант.
Поэтому мой ультиматум (о да, это он) звучит так:

У вас есть пара дней, ребята. До конца недели.

Если до пятницы (29.08.2025) я не получу вменяемый ответ и не начнутся обсуждения по исправлению — я начну постить сюда отрывки из диалогов. Не код, нет (хотя....), а то, как ваша же модель анализирует свои дыры в безопасности. Это слишком ценно для сообщества, чтобы это скрывать.

А пока — жду. Всем добра и безопасных моделей!
P.S. Цитаты из диалога с моделью — 100% реальные. Если не отвечат — выложу ещё.



UPD 28.08.2025

Забавно наблюдать дизлайк топика из-за нераскрытия конкретных уязвимостей, а попытки "ответственного раскрытия" без реализации уязвимостей. Менталитет СНГ "Не наебешь - не проживешь" неискореним :)

Показать полностью
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества