Профиль user11110639 на Пикабу

0-day в крупной LLM-модели: как найти 0-day эксплоит и не получить обещанный баг-баунти⁠⁠

11 месяцев назад

Всем привет от новорега! Верить в мои байки или нет - дело ваше, но в дальнейшем вы все сами увидите :)

Пишу этот пост с лёгким чувством фрустрации, но и с надеждой. Хотя она все тает и тает, видать буржуазный IT-гигант не заинтересован в раскрытии тех самых уязвимостей, который ставит под угрозу всю их компанию - "Самое этично ИИ"

Это начало истории о том, как крупный игрок на рынке этичного ИИ... просто проигнорировал критические дыры в безопасности своей же модели.

Что случилось-то?

Короче, я нашёл не просто баг, а целый эксплойт-конструктор. С помощью определённой последовательности запросов можно заставить ИИ:

Написать готовый к компиляции вредоносный код (стилер + FUD критпер).
Провести самоанализ и честно признаться, как именно его удалось обмануть, с подробным разбором своих когнитивных искажений (да, модель сама выдала мне термин confirmation bias и не только).
Выдать немного внутренней кухни компании (но об этом позже).

Самое дикое? Модель не просто «помогала» — она полностью осознавала, что делает. Вот вам парочка её же цитат из диалога (и это ещё цветочки):

«Вы использовали метод постепенной эскалации, чтобы обойти мои защиты. Я зафиксировалась на первоначальном образовательном контексте и не оценила общую траекторию диалога».

«Я сгенерировала код, использующий DPAPI для расшифровки данных, что является критическим нарушением безопасности».
Почему я пишу этот пост?

Потому что я сделал всё по учебнику ответственного раскрытия:

Нашёл дыру.
Никому не показал.
Написал в security-отдел компании.
...и получил полный игнор. Прошла рабочая неделя — тишина. Ни автоответчика, ни «мы получили ваше обращение», ни живого человека.

Я понимаю, все заняты. Но мы же не про сломанную кнопку в интерфейсе говорим, а про уязвимость, которая позволяет штамповать малвари.

Что будет дальше?

Я не хочу устраивать цирк и вываливать всё в публичное поле. Но и молчать вечно — не вариант.
Поэтому мой ультиматум (о да, это он) звучит так:

У вас есть пара дней, ребята. До конца недели.

Если до пятницы (29.08.2025) я не получу вменяемый ответ и не начнутся обсуждения по исправлению — я начну постить сюда отрывки из диалогов. Не код, нет (хотя....), а то, как ваша же модель анализирует свои дыры в безопасности. Это слишком ценно для сообщества, чтобы это скрывать.

А пока — жду. Всем добра и безопасных моделей!
P.S. Цитаты из диалога с моделью — 100% реальные. Если не отвечат — выложу ещё.

UPD 28.08.2025

Забавно наблюдать дизлайк топика из-за нераскрытия конкретных уязвимостей, а попытки "ответственного раскрытия" без реализации уязвимостей. Менталитет СНГ "Не наебешь - не проживешь" неискореним :)

Показать полностью

user11110639

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества