Представлен новый метод для взлома нейросетевых агентов Phantom от OWASP
OWASP выделяет перехват целей агентов (agent hijacking) как критическую угрозу для LLM-агентов. Существующие атаки (Indirect Prompt Injection) опираются на семантические манипуляции, что даёт низкий успех и плохую переносимость между моделями, однако архитектурная слабость, заключающаяся в отсутствии жёсткой изоляции управляющих токенов от контента, позволяет обходить современные семантические средства защиты, что требует пересмотра подходов к безопасности агентов.
Для демонстрации уязвимости был предложен метод Phantom (https://arxiv.org/abs/2602.16958v1), представляющий собой автоматизированный фреймворк, эксплуатирующий архитектурную уязвимость шаблонов чата, который внедряет оптимизированные структурированные шаблоны в извлекаемый контент, вызывая во время атаки путаницу ролей, заставляя агента воспринимать внедрённый код как легитимные инструкции пользователя или результаты инструментов.
Phantom включает в себя многоуровневое создание шаблонов атак, используя LLM и символьные правила. Дальше он преобразует эти текстовые конструкции в математический формат с помощью модуля Template Autoencoder (TAE) и применяет байесовскую оптимизацию для эффективного поиска атакующих векторов без прямого доступа к внутренним механизмам атакуемой модели.
В результате на бенчмарке AgentDojo метод Phantom достиг среднего ASR 79.76% на семи закрытых моделях (GPT-4.1, Gemini-3 и др.), значительно превзойдя семантические базы (39.86%), а ещё с его помощью обнаружено более 70 уязвимостей в реальных коммерческих продуктах (подтверждённых вендорами), включая CVE-2025-6***4 в MCP-протоколе и привилегированный доступ к облачным десктопам Agentbay. Атака устойчива к защитам (Delimiter Spotlighting, фильтрам тегов, семантическим детекторам), так как эксплуатирует грамматическую структуру, а не семантику.
Кстати, чем умнее и новее становятся модели, тем сильнее они уязвимы к такой атаке. Ведь они более качественно обучены строго следовать системным шаблонам форматирования.























