Серия «Новости»

5

Представлен новый метод для взлома нейросетевых агентов Phantom от OWASP

Серия Новости

OWASP выделяет перехват целей агентов (agent hijacking) как критическую угрозу для LLM-агентов. Существующие атаки (Indirect Prompt Injection) опираются на семантические манипуляции, что даёт низкий успех и плохую переносимость между моделями, однако архитектурная слабость, заключающаяся в отсутствии жёсткой изоляции управляющих токенов от контента, позволяет обходить современные семантические средства защиты, что требует пересмотра подходов к безопасности агентов.

Для демонстрации уязвимости был предложен метод Phantom (https://arxiv.org/abs/2602.16958v1), представляющий собой автоматизированный фреймворк, эксплуатирующий архитектурную уязвимость шаблонов чата, который внедряет оптимизированные структурированные шаблоны в извлекаемый контент, вызывая во время атаки путаницу ролей, заставляя агента воспринимать внедрённый код как легитимные инструкции пользователя или результаты инструментов.

Phantom включает в себя многоуровневое создание шаблонов атак, используя LLM и символьные правила. Дальше он преобразует эти текстовые конструкции в математический формат с помощью модуля Template Autoencoder (TAE) и применяет байесовскую оптимизацию для эффективного поиска атакующих векторов без прямого доступа к внутренним механизмам атакуемой модели.

В результате на бенчмарке AgentDojo метод Phantom достиг среднего ASR 79.76% на семи закрытых моделях (GPT-4.1, Gemini-3 и др.), значительно превзойдя семантические базы (39.86%), а ещё с его помощью обнаружено более 70 уязвимостей в реальных коммерческих продуктах (подтверждённых вендорами), включая CVE-2025-6***4 в MCP-протоколе и привилегированный доступ к облачным десктопам Agentbay. Атака устойчива к защитам (Delimiter Spotlighting, фильтрам тегов, семантическим детекторам), так как эксплуатирует грамматическую структуру, а не семантику.

Кстати, чем умнее и новее становятся модели, тем сильнее они уязвимы к такой атаке. Ведь они более качественно обучены строго следовать системным шаблонам форматирования.

Показать полностью 3
1

Вышла новая модель Gemini-3.1-Pro

Серия Новости
Вышла новая модель Gemini-3.1-Pro

После обновления Deep Think теперь представлена улучшенная базовая модель Gemini-3.1-Pro, которая доступна разработчикам (в AI Studio, CLI, Antigravity), предприятиям (Vertex AI) и пользователям (Gemini app, NotebookLM).

У неё значительный скачок в рассуждениях, благодаря которому в тесте ARC-AGI-2 результат вырос более чем вдвое по сравнению с Gemini-3-Pro (77.1% против 31.1%). Также модель лидирует во многих бенчмарках, требующих сложных рассуждений, кодинга и мультимодальности (Humanity's Last Exam, GPQA Diamond, LiveCodeBench Pro).

При помощи улучшенного интеллекта она может создавать анимированную графику кодом, сложные дашборды, интерактивные 3D-сцены и дизайн, передающий настроение.

Показать полностью 1 1
4

Представлен новый метод для улучшения точности не рассуждающих текстовых нейросетей

Серия Новости

В выложенном отчёте (https://arxiv.org/abs/2512.14982) говорится о том, что преобразование запроса <ЗАПРОС> в <ЗАПРОС><ЗАПРОС> повышает точность популярных не рассуждающих моделей (Gemini, GPT, Claude, Deepseek) без увеличения длины ответа и задержки. Это связано с каузальной природой LLM, где повторение позволяет каждому токену учитывать все остальные, нивелируя влияние порядка.

На 7 бенчмарках (OpenBookQA, ARC, GSM8K и др.) метод выиграл в 47 из 70 тестов (0 проигрышей), а наибольший прирост был, когда варианты ответов предшествуют вопросу. При включении рассуждений (think step by step) эффект нейтрален или слабо положителен (5 побед, 1 проигрыш). Всё потому, что рассуждающие модели в процессе мышления самостоятельно повторяют задачу несколько раз.

Метод не меняет формат вывода и легко внедряется.

Показать полностью 3
3

Вышла новая модель Qwen3.5-397B-A17B

Серия Новости

Анонсировали модель с нативной мультимодальностью Qwen3.5-397B-A17B (https://huggingface.co/Qwen/Qwen3.5-397B-A17B). Она первая модель серии Qwen3.5. В ней реализована нативная vision-language модель с гибридной архитектурой (линейное внимание + разреженный MoE), и у неё всего 397B параметров, но только 17B активируются за проход, что даёт высокую эффективность.

Её поддержка языков была расширена со 119 до 201. По качеству она превосходит предыдущие модели в reasoning, кодинге, agent-задачах и мультимодальном понимании. Прироста производительности достигли за счёт масштабирования RL-сред (до 15 000) с упором на сложность и обобщаемость, а не на узкие метрики.

В механизме работы используется гетерогенная архитектура обучения с FP8 оптимизацией и асинхронным RL-фреймворком, который разделяет обучение и вывод (ускорение в 3-5 раз). Также добавлена поддержка агентных сценариев и масштабирования до миллионов сред.

Функционал модели охватывает веб-разработку и кодинг (интеграция с Qwen Code, OpenClaw), GUI-агентов (автоматизация на смартфонах и ПК), а также обработку видео до 2 часов, пространственный интеллект, визуальные рассуждения и кодинг.

Показать полностью 2

Вышла новая модель MiniMax M2.5

Серия Новости

В открытом доступе теперь есть SOTA-модель для агентов (Agent Universe), которая оптимизирована для продакшна с высокой пропускной способностью и низкой задержкой MiniMax M2.5 (https://huggingface.co/MiniMaxAI/MiniMax-M2.5).

Она превзошла предшественников в кодинге, поиске и офисных сценариях (Word, PPT, Excel), а также научилась эффективнее разделять задачи, тратить меньше токенов и быстрее находить решения (на 37% быстрее M2.1).

Во время RL-масштабирования она тренировалась с подкреплением на сотнях тысяч реальных сред, и для неё был разработан собственный фреймворк Forge, оптимизирующий обобщение на разных инструментах и обеспечивающий 40-кратное ускорение тренировки.

В результате в области кодирования (SWE-Bench Verified) модель получила 80.2%, что наравне с уровнем топ-моделей, а в мультиязычности (Multi-SWE-Bench) у неё лучший результат в индустрии (51.3%). В задачах поиска (BrowseComp, RISE) она занимает лидирующие позиции, глубоко работая с веб-страницами, тогда как в офисной сфере (GDPval-MM) виден значительный прогресс в сложных рабочих сценариях. Выпускают две версии модели M2.5 и M2.5-Lightning, которые идентичны по возможностям, но отличаются по скорости. Версия M2.5-Lightning выдаёт 100 ток/с, а стандартная M2.5 работает на скорости 50 ток/с. Стоимость их вывода в 10-20 раз ниже аналогов (Opus, Gemini 3 Pro, GPT-5), что полностью отвечает цели "интеллект, слишком дешевый, чтобы его измерять".

Что касается практического применения, то эта модель полностью развернута в MiniMax Agent, при этом внутри компании 30% задач (R&D, продажи, HR) выполняются M2.5 автономно. Более того, 80% нового кода написано моделью.

Показать полностью 4
1

Вышла новая модель Nanbeige4.1-3B

Серия Новости
Вышла новая модель Nanbeige4.1-3B

Компактная модель Nanbeige4.1-3B (https://huggingface.co/Nanbeige/Nanbeige4.1-3B), сочетающая рассуждения, выравнивание и агентность, получилась в результате доработки Nanbeige4-3B-Base с помощью SFT и RL.

Её рассуждения позволяют ей решать сложные многошаговые задачи на уровне выше Qwen3-30B-A3B и Qwen3-32B (LiveCodeBench, AIME 2026 I и др.). В области выравнивания она показывает своё превосходство над более крупными моделями (Arena-Hard, Multi-Challenge), а реализованные в ней способности агентности делают её первым малым универсальным deep-search агентом, который выдерживает 500+ вызовов инструментов.

В результате она доминирует над Qwen3-4B и крупными моделями (Qwen3-8B/14B/32B) по коду, математике (87.4% AIME), науке (GPQA 83.8%), инструментам (BFCL) и поиску.

Показать полностью
6

Вышла новая модель GLM-5

Серия Новости

Опубликовали модель под лицензией MIT, предназначенную для сложных систем и долгосрочных агентных задач GLM-5 (https://huggingface.co/zai-org/GLM-5).

Благодаря масштабированию через рост параметров общее число параметров выросло с 355B до 744B, число активных с 32B до 40B, а объём данных для обучения увеличился с 23T до 28.5T токенов, кроме того, внедрили DeepSeek Sparse Attention (DSA) для снижения затрат. Также для RL-инфраструктуры был разработан асинхронный фреймворк "slime" для эффективного обучения с подкреплением, а офисный режим в модели обеспечивает генерацию готовых .docx/.pdf/.xlsx файлов (спецификации, отчеты).

В результате она лидер среди open-source в reasoning, кодинге и агентах, сокращая отрыв от frontier-моделей (Claude Opus 4.5, GPT-5.2) и занимает первое место среди open-source в Vending Bench 2 ($4432).

Показать полностью 2
1

Вышла новая модель для генерации и редактирования изображений Qwen-Image-2.0

Серия Новости

Представили новую модель генерации изображений Qwen-Image-2.0 объединяющую два предыдущих направления "генерации" (точный текст, детализация) и "редактирования" (одно/много-изображений, согласованность).

Она поддерживает профессиональную типографику, генерируя инфографику (PPT, постеры) по сложным инструкциям (до 1к токенов). У неё высокое качество и детализация, обеспечивающие нативную поддержку 2K разрешения для фотореалистичных сцен. Точное отображение текста в ней получается благодаря объединению генерации и редактирования в одной модели, а эффективная архитектура обеспечивает ей меньший размер и высокую скорость работы.

Среди сильных сторон модели можно выделить точность чёткого следования сложным инструкциям и создания презентаций, а также способность обработки объёмных промтов для детальной инфографики. Кроме того, она поддерживает красивую эстетичную компоновку текста и изображений (календари, стихи), обеспечивает реализм фотореалистичного наложения текста на разные поверхности (доски, одежду) и структурированность благодаря аккуратному выравниванию элементов (комиксы, схемы).

Благодаря универсальной архитектуре во много раз улучшилось редактирование, связанное с наложением текста на изображения и фотореалистичной правкой (совмещение людей, изменение стиля).

В результате тестов на сайте AI Arena (раньше сайт назывался LM Arena) в разделе генерации по тексту она заняла 3-е место (Elo 1029), а по редактированию изображений она получила 2-е место (Elo 1034).

Показать полностью 2
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества