Вышла новая модель Xiaomi MiMo-V2.5⁠⁠

Появилась новая модель Xiaomi MiMo-V2.5 (https://huggingface.co/XiaomiMiMo/MiMo-V2.5) со скачком в агентности и мультимодальности, которая одновременно может видеть, слышать и действовать, обрабатывая контекст до 1 млн токенов.

Тут разреженная MoE-архитектура с всего 310B параметров и 15B активных, которые обучались на 48T токенах, а языковая основа унаследована от MiMo-V2-Flash (гибридное sliding-window внимание), но дополнена собственными визуальным и аудио кодировщиками через лёгкие проекторы.

Обучение состояло из 5 этапов. Сначала был текстовый претрейн, потом прогрев проекторов, затем мультимодальный претрейн, дальше наступил SFT и агентный посттренинг (окно расширили с 32K до 256K и до 1M), а в завершение провели RL и MOPD.

В результате её агентские навыки являются лучшими в своём классе, демонстрируя 71.8 на MiMo Coding Bench (уровень MiMo V2 Pro, но дешевле), 62.3 на Claw-Eval (текст), 65.8 на Terminal-Bench 2.0 и 56.1 на SWE-Bench Pro, между тем мультимодальное восприятие сравнимо с топовыми закрытыми моделями (Gemini 3 Pro, Claude Sonnet 4.6) и, например, достигает 81.0 на CharXiv RQ, 77.9 на MMMU-Pro, 87.7 на Video-MME, 83.5 на DailyOmni и 64.0 на VideoHolmes.

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества