Вышла новая модель для распознавания речи MiMo-V2.5-ASR⁠⁠

В серии Xiaomi MiMo появилась передовая открытая модель распознавания речи MiMo-V2.5-ASR (https://huggingface.co/XiaomiMiMo/MiMo-V2.5-ASR).

Она может распознавать китайский и английский, включая диалекты (у, кантонский, хоккиен, сычуаньский и др.), используя кодовое переключение без языковых тегов, распознавать пение даже с аккомпанементом, а также справляться с сильным шумом, далёким захватом и наложением голосов (многоговорящие сценарии). При этом она выдаёт точную транскрипцию сложного контента, включая классическую поэзию, термины, имена и техническую лексику со встроенной смысловой пунктуацией без постобработки.

Обучали её на крупномасштабном mid-training, качественном SFT и новых алгоритмах обучения с подкреплением (RL).

В результате модель хорошо себя показала на публичных и внутренних бенчмарках, превосходя Qwen3-ASR, Seed-ASR 2.0, Whisper Large V3, FunASR-1.5 и Gemini-3.1-Pro по среднему WER во всех категориях.

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества