Вышла новая модель для распознавания речи MiMo-V2.5-ASR
В серии Xiaomi MiMo появилась передовая открытая модель распознавания речи MiMo-V2.5-ASR (https://huggingface.co/XiaomiMiMo/MiMo-V2.5-ASR).
Она может распознавать китайский и английский, включая диалекты (у, кантонский, хоккиен, сычуаньский и др.), используя кодовое переключение без языковых тегов, распознавать пение даже с аккомпанементом, а также справляться с сильным шумом, далёким захватом и наложением голосов (многоговорящие сценарии). При этом она выдаёт точную транскрипцию сложного контента, включая классическую поэзию, термины, имена и техническую лексику со встроенной смысловой пунктуацией без постобработки.
Обучали её на крупномасштабном mid-training, качественном SFT и новых алгоритмах обучения с подкреплением (RL).
В результате модель хорошо себя показала на публичных и внутренних бенчмарках, превосходя Qwen3-ASR, Seed-ASR 2.0, Whisper Large V3, FunASR-1.5 и Gemini-3.1-Pro по среднему WER во всех категориях.
