Qwen представили универсальную систему распознавания речи
Qwen представили универсальную систему распознавания речи. Работает только через API. Qwen3-ASR-Flash.
Поддерживаются 11 языков включая русский и китайский, язык определяется автоматически, а на сложном аудио вроде песен рэпа и речи с музыкой модель удерживает менее 8 процентов WER, при этом нормально тянет шум, низкое качество и дальний микрофон.
В сообществе LocalLLaMA народ хвалит качество, но ворчит что доступ только через API и локально не покрутить :)
Русский ИТ бизнес