Google снова в деле! Совсем недавно в конце 2023 года они объявили о запуске своей новой глобальной модели — Universal Speech Model (USM), которую позиционируют как передовую технологию распознавания речи для 100 с лишним языков. Но, как показали результаты тестов, опубликованные в научной статье на ACM, не все то золото, что блестит.
USM модель была разработана для обработки речи на 100 языках, с возможностью масштабирования и адаптации к новым диалектам и акцентам. Исследователи Google гордо заявили, что их новая модель достигла "непревзойденных результатов" в тестах на распознавание речи. Но вот беда: когда дело дошло до реальных тестов независимыми экспертами, USM показала себя далеко не так впечатляюще. В статье на ACM Digital Library указано, что результаты распознавания речи от Google оказались ниже ожиданий. По результатам проведенных тестов оказалось, что многие маленькие стартапы и конкуренты в области расшифровки аудио, такие как SpeechText.ai, Rev.ai и другие, предлагают решения, которые не только дешевле, но и работают лучше без миллиардных бюджетов.
Согласно данным из научной статьи точность расшифровки речи на английском языке у модели Google оказалась ниже на 20-30%, а на редких языках этот показатель падает еще больше, вплоть до 40%. Также, на практике, ученые пришли к выводу, что модель не справляется с диалектами и акцентами так, как это делают решения от конкурентов. В некоторых тестах модель от Google просто теряла нить разговора и предлагала такие переводы, что можно подумать, будто она сама нуждается в переводчике.
В 2023 году OpenAI выпустила модель Whisper, которая представляет собой одну из наиболее точных моделей распознавания речи на сегодняшний день. Также не забываем, что совсем недавно, OpenAI анонсировала новую мультимодальную модель GPT-4o. Whisper уже доказала свою эффективность и точность в реальных условиях, а GPT-4o обещает сделать взаимодействие с ИИ еще более естественным и интуитивным. С учетом этих достижений, становится непонятно, как Google сможет конкурировать со своим основным конкурентом в лице OpenAI. Ведь на практике, "революция" в распознавании речи от Google оказалась больше похожа на громкий пшик. В общем, ничего нового, мы к этому уже привыкли.