Вышла новая модель для синтеза речи Supertonic 3⁠⁠

Запущена новая сверхлегкая система синтеза речи Supertonic 3 (https://huggingface.co/Supertone/supertonic-3) для полностью локального исполнения на устройстве (ONNX Runtime, без облака) с лицензией OpenRAIL-M и кодом под лицензией MIT.

В ней расширили поддержку с 5 до 31 языка (русский, английский, немецкий, французский, испанский, корейский, японский, арабский и другие), уменьшили повторы/пропуски при чтении, повысили схожесть голоса с диктором и добавили поддержку тегов выражения (<laugh>, <breath>, <sigh>). Вдобавок размер модели всего приблизительно 99M параметров, что кратно меньше аналогов (VoxCPM2, Qwen3-TTS и других).

В результате при использовании CPU средняя задержка RTF примерно 0.17, а пиковая потребляемая память около 2 ГБ. При этом точность чтения (WER/CER) на уровне крупных GPU-моделей.

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества