Мы решили задачу омографов и ударений в русском языке
Мы опубликовали библиотеку silero-stress для расстановки ударений в обычных словах и омографах:
1️⃣ Расставляет ударения, решает омографы, ставит букву ё;
2️⃣ "Знает" порядка 4М русских слов и словоформ и порядка 2K омографов;
3️⃣ Простановка ударения в обычном 1 слове занимает где-то 0.5 ms, а в предложении на 400 символов с 2 омографами - порядка 30 ms;
4️⃣ Общий размер библиотеки составляет порядка 50 мегабайт (архив весит порядка 30 мегабайт), что является сжатием словарей и всех датасетов примерно в 400 раз;
5️⃣ Опубликована под популярной и простой лицензией (MIT);
6️⃣ Не содержит раздутого кода, лишних библиотек, гигабайтов академических артефактов;
7️⃣ Зависит только от стандартной библиотеки питона и работает на всех последних версиях PyTorch.
Ставим ⬆️ habr.com/ru/articles/955130/

Лига программистов
2K поста11.9K подписчиков
Правила сообщества
- Будьте взаимовежливы, аргументируйте критику
- Приветствуются любые посты по тематике программирования
- Если ваш пост содержит ссылки на внешние ресурсы - он должен быть самодостаточным. Вариации на тему "далее читайте в моей телеге" будут удаляться из сообщества