OCR Тест Gemini, Claude и GPT 5.1 на рукописной математике
Продолжаю развивать нужное приложение для трекинга прогресса в решении задач по математике и физике. Идея в том, чтобы не просто ставить галочку «сделано», а считать время сессий, ловить «инсайты» (моменты озарения) и получать за это очки.
Но есть одна боль: вбивать формулы в телефон — это одна из причин почему это приложение не было сделано раньше. LaTeX на мобилке набирать практически невозможно, а обычный текст превращается в кашу. Поэтому я решил прикрутить фичу: сфоткал тетрадь — и приложение само перегнало рукописное решение в текст.
Чтобы выбрать, какая нейронка будет крутиться под капотом, я написал бенчмарк и устроил прожарку популярным моделям через OpenRouter. В видео выше — подробный разбор полетов, а ниже — краткая выжимка результатов (спойлер: дорого — не всегда лучше).
Условия задачи
Скормил нейросетям фотографию своего решения алгебраической задачи с корнями, степенями и сокращениями. Почерк у меня понятный вроде... так что нейросетям должно было быть легко.
Задача моделей:
Распознать условие.
Понять ход решения.
Перевести всё это в красивый Markdown.
Аутсайдеры
Сразу отсеялись несколько кандидатов:
OpenAPI GPT-5.1 CodexMax: Наделал кучу ошибок, не смог распознать корень 12-й степени из 128.
Claude Haiku 4.5: Чуть лучше, но приняла мою рукописную единицу за семерку. И степень корня неправильно распозналась. В математике это фатально.
Mistral Small 3.1: Вообще не поняла, что происходит на картинке. Забавно, что её "младшая" версия (Ministral 3B) справилась даже лучше - это мило, но все равно плохо.
Битва титанов и вопрос цены
В финал вышли модели от Google, и тут началось самое интересное — экономика.
Gemini 2.5 Pro Справилась хорошо. Распознала всё, включая разложение числа на степени двойки. Хотя и без особых пояснений (что могло косвенно следовать из промпта задания)
Плюс: Высокая точность, понимает логику.
Минус: Это «думающая» модель. Она долго обрабатывала запрос и сожрала 10 центов (~9-10 рублей) за одну фотку. Для частого использования в приложении — неоправданно дорого.
Gemini 3 Flash Preview А вот это — мой фаворит.
Точность: Почти идеальная. Она распознала каракули и даже дополнила некоторые моменты, где я сократил решение в уме, не расписывая это на бумаге.
Ум: Она не просто переписала текст, а объяснила, откуда взялся модуль числа (корень из квадрата) и почему при раскрытии модуля появился минус. Что я не стал расписывать т.к. это очевидно.
Цена: И самое приятное — запрос стоил 0.4 цента (~40 копеек).
Итог
Разница в цене колоссальная: 10 рублей против 40 копеек при сопоставимом (а местами и лучшем) качестве. Flash Preview работает на "автомате" и ассоциациях, не уходя в глубокие раздумья, но для разбора рукописного текста этого оказалось достаточно.
Пока остановился на ней. Если у вас есть опыт с другими моделями для OCR рукописного текста (особенно формул) — делитесь в комментах, интересно потестить что-то еще.

Лига Новых Технологий
1.9K поста16.9K подписчика
Правила сообщества
Главное правило, это вести себя как цивилизованный человек!
Но теперь есть еще дополнительные правила!
1. Нельзя раскручивать свой сайт, любую другую соц сеть или мессенджер, указывая их как источник. Если данная разработка принадлежит вам, тогда можно.
2. Нельзя изменять заглавие или текст поста, как указано в источнике, таким образом чтобы разжигать конфликт.
3. Постите, пожалуйста, полный текст с источника, а не превью и ссылка.