Нестандартное использование поиска по картинкам для распознавания текста

Так получилось, что под конец года приходится очень часто работать с электронными копиями документов. Хорошо, если его присылают в редактируемом формате, но к сожалению, это далеко не всегда так. Чаще всего это сканированная копия документа, а то и вовсе фото на смартфон.

Поделюсь сегодня как я использую сервис поиска по изображениям, предоставляемый Яндексом для оперативного распознания текста. Это очень удобно, быстро, бесплатно, всегда под рукой и самое главное качество распознавания на уровне хороших OCR систем. Так что студентам, офисным работникам мне кажется будет крайне полезно.

ВАЖНО! Я не знаю технических тонкостей работы сервиса и его особенностей хранения данных, поэтому не загружайте и не распознавайте документы, содержащие информацию ограниченного доступа - коммерческую тайну, персональные данные и прочее! Помните - все что однажды попало в интернет, остается там навсегда!

Итак, у меня есть два документа с просторов Интернета в формате jpg (фотография договора, сделанная судя по всему на смартфон) и в формате pdf (качественный текст). Процесс распознавания текста в обоих случаях будет идентичный. Но для pdf документа нам понадобится дополнительно его разобрать на картинки.

Нестандартное использование поиска по картинкам для распознавания текста Яндекс, Текстовый редактор, Редактирование, Распознавание, Ocr, Длиннопост

Заходим на сайт https://ya.ru/ и в поисковой строке жмем пиктограмму с изображением фотоаппарата.

С помощью открывшегося проводника выбираем изображение на котором есть текст, который требуется распознать. Подтверждаем открытие картинки. Получаем результат.

Нестандартное использование поиска по картинкам для распознавания текста Яндекс, Текстовый редактор, Редактирование, Распознавание, Ocr, Длиннопост

Имеем:
- поисковая строка с загруженным изображением
- предпросмотр самого изображения

- результаты поиска с сайтами где встречается похожее изображение

- справа поисковые хэштеги и самое главное поле с текстом на изображении.

Поздравляю страница распознана, текст можно скопировать в редактор и работать с ним дальше.
Дополнительные операции с документом в формате pdf

Загрузить документ целиком не получится. Нам надо взять pdf документ и разобрать его по отдельным страничкам. Тут вариантов множество:
- программы-конвертеры для вашей операционки

- графическим редакторы (например бесплатный GIMP)

- онлайн-сервисы (их множество, выбирайте на свой вкус и цвет).

Я покажу как разобрать документ с помощью онлайн-сервиса https://pdftoimage.com/ru/ , но повторюсь еще раз вы можете выбрать любой другой, наверняка шаги будут точно такие же.

Нестандартное использование поиска по картинкам для распознавания текста Яндекс, Текстовый редактор, Редактирование, Распознавание, Ocr, Длиннопост

Переходим в сервис и жмем кнопку "загрузить".

В проводнике выбираем необходимый pdf документ.

После загрузки файла, сервис автоматически начинает работу с ним.

После завершения разбиения файла, становится доступна кнопка "скачать все".

Жмем её, и скачиваем себе zip архив. Распаковываем его и находим в папке наш исходный pdf документ, который разделен на отдельные jpg картинки - одна страница = одна картинка.

Ну вот и все - возвращаемся на шаг распознавания текста и подгружаем по отдельности каждую страницу с текстом и распознаем.

Нестандартное использование поиска по картинкам для распознавания текста Яндекс, Текстовый редактор, Редактирование, Распознавание, Ocr, Длиннопост

Само собой качество распознавания в обоих вариантах будет очень сильно зависеть от качества исходного изображения, но в любом случае это очень удобно, так как не требует установки какого-либо стороннего программного обеспечения, бесплатно и быстро.

Всем спокойной работы и никаких дедлайнов!

Программы и Браузеры

469 постов5K подписчиков

Добавить пост

Правила сообщества

-Ставьте наши теги, если Ваш пост о программе, приложении или браузере(в том числе о расширениях, дополнениях в нему), его недоработке, баге, обновлении. Это может быть пост - обзор или отзыв.

-При возникновении споров относитесь с уважением друг к другу, а так же приводите аргументы.

Разрешено всё, что не запрещено правилами Пикабу.