Профиль AndreyButakov на Пикабу

1

TesseractOCR⁠⁠

11 месяцев назад

TesseractOCR — это движок оптического распознавания символов (OCR) с открытым исходным кодом. Он может быть полезен при распознавании документов, но требует значительных усилий для достижения приемлемого результата.

Основные недостатки:
- для качественного распознавания требуется тонкая настройка под каждый тип документа. Вам придется потратить много времени на подбор параметров.
- чтобы добиться высокой точности на специфических документах, нужно вручную разметить сотни, а лучше тысячи сканов и дообучить модель.
- не распознает рукописный текст.
- качество распознавания значительно падает, если в документе присутствует текст на нескольких языках.

В отличие от TesseractOCR, Vision LLM требуют минимальной настройки (температуры) для начала работы. Вам не нужно тратить время на дообучение.

Для сервиса Извлечение текста из изображений и PDF я добавил возможность использовать TesseractOCR. Можете проверить, какой вариант лучше подойдет для ваших задач (Vision LLM 🏆).

TesseractOCR можно использовать на слабом железе и в ситуациях, когда вам надо распознать несложный текст, или вы собираетесь распознавать свои очень специфичные документы.

Репозиторий гитхаб с простейшим примером использования TesseractOCR в Docker контейнере: https://github.com/Butakov-Andrey/ocr_example

Подробнее про реальное применение ИИ: https://t.me/optifyhub

Показать полностью 1

0

2

AndreyButakov

Проблема оцифровки текста⁠⁠

11 месяцев назад

Самый распространенный вариант оцифровки текста - OCR (оптическое распознавание символов), например, Tesseract, EasyOCR или PaddleOCR.
Это уже классическая и проверенная технология, которая используется во многих системах, но у которой есть и свои проблемы:
- плохо обрабатывает необычные шрифты, цветной и низкокачественный текст
- точность распознавания снижается при наличии нескольких языков в тексте
- для распознавания рукописного текста требуется дообучение моделей, что затратно по времени и ресурсам (самое трудное - это собрать качественные данные для дообучения)
В итоге получается, что для каждого узкого кейса надо заново подбирать модель, дообучать её и настраивать.

Но есть и альтернатива!
Vision LLM - это большие языковые модели, обученные работать и с текстом и с изображениями.
У них есть ряд преимуществ:
- распознают печатный и рукописный текст на разных языках
- не требуется дообучение
- отлично справляются с сложными (но небольшими) документами
Есть и недостатки:
- использование VLLM дороже (при использовании сторонних сервисов и на своем железе)
- чем больше текста, тем больше вероятность ошибки

Вы можете сами опробовать демо-версию:
1. Загрузите изображение или PDF-файл.
2. Нажмите кнопку "Распознать текст".
3. Скачайте результат в формате Word.
Всегда перепроверяйте ответ, не доверяйте ИИ! 😐

Подробнее про распознавание текста при помощи ИИ: https://t.me/optifyhub

Показать полностью 1

[моё] Искусственный интеллект Нейронные сети Распознавание Ocr Документы

0

14

AndreyButakov

Умные очки⁠⁠

11 месяцев назад

Одно из полезных и классных применений искусственного интеллекта:

HEARVIEW GLASSES (https://www.hearview.ai/) - с помощью ИИ эти очки преобразуют слова в текст с 95% точностью с минимальной задержкой.

Для кого?
В первую очередь - для глухих и слабослышащих, кому эта технология реально нужна.
Во вторую - для студентов, журналистов и всех, кому легче воспринимать информацию через текст.
Думаю, что туда легко можно прикрутить переводчик.

Живем в будущем...
Но скоро может исчезнуть возможность пообсуждать коллегу шёпотом 😁

Про лучшие ИИ инструменты: https://t.me/optifyhub

Показать полностью

Искусственный интеллект Будущее Слабослышащие Нейронные сети Инновации Очки Видео Вертикальное видео Telegram (ссылка)

7

4

AndreyButakov

Как ИИ оцифровывает таблицы: сканы, PDF и даже рисунки⁠⁠

11 месяцев назад

1/2

Тем, кто работал с документами, знакома ситуация: на почту присылают скан, фотку или PDF, где таблицу нужно вручную переносить в Excel. Это долго и утомительно.

Существующие на рынке продукты плохо работают с таблицами, русским языком или рукописным текстом. Поэтому я решил сделать своё решение 🤷‍♂️.

Как это работает?
- YOLO находит таблицы на изображении, даже если это фотография или скан.
- Vision LLM распознает структуру таблицы и текст.
На выходе вы получаем готовую таблицу в удобном формате: Excel, Word или Markdown.

Кому это полезно?
Подходит для тех, кто часто работает с таблицами в документах:
- оцифровка бумажных архивов
- распознавание таблиц в сканах
- перенос таблиц, нарисованных и заполненных вручную

Подробнее: https://t.me/optifyhub/121

Показать полностью 2

[моё] Искусственный интеллект Нейронные сети Автоматизация Бизнес Документооборот Распознавание

0

2

AndreyButakov

Генерация презентаций⁠⁠

11 месяцев назад

1/4

Пример генерации

GAMMA.APP ((ссылка реферальная) https://gamma.app/signup?r=h15nrq3hbyyzir3):
- кратко описываем идею презентации
- выбираем язык, размеры и количество слайдов
- выбираем стиль и дизайн
- получаем презентацию по вашей теме в любом удобном формате

Конечно, если это не абстрактная и общая тема, то придется доработать, но как черновик - отлично!

Необходима регистрация. У меня на старте 400 бесплатных кредитов (40 кредитов - 1 презентация на 8 слайдов) , кажется они не обновляются... Цена - 10$/месяц.

Как использовать ИИ: https://t.me/optifyhub

Показать полностью 4

[моё] Искусственный интеллект Нейронные сети Презентация Длиннопост

0

AndreyButakov

LearnLM - новая модель от Google для обучения⁠⁠

1 год назад

Google представил новую модель LearnLM, заточенную под образование.

Что умеет (доступно пока некоторым пользователям в USA):
1️⃣ В поиске Google можно будет упростить сложную тему одним нажатием кнопки (например, объяснить квантовую физику как для школьника).
2️⃣ Circle to Search на Android теперь решает задачи по математике и физике прямо с экрана телефона. Скоро добавят поддержку формул, диаграмм и графиков.
3️⃣ В YouTube появится ИИ-помощник, которому можно задавать вопросы прямо во время просмотра лекций.

👀 А самое интересное - два новых инструмента:
Illuminate:
- Берёт научную статью
- Превращает её в короткий аудио-подкаст
- Два ИИ-диктора обсуждают ключевые моменты
- Можно задавать уточняющие вопросы

Learn About:
- Подбирает материалы под ваш уровень или использует ваши
- Создаёт индивидуальный план обучения
- Отвечает на все вопросы, используя видео, картинки, сайты
- Проверяет ваше понимание и дает практические задания

Модель уже можно тестировать в Google AI Studio (https://aistudio.google.com/app/).

ИИ для любой задачи: https://t.me/optifyhub

Показать полностью 1

[моё] Искусственный интеллект Нейронные сети Образование Обучение

2

1

AndreyButakov

Раскрашиваем старые фото с ИИ⁠⁠

1 год назад

Пробуем фото самурая:

ОРИГИНАЛ

1/3

1. Neural Love (https://neural.love/photo-colorization)
2. Pallete Fm (https://palette.fm/color/filters)
3. Kolorize (https://kolorize.cc/app)

Везде нужна регистрация, везде есть водяные знаки.
Чтобы от них избавиться: https://t.me/optifyhub/42

Показать полностью 4

[моё] Искусственный интеллект Нейронные сети Реставрация фото Самурай Длиннопост

3

1

AndreyButakov

Статья в Nature про ИИ, поэзию и людей⁠⁠

1 год назад

Статья в Nature (https://www.nature.com/articles/s41598-024-76900-1) про ИИ, поэзию и людей.

Что интересного (и ожидаемого...):
Люди не могут отличить стихи, написанные искусственным интеллектом, от стихов известных поэтов. И тому же - большинство оценивает стихи от ИИ выше!

В исследовании приняли участие 1634 человека и точность распознавания составила 46,6% (т.е. наугад выбирать было бы эффективнее).
Если участникам сообщали, что автор стихотворения - человек, то этот стих сразу оценивали выше по всем параметрам (людишки...) ✅

Какие ИИ справляются с рифмой на русском языке:
1. Claude Sonnet 3.5 - Отлично!
2. Gemini Exp 1114 - Отлично!
3. ChatGPT 4o - бывают умные мысли, но с рифмой не всегда дружит.

Ищем реального автора: https://t.me/optifyhub

Показать полностью 1

[моё] Искусственный интеллект Нейронные сети Поэзия Стихи

0