Не думаю, что это вообще возможно. Банально потому, что ценники в разных магазинах разные.
Под один конкретный магазин ещё поверил бы в возможность автоматического распознавания, и то работающего до первой смены формата ценника, а универсальный - это задача уровня топовых компаний, а не одного разработчика на коленке.
Да и в целом, не обязательно же учить либу именно форматам чеков по картинке. С картинки легко можно выцепить весь текст (бесплатных реализаций пруд пруди), а дальше уже необходимо тупо распарсить текст (тут и нейронка не нужна, хотя с ней, конечно, быстрее будет обучить большому количеству форматов)
И это сломается как только попытаются отсканировать ценник с не предусмотренным заранее форматом. Новый магазин откроется, или банально формат ценника в условной пятерочки поменяется - и всё.
Текст выдернуть не получится, поскольку важно также его взаимное расположение.
И это я ещё не начал говорить про мир удивительных открытий, которые ожидают автора при попытке сравнить, скажем, "яйца, C1, дес", "яйца, 1 дюж" и "яйца, 30 шт, C1".
Тут такое дело... [см приложенное фото]
Если уж очень хочется распознавание, то я бы рекомендовал подумать в сторону отдельного приложения, где на картинке с камеры пользователь будет пальцем тыкать, где на ней цена, а где - количество (вес, объём), а там уже в заданном месте пытаться распознавать. Заодно будет защита от совсем плохих фото - если нет чётко читаемой области с ценой, то и тыкнуть пользователь на неё не сможет.
Ты так ничего и не понял. Сделать бота - это задача на час, из которого три четверти уйдёт на то, чтобы разобраться с апи телеграма. А вот спроектировать и обучить сеть, которая будет давать сколько-нибудь пригодные результаты на произвольном ценнике, а не на конкретном формате конкретной торговой сети - это задача уровня тех, решением которых занимаются топовые коллективы вроде гугла.
Для тебя нейросеть что, какой-то волшебный чёрный ящик, которому достаточно скормить произвольные данные, а дальше он сам всему научится?
"Сотни ценников" особенно умиляют. На хотя бы десять разных форматов ценников это, получается, по несколько десятков ценников на формат? И на этом ты собрался обучить что-то, что будет реально работать?
Я как пост с ботом сделаю, зайди, отметься, порадуйся может.
Так что поинт твой - просто пук в лужу. Слейся и не позорься дальше
Ты упорот там? Текст сейчас распознать может множество приложений. Проблема не в том, чтобы распознать, а в том, чтобы понять, где на ценнике цена (и какая из нескольких цен актуальная!), и где количество (вес, объем).
Ну вперёд, распарси один и тем же методом "яйца, дес, 1 кат", "яйца, 1 кат, 30 шт" и "яйца, 1 дюж", угашеный ты об дерево.
Это человек по контексту знает, что "дес", "30 шт" и "1 уп" - это про количество, а "1 кат", "30% жирн" и "-40%" - нет. У бота контекста нет, все правила в него руками забить надо.
А email ты там случайно регуляркой валидировать не пытаешься? Или html парсить?
Я тебе под любой набор регулярок легко найду в магазинах вокруг дома ценник, который распарсится некорректно. И это будет происходить примерно постоянно.
Ты можешь сделать решение только под конкретные магазины, но не решить задачу в общем виде
Вот сейчас в магазин зашёл, четыре соседних ценника на напитки - "0.45л", "450мл", "330м", "0.5" (без указания размерности). А в случае другого товара то же "0.5" может быть частью названия, а не объемом... Вот хотя бы мороженое "48 копеек" взять - это ведь вовсе не цена, а название такое!
Оно, конечно, под конкретный кейс регулярка легко пишется, но не зная об этом заранее ты такое не предскажешь. И таких непредсказуемых кейсов - вагон и маленькая тележка в одной только торговой сети. А в других - свои кейсы.
Яндекс Vision справляется на ура.
Проблема в цене, иногда она не помечается ни символом, ни словом, даже «цена» не написано.
Для этого мы делаем простую модель (воистину простую), учим где обычно находится цена.
Я на всякий случай использую три метки, лишним не будет - price, weight, millilitre.
Пока нормально. После останется решить беду с ценой - иногда она, скажем 159, иногда 159 00, иногда 159 99 и всё без разделителей. Но и это решится. При должном терпении всё возможно.
Ты меня заебал, нытик. Продолжай верить, что все вполне решаемые инженерные задачи (от банального парсинга email до компьютерного зрения) - это "куча подводных камней" и "в целом не решаемы". Не зря тебя назвали теоретиком - ты, очевидно, нихуяшеньки не способен решать задачи сложнее шаблонных. И пока ты пиздишь в интернетах - ТС берет и делает. Вот просто так. И похуй на частные случаи неработоспособности. Рано или поздно и с ними справится. ТС красавчик. А ты - вонючка, дурачок и нытик
Emali не валидируется регулярками, это азы. Так же как ими не парсятся html или xml. Именно поэтому я их и упомянул.
Единственно верная регулярка для email - это
.+@.*
При необходимости настоящей валидации email она делается только через попытку отправить письмо.



















