2130

Пост удалён1

Пост удалён
Вы смотрите срез комментариев. Показать все
1
Автор поста оценил этот комментарий

Не думаю, что это вообще возможно. Банально потому, что ценники в разных магазинах разные.

Под один конкретный магазин ещё поверил бы в возможность автоматического распознавания, и то работающего до первой смены формата ценника, а универсальный - это задача уровня топовых компаний, а не одного разработчика на коленке.

раскрыть ветку (29)
0
Автор поста оценил этот комментарий
Для тебя это станет неимоверным открытием, но в бот можно затолкать больше одной модели. Просто сгруппировать данные для обучения по форматам (магазинам) и обучить по одной модели для каждой группы. При распознавании запускать несколько моделей (параллельно или последовательно - тут уж сколько ресурсов есть) и читать вывод с каждой из них - есть там ценник определенного формата или нет. На таком принципе, например, построена гугловая библиотечка для распознавания штрих-кодов (одна либа может распознать сразу множество различных форматов кодов).

Да и в целом, не обязательно же учить либу именно форматам чеков по картинке. С картинки легко можно выцепить весь текст (бесплатных реализаций пруд пруди), а дальше уже необходимо тупо распарсить текст (тут и нейронка не нужна, хотя с ней, конечно, быстрее будет обучить большому количеству форматов)
раскрыть ветку (28)
Автор поста оценил этот комментарий

И это сломается как только попытаются отсканировать ценник с не предусмотренным заранее форматом. Новый магазин откроется, или банально формат ценника в условной пятерочки поменяется - и всё.

Текст выдернуть не получится, поскольку важно также его взаимное расположение.


И это я ещё не начал говорить про мир удивительных открытий, которые ожидают автора при попытке сравнить, скажем, "яйца, C1, дес", "яйца, 1 дюж" и "яйца, 30 шт, C1".

раскрыть ветку (27)
1
Автор поста оценил этот комментарий
Обожаю теоретиков
раскрыть ветку (5)
Автор поста оценил этот комментарий

Тут такое дело... [см приложенное фото]


Если уж очень хочется распознавание, то я бы рекомендовал подумать в сторону отдельного приложения, где на картинке с камеры пользователь будет пальцем тыкать, где на ней цена, а где - количество (вес, объём), а там уже в заданном месте пытаться распознавать. Заодно будет защита от совсем плохих фото - если нет чётко читаемой области с ценой, то и тыкнуть пользователь на неё не сможет.

Иллюстрация к комментарию
раскрыть ветку (4)
1
Автор поста оценил этот комментарий
Представь, что есть модель, обученная на сотнях ценников, к которой обращается бот. Бот получает данные с ценника и уже просто считает на калькуляторе.
раскрыть ветку (3)
Автор поста оценил этот комментарий

Ты так ничего и не понял. Сделать бота - это задача на час, из которого три четверти уйдёт на то, чтобы разобраться с апи телеграма. А вот спроектировать и обучить сеть, которая будет давать сколько-нибудь пригодные результаты на произвольном ценнике, а не на конкретном формате конкретной торговой сети - это задача уровня тех, решением которых занимаются топовые коллективы вроде гугла.

Для тебя нейросеть что, какой-то волшебный чёрный ящик, которому достаточно скормить произвольные данные, а дальше он сам всему научится?


"Сотни ценников" особенно умиляют. На хотя бы десять разных форматов ценников это, получается, по несколько десятков ценников на формат? И на этом ты собрался обучить что-то, что будет реально работать?

раскрыть ветку (2)
1
Автор поста оценил этот комментарий
Продолжай махать кулаками, человек с дипломом.
Я как пост с ботом сделаю, зайди, отметься, порадуйся может.
раскрыть ветку (1)
Автор поста оценил этот комментарий

Ну успехов, что ещё сказать. Безумству храбрых - гробы со скидкой.

Вот тебе ценник в подборку.

Иллюстрация к комментарию
0
Автор поста оценил этот комментарий
И каким же образом, позволь узнать, изменение разметки текста может помешать распознаванию этого самого текста в картинке? Компьютерное зрение - это не только про нейронку, которая способна распознать образ символа. В первую очередь это про обнаружение областей на картинке, в которых присутствует текст. Задачу эту впервые успешно начали решать еще в прошлом веке, и решение даже не требовало каких-либо сложных (с точки зрения логики, не вычислительной сложности) алгоритмов.

Так что поинт твой - просто пук в лужу. Слейся и не позорься дальше
раскрыть ветку (20)
Автор поста оценил этот комментарий

Ты упорот там? Текст сейчас распознать может множество приложений. Проблема не в том, чтобы распознать, а в том, чтобы понять, где на ценнике цена (и какая из нескольких цен актуальная!), и где количество (вес, объем).

раскрыть ветку (19)
0
Автор поста оценил этот комментарий
Распарить текст - вообще задача для второкурсника. Обычной регулярной можно обойтись, дурачок
раскрыть ветку (18)
Автор поста оценил этот комментарий

Ну вперёд, распарси один и тем же методом "яйца, дес, 1 кат", "яйца, 1 кат, 30 шт" и "яйца, 1 дюж", угашеный ты об дерево.


Это человек по контексту знает, что "дес", "30 шт" и "1 уп" - это про количество, а "1 кат", "30% жирн" и "-40%" - нет. У бота контекста нет, все правила в него руками забить надо.

раскрыть ветку (17)
0
Автор поста оценил этот комментарий
Для дурачка объясню: это делается на изян, парой регулярок. На тот редкий случай, когда формат слегка изменится (за который ты так отчаянно цепляешься и утверждаешь, что он мешает реализации всего продукта в целом) и регулярка уже не сможет распознать текст - можно банально завести лог/алерт на бэке, чтобы потом вручную добавить новую регулярку. Это супер редкий кейс и очень быстро фиксится
раскрыть ветку (16)
Автор поста оценил этот комментарий

А email ты там случайно регуляркой валидировать не пытаешься? Или html парсить?


Я тебе под любой набор регулярок легко найду в магазинах вокруг дома ценник, который распарсится некорректно. И это будет происходить примерно постоянно.

Ты можешь сделать решение только под конкретные магазины, но не решить задачу в общем виде

раскрыть ветку (15)
Автор поста оценил этот комментарий

Вот сейчас в магазин зашёл, четыре соседних ценника на напитки - "0.45л", "450мл", "330м", "0.5" (без указания размерности). А в случае другого товара то же "0.5" может быть частью названия, а не объемом... Вот хотя бы мороженое "48 копеек" взять - это ведь вовсе не цена, а название такое!

Оно, конечно, под конкретный кейс регулярка легко пишется, но не зная об этом заранее ты такое не предскажешь. И таких непредсказуемых кейсов - вагон и маленькая тележка в одной только торговой сети. А в других - свои кейсы.

раскрыть ветку (8)
1
Автор поста оценил этот комментарий
Давай серьёзно - вытащить объём с фото, особенно если есть какие то буквы после - вообще проблем нет. Без букв это следующая задача.
Яндекс Vision справляется на ура.
Проблема в цене, иногда она не помечается ни символом, ни словом, даже «цена» не написано.
Для этого мы делаем простую модель (воистину простую), учим где обычно находится цена.
Я на всякий случай использую три метки, лишним не будет - price, weight, millilitre.
Пока нормально. После останется решить беду с ценой - иногда она, скажем 159, иногда 159 00, иногда 159 99 и всё без разделителей. Но и это решится. При должном терпении всё возможно.
раскрыть ветку (7)
Автор поста оценил этот комментарий

Ты меня заебал, нытик. Продолжай верить, что все вполне решаемые инженерные задачи (от банального парсинга email до компьютерного зрения) - это "куча подводных камней" и "в целом не решаемы". Не зря тебя назвали теоретиком - ты, очевидно, нихуяшеньки не способен решать задачи сложнее шаблонных. И пока ты пиздишь в интернетах - ТС берет и делает. Вот просто так. И похуй на частные случаи неработоспособности. Рано или поздно и с ними справится. ТС красавчик. А ты - вонючка, дурачок и нытик

раскрыть ветку (5)
Автор поста оценил этот комментарий

Emali не валидируется регулярками, это азы. Так же как ими не парсятся html или xml. Именно поэтому я их и упомянул.

Единственно верная регулярка для email - это

.+@.*

При необходимости настоящей валидации email она делается только через попытку отправить письмо.

Иллюстрация к комментарию
раскрыть ветку (4)
Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества