Экономика

Пост удалён⁠⁠1

2 года назад

324

1 пост-ответ

от Nick903

Смотреть

Вы смотрите срез комментариев. Показать все

Zivres

2 года назад

Не думаю, что это вообще возможно. Банально потому, что ценники в разных магазинах разные.

Под один конкретный магазин ещё поверил бы в возможность автоматического распознавания, и то работающего до первой смены формата ценника, а универсальный - это задача уровня топовых компаний, а не одного разработчика на коленке.

раскрыть ветку (29)

TelleQuelle

2 года назад

Для тебя это станет неимоверным открытием, но в бот можно затолкать больше одной модели. Просто сгруппировать данные для обучения по форматам (магазинам) и обучить по одной модели для каждой группы. При распознавании запускать несколько моделей (параллельно или последовательно - тут уж сколько ресурсов есть) и читать вывод с каждой из них - есть там ценник определенного формата или нет. На таком принципе, например, построена гугловая библиотечка для распознавания штрих-кодов (одна либа может распознать сразу множество различных форматов кодов).

Да и в целом, не обязательно же учить либу именно форматам чеков по картинке. С картинки легко можно выцепить весь текст (бесплатных реализаций пруд пруди), а дальше уже необходимо тупо распарсить текст (тут и нейронка не нужна, хотя с ней, конечно, быстрее будет обучить большому количеству форматов)

раскрыть ветку (28)

Zivres

2 года назад

И это сломается как только попытаются отсканировать ценник с не предусмотренным заранее форматом. Новый магазин откроется, или банально формат ценника в условной пятерочки поменяется - и всё.

Текст выдернуть не получится, поскольку важно также его взаимное расположение.

И это я ещё не начал говорить про мир удивительных открытий, которые ожидают автора при попытке сравнить, скажем, "яйца, C1, дес", "яйца, 1 дюж" и "яйца, 30 шт, C1".

раскрыть ветку (27)

zfbubusik

2 года назад

Обожаю теоретиков

раскрыть ветку (5)

Zivres

2 года назад

Тут такое дело... [см приложенное фото]

Если уж очень хочется распознавание, то я бы рекомендовал подумать в сторону отдельного приложения, где на картинке с камеры пользователь будет пальцем тыкать, где на ней цена, а где - количество (вес, объём), а там уже в заданном месте пытаться распознавать. Заодно будет защита от совсем плохих фото - если нет чётко читаемой области с ценой, то и тыкнуть пользователь на неё не сможет.

раскрыть ветку (4)

zfbubusik

2 года назад

Представь, что есть модель, обученная на сотнях ценников, к которой обращается бот. Бот получает данные с ценника и уже просто считает на калькуляторе.

раскрыть ветку (3)

Zivres

2 года назад

Ты так ничего и не понял. Сделать бота - это задача на час, из которого три четверти уйдёт на то, чтобы разобраться с апи телеграма. А вот спроектировать и обучить сеть, которая будет давать сколько-нибудь пригодные результаты на произвольном ценнике, а не на конкретном формате конкретной торговой сети - это задача уровня тех, решением которых занимаются топовые коллективы вроде гугла.

Для тебя нейросеть что, какой-то волшебный чёрный ящик, которому достаточно скормить произвольные данные, а дальше он сам всему научится?

"Сотни ценников" особенно умиляют. На хотя бы десять разных форматов ценников это, получается, по несколько десятков ценников на формат? И на этом ты собрался обучить что-то, что будет реально работать?

раскрыть ветку (2)

zfbubusik

2 года назад

Продолжай махать кулаками, человек с дипломом.
Я как пост с ботом сделаю, зайди, отметься, порадуйся может.

раскрыть ветку (1)

Zivres

2 года назад

Ну успехов, что ещё сказать. Безумству храбрых - гробы со скидкой.

Вот тебе ценник в подборку.

TelleQuelle

2 года назад

И каким же образом, позволь узнать, изменение разметки текста может помешать распознаванию этого самого текста в картинке? Компьютерное зрение - это не только про нейронку, которая способна распознать образ символа. В первую очередь это про обнаружение областей на картинке, в которых присутствует текст. Задачу эту впервые успешно начали решать еще в прошлом веке, и решение даже не требовало каких-либо сложных (с точки зрения логики, не вычислительной сложности) алгоритмов.

Так что поинт твой - просто пук в лужу. Слейся и не позорься дальше

раскрыть ветку (20)

Zivres

2 года назад

Ты упорот там? Текст сейчас распознать может множество приложений. Проблема не в том, чтобы распознать, а в том, чтобы понять, где на ценнике цена (и какая из нескольких цен актуальная!), и где количество (вес, объем).

раскрыть ветку (19)

TelleQuelle

2 года назад

Распарить текст - вообще задача для второкурсника. Обычной регулярной можно обойтись, дурачок

раскрыть ветку (18)

Zivres

2 года назад

Ну вперёд, распарси один и тем же методом "яйца, дес, 1 кат", "яйца, 1 кат, 30 шт" и "яйца, 1 дюж", угашеный ты об дерево.

Это человек по контексту знает, что "дес", "30 шт" и "1 уп" - это про количество, а "1 кат", "30% жирн" и "-40%" - нет. У бота контекста нет, все правила в него руками забить надо.

раскрыть ветку (17)

TelleQuelle

2 года назад

Для дурачка объясню: это делается на изян, парой регулярок. На тот редкий случай, когда формат слегка изменится (за который ты так отчаянно цепляешься и утверждаешь, что он мешает реализации всего продукта в целом) и регулярка уже не сможет распознать текст - можно банально завести лог/алерт на бэке, чтобы потом вручную добавить новую регулярку. Это супер редкий кейс и очень быстро фиксится

раскрыть ветку (16)

Zivres

2 года назад

А email ты там случайно регуляркой валидировать не пытаешься? Или html парсить?

Я тебе под любой набор регулярок легко найду в магазинах вокруг дома ценник, который распарсится некорректно. И это будет происходить примерно постоянно.

Ты можешь сделать решение только под конкретные магазины, но не решить задачу в общем виде

раскрыть ветку (15)

Zivres

2 года назад

Вот сейчас в магазин зашёл, четыре соседних ценника на напитки - "0.45л", "450мл", "330м", "0.5" (без указания размерности). А в случае другого товара то же "0.5" может быть частью названия, а не объемом... Вот хотя бы мороженое "48 копеек" взять - это ведь вовсе не цена, а название такое!

Оно, конечно, под конкретный кейс регулярка легко пишется, но не зная об этом заранее ты такое не предскажешь. И таких непредсказуемых кейсов - вагон и маленькая тележка в одной только торговой сети. А в других - свои кейсы.

раскрыть ветку (8)

zfbubusik

2 года назад

Давай серьёзно - вытащить объём с фото, особенно если есть какие то буквы после - вообще проблем нет. Без букв это следующая задача.
Яндекс Vision справляется на ура.
Проблема в цене, иногда она не помечается ни символом, ни словом, даже «цена» не написано.
Для этого мы делаем простую модель (воистину простую), учим где обычно находится цена.
Я на всякий случай использую три метки, лишним не будет - price, weight, millilitre.
Пока нормально. После останется решить беду с ценой - иногда она, скажем 159, иногда 159 00, иногда 159 99 и всё без разделителей. Но и это решится. При должном терпении всё возможно.

раскрыть ветку (7)

Zivres

2 года назад

Проблема не в том, чтобы вытащить информацию с фото. Проблема в том, чтобы понять, какая информация на фото - нужная, и в каком формате она записана.

Вот все перечисленные выше ценники, тебе для выборки.

Санкт-Петербург, перекресток, снято сегодня

раскрыть ветку (6)

zfbubusik

2 года назад

Так я потому и пришёл на Пикабу за ценниками - я думал люди как накидают разных разнообразных изо всех уголков страны, дело проще пойдёт.
Но увы. Хорошо человек скинул два гига ценников, есть с чем поработать, понять, как идёт, куда двигаться дальше.

раскрыть ветку (3)

Zivres

2 года назад

Так об этом я тебе с самого начала и талдычу - нужная информация записана на ценнике по-разному и в разных местах даже в пределах одного и того же магазина. Что уж говорить о разных торговых сетях или маленьких магазинчиках у дома, где в каждом магазинчике свой формат ценника.

Ограничится ты поддержкой ценников условной пятёрочки, причём без обещаний работоспособности в случае смены формата ценника - я бы поверил. Но ты заявляешь о работоспособности на любых ценниках. В возможность сделать подобное одним любителем на коленке - не верю.

раскрыть ветку (2)

zfbubusik

2 года назад

Так я и не убеждаю. Я сказал сделаю, ты не поверил, на этом можно разойтись. Зачем ты продолжаешь убеждать меня (или себя?) что у меня не получится - я не знаю.

раскрыть ветку (1)

Zivres

2 года назад

Да я вообще с другим человеком общался, адептом регулярок, когда ты пришёл.

Я в окей ещё зашёл, решил заодно сфотографировать тебе ещё несколько ценников. Тут в принципе всё гораздо лучше читается, чем в перекрестке, разве что "g" для грамм в одном месте смутило. Но наткнулся на такое, где твои (и чьи либо ещё) полномочия всё - ценники вообще без указания объема/массы. Я постарался добавить их последними, но черт знает, как пикабу вложения отсортирует.

zfbubusik

2 года назад

Вишня кола
2023-11-26 00:33:08,982 - __main__ - INFO - Extracted weight: 450.0g/ml
shahdag - второй не нашёл.
2023-11-26 00:35:42,617 - __main__ - INFO - Extracted weight: 330.0g/ml
Легенда гор (не воспринял 0 перед, нужна корректировка на такой случай) второй ценник не увидел, да.
2023-11-26 00:36:50,559 - __main__ - INFO - Extracted weight: 75.0g/ml
Байкал то же самое
2023-11-26 00:38:10,788 - __main__ - INFO - Extracted weight: 45.0g/ml
Нужно просто время, ценники и терпение, терпение и ещё раз терпение) Я как раз никуда не тороплюсь

Zivres

2 года назад

Вот ещё ценники на туалетную бумагу: "4 рулона", "4 р" и "4 рул". Соседние полки. Тот же перекресток, тоже сегодня.

TelleQuelle

2 года назад

Ты меня заебал, нытик. Продолжай верить, что все вполне решаемые инженерные задачи (от банального парсинга email до компьютерного зрения) - это "куча подводных камней" и "в целом не решаемы". Не зря тебя назвали теоретиком - ты, очевидно, нихуяшеньки не способен решать задачи сложнее шаблонных. И пока ты пиздишь в интернетах - ТС берет и делает. Вот просто так. И похуй на частные случаи неработоспособности. Рано или поздно и с ними справится. ТС красавчик. А ты - вонючка, дурачок и нытик

раскрыть ветку (5)

Zivres

2 года назад

Emali не валидируется регулярками, это азы. Так же как ими не парсятся html или xml. Именно поэтому я их и упомянул.

Единственно верная регулярка для email - это

.+@.*

При необходимости настоящей валидации email она делается только через попытку отправить письмо.

раскрыть ветку (4)

TelleQuelle

2 года назад

> При необходимости настоящей валидации email она делается только через попытку отправить письмо

Ой дурааак...

раскрыть ветку (3)

Zivres

2 года назад

На, почитай, что умные люди пишут, и не позорься: https://habr.com/ru/articles/274985/, https://habr.com/ru/articles/320572/

Но лично ты, конечно, можешь использовать вот эту регулярку, и надеяться, что в ней нет багов: https://pdw.ex-parrot.com/Mail-RFC822-Address.html

раскрыть ветку (2)

TelleQuelle

2 года назад

Лично я не буду себе ебать мозги беспрекословным следованием RFC, тем более что абсолютно никто на свете этим не занимается: банально крупнейшние провайдеры электронной почты устанавливают более строгие ограничения, чем RFC, чтобы при валидации можно было обойтись элементарной регуляркой, которую писать 5 минут, а не конечным автоматом, на реализацию которого уйдет пара часов или даже дней.

А тебе успехов использовать "попытку отправить электронное письмо", например, при создании нового почтового ящика, дурачок

раскрыть ветку (1)

Zivres

2 года назад

Оно и видно, что мозги ты себе вообще не напрягаешь. Я-то думал, что ты меня к MX-записям пошлёшь, а я парирую, что их может не быть - а ты такой скучный оказался...

чтобы при валидации можно было обойтись элементарной регуляркой, которую писать 5 минут

.+@.*

Остальное от лукавого. Усложняя её, ты только хуже сделаешь. Не надо пытаться по-настоящему валидировать email регулярками, просто не надо.

А тебе успехов использовать "попытку отправить электронное письмо", например, при создании нового почтового ящика

При создании нового почтового ящика у тебя совсем простая задача валидации, имеющая мало общего с валидацией в приложении, где пользователь может ввести произвольный адрес - набор допустимых значений после @ у тебя жёстко прошит, а перед @ по тому же RFC может идти практически что угодно, лишь бы почтовый сервер, то есть ты сам, смог это проинтерпретировать.

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества