Из банкира в тыжпрограммисты ч2 (про парсинг)
Хай ребята, часть вторая моего повествования. Поскольку всю жизнь у меня с последовательностью изложения были проблемы, поэтому сорян сегодня напишу малость про парсинг ибо весь день сегодня с ним колбасился, и сейчас под 69eyes пилю этот пост, так сказать по свежим следам. если так неудобно читать чирканите в комментах, буду себя бить и писать последовательно. ну понеслась, hell yeah! так то.
Если че, я похож)
Поведаю вам товарищи, чем я сегодня занимался. Значит одним из направлений нашей клевой деятельности является парсинг сайтов(как мне сказали местные старейшины вырос он из потребности одного клиента который не мог дать нам данные для своего приложения, пришлось его спарсить, жестко спарсить, прям по самые теги)
Для тех кто не хочет гуглить что за хрень этот парсинг - это грубо говоря, бульдозер который забирает данные.
Итак у нас есть задача спарсить некоторые сайты для заказчика (кому интересно чего мы добились дам ссылку на нашу статистику в комментах, пишите, кому интересно, ибо мы как сын маминой подруги, рекламировать не хочу, ибо цель не в этом, в том чтобы поделится своей скучной жизнью) и мы приступаем, в целом парсить не очень сложно, наши гуру парсинга в целом тратят от часа до дня для настройки парсера и потом еще месяц два для ловли багов( шучу, но баги бывают) самое сложное что мы делаем, это создание связок по товарам.
Про это подробней, мы не просто парсим сайты, мы даем заказчику базовую аналитику по сопоставлению цен на разных сайтах (самое классное что мы действуем в рамках закона, ибо это открытая информация), что помогает выстраивать ценовую политику и анализировать ассортимент. Эта задача на мой взгляд самая жесть, так как не применима для многих товаров, например одежда, есть у нас свитер - даже зная бренд, хрен его пойми че за свитер у другой компании, это вроде товары субституты, но блин никто же не будет сравнивать свитер бершки со свитером дискваред или ком де гарсон (ну кроме цены).
А вот например со стройтоварами легче - Ротбанд он и в Южной африканской республике ротбанд, его легко сравнивать, или например мобилки - айфон Х, серый космос он везде серый космос, чё.
и если расписать как у нас обстоят дела, поступает заказ (ну конечно продажники, как обычно да все сделаем, че сам таким был) спарсить 10 сайтов конкурентов, сделать связки чтоб мы видели где, что, почем, а если остатки дадите что совсем огонь. Ну я поматерюсь про себя и пойду ставить задачи и готовить график подключения и проверки. И вот мать его всегда какой нибудь один сайт будет через одно место грузится в базу, так как то верстка кривая, то в одной карточке товара сразу куча предложений (например корм для собакенов, которых я очень люблю кстати, по кг, 6 гк, итд епт) и сиди пили под каждый сайт.
Иногда по истечение пары недель возникает такая фигня:
но че задача стоит, надо делать, развиваться, делать все для клиента, ибо это круто когда ты взял и сделал что хотел и что самое ваще главное в рыночных отношениях - это то что просил клиент!
Короче так, берем сайт, пишем данные в базу, фигачим связки, проверяем все, правим, отдаем клиенту. Моя мечта - это сделать суперультрамеганейросеть, которая сама будет разбираться в сайтах и парсить их по команде, но пока мои знания питона ограничиваются сделать рекурсивную пирамидку из символов ascii, чувствую я себя как этот чувак из Кунг Фьюри
Я конечно учусь, но учитывая, что дофига времени уходит на общение с любимыми клиентами и любимой командой, прогресс идет медленно, но я научусь и построю свой парсер с блэкджеком и ...
Всем бобра, стэй тьюнд. я скоро вернусь. Кому интересны тех подробности, пишите, буду пытать техдира, с паяльником, все как вы любите, чтобы он мне секреты поведал, А я вам их сразу расскажу)