Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Регистрируясь, я даю согласие на обработку данных и условия почтовых рассылок.
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Вы владелец небоскреба! Стройте этажи, управляйте магазинами и работниками!

Небоскреб Мечты

Казуальные, Симуляторы, 2D

Играть

Топ прошлой недели

  • solenakrivetka solenakrivetka 7 постов
  • Animalrescueed Animalrescueed 53 поста
  • ia.panorama ia.panorama 12 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая «Подписаться», я даю согласие на обработку данных и условия почтовых рассылок.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
0 просмотренных постов скрыто
alexmarned

Парсинг, регулярки и xpath⁠⁠

4 года назад

Делаю много парсинга,  и познакомился с несколькими командами (уровнем много выше меня ), занимающиеся таким же парсингом, тех же самых сайтов, что и я занимаюсь.


И я их спрашиваю, а какие технологии используете? Отвечают - регулярки и xpath. Я немного парсинга делаю тоже так же, только это такая мизерная часть от общего объёма, что можно не учитывать.


Спрашивал, а почему так, почему не использовать нормальную библиотеку? Ну так у них принято на проекте, они действительно так делают, показывали код, там парсеры написаны через регулярки.


То что у меня занимает две строки, у них код на 25 - 30 строк.  Почему так сложно - а так принято на проекте. Могут ли они применить хоть какую то библиотеку ? нет, не могут, таковы утверждённые требования.


Общался с опытными разработчиками, спрашивал что это может значить. У них предположение, что это или ну очень высокого уровня разработчики (и тогда я не  понимаю, зачем я им) или запутывают код с заделом на будущее, что бы никто кроме их  больше  не мог разобраться.


Переписать этот код под библиотеку даже моим уровнем это неделя работы, что у них в действительности  происходит  на проектах, зачем так сложно действовать я  не понял.

Показать полностью
[моё] Программирование Бизнес Парсер Текст
8
10
1vladimir
1vladimir
Лига программистов

Я знаю, чего я хочу! Ну так, приблизительно... Какие есть книги, сайты по программированию и автоматизации действий⁠⁠

4 года назад

Привет, пикабушникам-волшебникам! Умеющим делать из непонятных буковок чудеса!


Обычно я не знаю чего хочу, и  закончив универ, поработав работу, до сих пор не знаю кем вырасту, когда стану) Ну то есть как у большинства знакомых мне людей...

Но в данный момент снизошло озарение и возникла конкретная и понятная потребность — автоматизация действий. Голоса в голове и за ее пределами подсказывают, что без красноглазия никак. Вот решил потихоньку пока начать собирать информацию. Короче говоря, помогите люди добрые кто чем может:)


Вопрос вот в чем.

Хочу, скажем, автоматизировать процессы на разных сайтах... А то я задолбался одно и то же по сто раз нажимать... Но для большего понимания, всегда нужна конкретика.

Пример, есть биржа Вебмани https://exchanger.money/cards/home



Там, чтобы разместить заявку нажать 100 кнопок, которые можно бы и не нажимать (что-то типа "разместить заявку, а потом "вы уверены, что хотите разместить заявку". А если кто-то перебьет твой курс, то свои значения редактировать надо. Если надо отойти, то заявку надо снимать (а то человек возьмет и будет тебя ждать), а потом размещать... Вы, наверно это читать устали, а эти все изменения надо ручками вносить...

О, а еще, хочу научиться парсеры писать — чтобы нужную инфу с сайтов извлекать. На уже приведенной бирже нет нормально фильтра собственных заявок. Может включить фильтрацию либо по сумме, либо по времени, либо по курсу. либо по валюте. Но вместе  никак, то есть даже не посмотреть, какие заявки у тебя есть. Для этого постоянно надо нажимать "следющая страница". Вот как бы свои заявки в эксель перенести и отсортировать.


В связи с изложенным у меня есть несколько вопросов))

1. Какие книги почитать для общего понимания, что есть программирования (какие направления, какие особенности, какие языки для чего нужны)

2. Какие книги прочитать для озвученной выше задачи — автоматизации процессов на сайтах, автоматически извлекать необходимую информацию.

3. Какие языки программирования для этих задач подойдут, какие книги по ним почитать.

4. Какие есть ресурсы, где помогут с различными вопросами. Желательно русскоязычные тоже, с английским плохова-то...

5. С чего вообще начать, чтобы вот "прям щас" написать примитивный скрипт для автоматизации.



Подозреваю, что в Лиге программистов есть те, кто умеет программировать. А также догадываюсь,, что вы с чего-то начинали. Прошу немного поделиться опытом, по возможности с толикой конкретики: какие конкретно свои действия и прочитанные книги вы считаете полезными для начинающего нуля)

Не знаю как с логикой, но с Капитанством у меня нормально, да :)

Показать полностью
[моё] Программирование Языки программирования Курсы программирования Парсер Текст Вопрос
17
0
alexmarned

Пока меня критиковали я кое что успел сделать⁠⁠

4 года назад

Пока  вчера меня без устали критиковали, написал несколько программ и собрал базу предприятий России. База не полностью соответствует требованиям, хотя там больше  3 миллионов контактов, вполне можно доработать, тем более перед этим я делал валидацию и актуализацию баз  http://alexmarned.zzz.com.ua/baza/kratkaya-baza-predpriyatij...

Можете посмотреть, это не так страшно, как мне пишут. Там экселевский файл.


И вот такую работу я делаю довольно часто. И критикуйте опять,, я готов.

[моё] Бизнес Клиенты Текст Парсер
16
alexmarned

Зачем нужен парсинг сайтов, где берут целевых клиентов и как раскрутить группы? Как это делается?⁠⁠

4 года назад

UPD:

Вот ссылка вместо написанной в посту https://moscowi.ru - в разделе web

Привлечь разом 600 посетителей на новый сайт услуг, как это сделать? Или как получить целевых покупателей товаров? И может ли юрист, врач, бухгалтер, учитель разом заявить о себе потенциальным клиентам? Да, можно и нужно, только делать это нужно автоматизировано, сейчас об одном аспекте этого – парсеры и боты.


Назначение парсинга это получить структурированную информацию, раньше была разбросана по страницам, а теперь в одном списке или файле. Если вы видите на странице сайта курс валют, то с высокой вероятностью этот курс получили с сайта минфина, погоду – с сайта погоды, новости – с других сайтов. То есть данные не вводят каждый день вручную, это автоматизированный процесс, чаще парсерами.

Вот как пример http://alexmarned.zzz.com.ua/baza/


Обычные новости на поисковиках — это тоже результат парсинга. Разработчики гугла или другого поисковика пишут роботов, которые мониторят газеты и новостные порталы и просто выводят эту информацию для вас в виде кратких анонсов с ссылкой на источник.


И привлечение клиентов  через рассылку и прямое обращение - для этого парсинг простой понятный путь найти клиентов. Хотя тут надо наших бизнесменов обучать как это правильно делать– вроде элементарно, а всегда  вопросы по деталям – да, думаю, что тут нужно специальное обучение. Перенести товар с сайта конкурентов и при этом сделать контент уникальным – тоже частая задача. Множество бизнесменов так и начинает.


У поисковиков нет журналистов, нет стриммеров и они выводят актуальную информацию путём парсинга. Кстати, выявить наиболее актуальные новости и анонсы — это очень интересная задача, невероятное сплетение высокой математики, статистики и программирования. Я делал небольшой анализатор новостей, это очень полезно для бизнеса, ведь небольшое преимущество это всё-таки преимущество во времени н деньгах, и будут уже ваши конкурентные моменты, позволяющие заработать немного больше. А как известно курочка по зёрнышку клюёт. Правда, это разработка для уровня директор или сопоставимая величина, человек принимающий решения, или может быть акционер. Если анализатор новостей кому интересен, то напишите, сделаю такую страницу в открытый доступ.


Обычные запросы по парсингу от клиентов - это отследить цены свои или конкурента, отследить ассортимент конкурента, проверить наличие товара на сайте, выяснить позиции товара на маркетплейсах, сравнить и добавить отсутствующее на сайт. Постоянные проблемы бизнеса с добавлением товара на сайт сильно упрощаются парсингом, пусть на первом шаге это не уникально и шаблонно, только это уже будет сделано, потом можно доработать.


И немного посчитаем. Прибыль зависит от количества покупателей, а это уже поддаётся подсчёту и прогнозированию. Автоматизацией бизнеса мы можем сильно увеличить охват аудитории - просто добавив функционала, который сам покажет и объяснит посетителям все детали. И это круглосуточно. И поэтому такие действия увеличивают вашу прибыль, а если ваш сайт не автоматизирован, то увеличиваются и затраты на обслуживание. По итогу это всё равно выгоднее, чем ждать клиентов в расчёте на случай.


Потом реклама – а привести её можно только на свой сайт, чужое рекламировать бессмысленно, только деньги выкидывать. А на вашем сайте нужно наполнение. Варианты этого такие: можно сделать контент самому хотя-бы за полгода или второй вариант - сделать парсингом за один - два дня и через пару месяцев сайт будет полноценно работать? Выбор очевиден.


Получить целевую аудиторию с групп и сообществ? Вручную это делать бессмысленно, затраты слишком высоки и по времени очень затратно. Это и через парсинг очень непросто сделать, вручную лучше и не пробовать. Целевая аудитория даст моментальный рост бизнеса, часто показатели вырастают по траектории ракеты.

И если вы получили контакты целевых клиентов, то тогда можно сделать рассылку писем. На самом деле рассылка, это очень сложный бизнес, ваши письма могут попасть в спам, вас могут заблокировать и много чего может случиться. И вам могут отказать в рассылке, даже без жалоб на вас, отказать в платной рассылке, вы не сможете пройти модерацию по разным причинам. Потому что всем важен рейтинг, а вы его можете сильно понизить и только деньгами это не исправить.


Но рассылка возможна и тут тоже могут быть очень хорошие результаты – даже суточная рассылка даст посетителей на сайт и нескольких клиентов в месяц.

В этом вопросе я тоже продвинулся немного дальше – сделал инструмент для сбора всех доступных контактов клиентов. Задаём вводные данные и потом получаем список в экселе со всеми телефонами, почтой, адресом, социальными сетями, контактами в мессенджерах; иногда программа находит и другие данные, вплоть до налоговый данных, дальше просто не разрабатывал.

Это даёт разные каналы для привлечения потенциальных клиентов ваших услуг или товаров. Юристы или бухгалтеры тоже могут привлекать клиентов таким способом, не обязательно это должен быть физический товар.


И получается, что это очень хороший инструмент для бизнеса. Только пользуйтесь аккуратно - неосторожное использование принесёт вам кучу головной боли – баны, блокировки, занесение в черный список, предупреждения от важнейших для бизнеса сервисов, понижение в рейтингах, отлучение от хостинга, снижение скорости доступа. Всего не перечислишь.


Если проплюсуете за пост, выложу ещё базы в открытый доступ и если нужно, то сделаю обучалку по этому.

Показать полностью
[моё] Бизнес Парсер Длиннопост Текст
10
0
BryanhadNC

Сохраню это тут⁠⁠

4 года назад
Сохраню это тут

#comment_210842744

IT юмор Парсер Граббер Комментарии на Пикабу
2
6
Dewhole
Dewhole

Как спарсить динамические данные (ajax) на python3⁠⁠

4 года назад

Чтобы спарсить ajax на python необходима страница с ajax и сам python.


Для примера используется mail.ru только не стоит вчитываться в заголовки, и искать в них смысл, иначе можно деградировать.


Задача ясна, решение простое:

1)нужно найти адрес на который посылается запрос на получение динамических данных.

Для этого необходимо перейти на необходимый сайт и

1.открыть вкладку нетворк (через просмотреть код в хроме).

2.Затем нажать на кнопку/ссылку, после которой появляются новые данные.

3.обнаружить в этой вкладке появившийся запрос.

4. Взять из него request URL, headers, и в самом низу параметры (query string parameters).

Далее передаём вышеописанное в сам код (HEADERS = request headers, data = query string parameters)

Куда пихать ссылку или нужно подробнее о парсинге, посмотрите мой пост про парсинг, там всё расписано.

Запустив скрипт, если все параметры и прочее верны, в ответ будут получены те самые данные, которых нет в изначальной верстке, и которые не парсятся по прямой ссылке на страницу.


Кому проще по видео:

https://youtu.be/bBiv9txZ95I

Показать полностью 2 1
[моё] Python Парсер Программирование Обучение Видео Длиннопост
2
6
Dewhole
Dewhole

Как парсить авторизованно. python3, bs4, requests⁠⁠

4 года назад

Работу и принцип парсинга я подробно описываю в видео, здесь же акцентирую именно авторизацию.


Для авторизации нужно из кода отправить запрос на тот же url, на который отправляется запрос, если пытаться залогиниться в браузере.

Пример:


при попытке зайти на пикабу, во вкладке network появляется post запрос auth.php на адрес https://pikabu.ru/ajax/auth.php . Именно этот адрес нужно указывать в session, а сам session используется для того, что не просто авторизоваться, а выполнять все последующие запросы уже будучи авторизованным т.е. через session.post .

Здесь же можно увидеть form data, данные, которые необходимы для успешной авторизации. Тут увы, прикручена капча, поэтому обойти её простыми путями не получится.

Но на большинстве сайтов, чаще всего требуется formdata = {"login": "ВАШЛОГИН", "password": "ВАШПАРОЛЬ"}

сам же запрос на авторизацию выглядит так:


responce = session.post(link, data=data, headers=header).text


где, link - адрес пост запроса во вкладке нетворк.

data - данные form data в этом запросе (в хроме в самом низу)

headers - заголовки запроса (часто хватает user-agent)


После успешной авторизации остальные запросы выполняются так


r = session.get(url, headers=header, params=params)


если грубо то:

POST - для отдачи инфы на сервер.

GET - чтобы получить инфу С сервера.


Почему я советую написать парсер после калькулятора. Здесь сразу можно познакомиться с функциями, типами данных, пост/гет запросами. И самое главное, скорее всего у вас будет возникать куча различных ошибок в терминале. Поиск причин и исправление этих ошибок это основа для перестроения мышления. Ведь самое главное в данной сфере, уметь искать информацию.

Показать полностью 2 1
[моё] Парсер Python Программирование Обучение Видео Длиннопост
10
KiborBot

Парсер сайта rozetka.com за 5 минут без платных программ в Кибор⁠⁠

5 лет назад

Парсер сайта rozetka.com.ua за 5 минут без платных программ.

Составление списка параметров товаров нужной категории и сохранение в файл. Настроить можно на любой сайт.

Скрипт https://kibor-bot.com/forum/topic.php?forum=14&topic=31&...

Кибор https://kibor-bot.com

[моё] Парсер Кибор Видео
15
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии