Crawler for linux?

Доброго дня!

Появилась задача парсинга данных со сложных страниц с динамическими данными.

API нет и не предвидется ближайшее время у сайта.


Хотел было на Lazarus + FPCEF3 реализовать, но покапав поглубже понял, что

1. Очень скудный инструментарий. Хотя можно обойти местами.

2. на Ubuntu горько смотреть на скомпилированный результат


Юнити мне как родной, но под него не видел вменяемых браузеров

на JavaScript видел crawler'ы но тормоза этих систем сильно останавливают.

Хотелось бы нативное некое решение.


Задачи две

1. Нужен хороший доступ к дому чтобы листнеры хотя бы на клик элементов реализовать

2. Кросс-платформенность


Подскажите, пожалуйста путь.

Возможно готовый к адаптации проект где-то скачать можно?


PS Гуглить конечно же умею.

Crawler for linux? Chromium, Программирование, Linux и Windows

GNU/Linux

1K постов15.5K подписчиков

Добавить пост

Правила сообщества

Все дистрибутивы хороши.

Будьте людьми.

2
Автор поста оценил этот комментарий

JS по сути тебе в помощь. Тут все инструменты для работы с DOM, просто выхватывать эвенты, кроссплатформенность как бонус.


Насчёт тормозов, это результат непонимания языка и принципом парсинга DOM, и результат таскания за собой тонны тяжелых библиотек.


Всё от задачи зависит, очень абстрактное описание... Вам то ли налету нужно парсить, то ли вам нужно парсить и в БД куда-то писать а потом где-то показывать. Может ещё какие варианты.

раскрыть ветку (1)
Автор поста оценил этот комментарий

https://scrapy.org/

очень хороший пример

2
DELETED
Автор поста оценил этот комментарий
Наймите 100 китайцев за еду, они будут жать F5 и записывать изменения данных куда скажите.
раскрыть ветку (1)
2
Автор поста оценил этот комментарий

Зачем нанимать низкоквалифицированный персонал, который будет вносить кривые данные?

1
Автор поста оценил этот комментарий

Сам напиши.

раскрыть ветку (1)
Автор поста оценил этот комментарий

Так и хочется написать. Стек технологий определяю.

показать ответы
2
Автор поста оценил этот комментарий
PhantomJS? Мне обычно хватало scrapy, или нужно снимать прямо с js-сгенеренные данные?
раскрыть ветку (1)
Автор поста оценил этот комментарий

у scrappy очень громоздкая настройка, которая к тому жутко тормозит.

Хочется проще и шустрее.

показать ответы
1
Автор поста оценил этот комментарий

https://scrapy.org/

раскрыть ветку (1)
Автор поста оценил этот комментарий

хорошо вопрос прочитали?

на JavaScript видел crawler'ы но тормоза этих систем сильно останавливают.

Хотелось бы нативное некое решение.

показать ответы