Java. Вопрос по парсингу.⁠⁠

С библиотекой Jsoup я разобрался, но вот в чем проблема:

Возьмём к примеру заглавную страницу Пикабу. При сохрании в Document попадает только часть ленты. Насколько я понял, когда я руками дохожу до определённой границы, срабатывает скрипт и подгружаются следующие элементы ленты.

Каким образом мне спарсить всю информацию, например, за конкретную дату. Я конечно могу залогиниться и ручками сохранить дохреналион страниц, а потом их обработать, но это не вариант.

Вы смотрите срез комментариев. Показать все

sergiex

7 лет назад

Пробовали рассмотреть мобильную версию? Обычно в них всё проще.

раскрыть ветку (15)

AWer

7 лет назад

а есть где-то открытые исходники или используемый ими АПИ?

раскрыть ветку (13)

sergiex

7 лет назад

Быстрым гугленьем не нашлось. Около года назад здесь был пост о неофициальном приложении Пикабу на Андроид, возможно, у автора остались какие-то наработки? Только где ж его искать-то. Однако, что это возможно - уже точно, просто нужно изучить много скриптов. Там их масса подгружается на главной.

раскрыть ветку (12)

AWer

7 лет назад

да ясное дело возможно. но изучать кучу скриптов - мне лень. тем более там половина кода - манипуляции с ДОМом и плагины.

раскрыть ветку (11)

sergiex

7 лет назад

Я только что попробовал на лету менять переменную "isAjaxLoadMode", никакого эффекта не дало - если не залогиниться, то всё будет подгружаться по скроллингу. Это же, в принципе, основная проблема в данном вопросе, как я понял? С мобильной версией всё примерно так же сложно. Если есть возможность, проверьте, что будет на браузерах, не поддерживающих Java (у меня такого под рукой нет).

раскрыть ветку (10)

AWer

7 лет назад

проблема получить следующие посты, за первой страницей. вторую страницу можно получить таким макаром - http://pikabu.ru/new?page=2

но мне было бы интереснее получать посты и комменты в каком-нибудь сыром виде - json, xml

раскрыть ветку (9)

sergiex

7 лет назад

Думаю, в таком виде его может видеть только upcoming.php, содержимое которого не получить. Парсинг html выглядит единственным выходом, благо он не особо сложен на первый взгляд.

раскрыть ветку (3)

AWer

7 лет назад

ага, проблема как раз в том, что только на первый взгляд))) а как начинаешь заниматься столько, проблем вылезти может. но это всё зависит от задачи. ну и от того, хочешь ты поиграться и забыть или реальный продукт пилишь.

раскрыть ветку (2)

sergiex

7 лет назад

Нарыл pikabu.ru/generate_xml.php

раскрыть ветку (1)

Tolstoknijnik

7 лет назад

Нашёл посто годовой давности. Админ пишет, что апи этот уже устарел, а новый в публичной версии не планируется

Tolstoknijnik

7 лет назад

Ок. Тогда будем поступать методом каменного века. Сохраним все страницы залогинившись. Как мне максимально быстро сохранить страницы от 1 до n?

раскрыть ветку (4)

AWer

7 лет назад

во-первых, почему залогинившись? во-вторых, хранить надо не сырые данные, а уже распаршенные. в-третьих, а какая вообще задача?
а теперь отвечая на твой вопрос - параллельные стримы в java8? правда я так когда-то и сайт один положил. но думаю для пикабу это не должно быть большой нагрузкой (на худой конец паузу сделать можно в 1,10,20 миллисекунд).
что-то типа такого:

Stream.iterate( 0, (i) -> i+1 ).limit( 10 ).parallel().forEach( (i) -> {

System.out.println(i);

} );

вместо вывода в консоль надо сделать загрузку и сохранение контента

раскрыть ветку (3)

Tolstoknijnik

7 лет назад

В потоки пока не лез вообще.

Я представил себе задачу несколько проще.
1.Выкачиваем себе страницы за один день
2.засовываем их в список в виде HTML
3.парсим то, что нам нужно
4. Что-то с этим делаем. Например получаем все теги в свежем за определённый день.

раскрыть ветку (2)

AWer

7 лет назад

тогда итерируйся пока не поменяется дата поста не поменяется, в каждой итерации уже распаршивай и вытягивай теги. работать надо с подготовленными голыми данными, а не с html

раскрыть ветку (1)

Tolstoknijnik

7 лет назад

Немного непонятно, что за типы данных Element и Elements. Гугл ничего кроме доков оракла не выдаёт. Можешь поястинь мне?

Tolstoknijnik

7 лет назад

Нет, посмотрю обязательно

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку