Java. Вопрос по парсингу.

С библиотекой Jsoup я разобрался, но вот в чем проблема:


Возьмём к примеру заглавную страницу Пикабу. При сохрании в Document попадает только часть ленты. Насколько я понял, когда я руками дохожу до определённой границы, срабатывает скрипт и подгружаются следующие элементы ленты.


Каким образом мне спарсить всю информацию, например, за конкретную дату. Я конечно могу залогиниться и ручками сохранить дохреналион страниц, а потом их обработать, но это не вариант.

Вы смотрите срез комментариев. Показать все
Автор поста оценил этот комментарий

Пробовали рассмотреть мобильную версию? Обычно в них всё проще.

раскрыть ветку (15)
Автор поста оценил этот комментарий

а есть где-то открытые исходники или используемый ими АПИ?

раскрыть ветку (13)
Автор поста оценил этот комментарий

Быстрым гугленьем не нашлось. Около года назад здесь был пост о неофициальном приложении Пикабу на Андроид, возможно, у автора остались какие-то наработки? Только где ж его искать-то. Однако, что это возможно - уже точно, просто нужно изучить много скриптов. Там их масса подгружается на главной.

раскрыть ветку (12)
Автор поста оценил этот комментарий

да ясное дело возможно. но изучать кучу скриптов - мне лень. тем более там половина кода - манипуляции с ДОМом и плагины.

раскрыть ветку (11)
Автор поста оценил этот комментарий

Я только что попробовал на лету менять переменную "isAjaxLoadMode", никакого эффекта не дало - если не залогиниться, то всё будет подгружаться по скроллингу. Это же, в принципе, основная проблема в данном вопросе, как я понял? С мобильной версией всё примерно так же сложно. Если есть возможность, проверьте, что будет на браузерах, не поддерживающих Java (у меня такого под рукой нет).

раскрыть ветку (10)
Автор поста оценил этот комментарий

проблема получить следующие посты, за первой страницей. вторую страницу можно получить таким макаром - http://pikabu.ru/new?page=2

но мне было бы интереснее получать посты и комменты в каком-нибудь сыром виде - json, xml

раскрыть ветку (9)
Автор поста оценил этот комментарий

Думаю, в таком виде его может видеть только upcoming.php, содержимое которого не получить. Парсинг html выглядит единственным выходом, благо он не особо сложен на первый взгляд.

раскрыть ветку (3)
Автор поста оценил этот комментарий

ага, проблема как раз в том, что только на первый взгляд))) а как начинаешь заниматься столько, проблем вылезти может. но это всё зависит от задачи. ну и от того, хочешь ты поиграться и забыть или реальный продукт пилишь.

раскрыть ветку (2)
Автор поста оценил этот комментарий
Нарыл pikabu.ru/generate_xml.php
раскрыть ветку (1)
Автор поста оценил этот комментарий
Нашёл посто годовой давности. Админ пишет, что апи этот уже устарел, а новый в публичной версии не планируется
Автор поста оценил этот комментарий
Ок. Тогда будем поступать методом каменного века. Сохраним все страницы залогинившись. Как мне максимально быстро сохранить страницы от 1 до n?
раскрыть ветку (4)
Автор поста оценил этот комментарий

во-первых, почему залогинившись? во-вторых, хранить надо не сырые данные, а уже распаршенные. в-третьих, а какая вообще задача?
а теперь отвечая на твой вопрос - параллельные стримы в java8? правда я так когда-то и сайт один положил. но думаю для пикабу это не должно быть большой нагрузкой (на худой конец паузу сделать можно в 1,10,20 миллисекунд).
что-то типа такого:

Stream.iterate( 0, (i) -> i+1 ).limit( 10 ).parallel().forEach( (i) -> {

    System.out.println(i);

} );

вместо вывода в консоль надо сделать загрузку и сохранение контента

раскрыть ветку (3)
Автор поста оценил этот комментарий
В потоки пока не лез вообще.

Я представил себе задачу несколько проще.
1.Выкачиваем себе страницы за один день
2.засовываем их в список в виде HTML
3.парсим то, что нам нужно
4. Что-то с этим делаем. Например получаем все теги в свежем за определённый день.
раскрыть ветку (2)
Автор поста оценил этот комментарий

тогда итерируйся пока не поменяется дата поста не поменяется, в каждой итерации уже распаршивай и вытягивай теги. работать надо с подготовленными голыми данными, а не с html

раскрыть ветку (1)
Автор поста оценил этот комментарий
Немного непонятно, что за типы данных Element и Elements. Гугл ничего кроме доков оракла не выдаёт. Можешь поястинь мне?
Автор поста оценил этот комментарий
Нет, посмотрю обязательно
Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку