Java. Вопрос по парсингу.

С библиотекой Jsoup я разобрался, но вот в чем проблема:


Возьмём к примеру заглавную страницу Пикабу. При сохрании в Document попадает только часть ленты. Насколько я понял, когда я руками дохожу до определённой границы, срабатывает скрипт и подгружаются следующие элементы ленты.


Каким образом мне спарсить всю информацию, например, за конкретную дату. Я конечно могу залогиниться и ручками сохранить дохреналион страниц, а потом их обработать, но это не вариант.

Автор поста оценил этот комментарий

тогда итерируйся пока не поменяется дата поста не поменяется, в каждой итерации уже распаршивай и вытягивай теги. работать надо с подготовленными голыми данными, а не с html

раскрыть ветку (1)
Автор поста оценил этот комментарий
Немного непонятно, что за типы данных Element и Elements. Гугл ничего кроме доков оракла не выдаёт. Можешь поястинь мне?
Автор поста оценил этот комментарий
Нарыл pikabu.ru/generate_xml.php
раскрыть ветку (1)
Автор поста оценил этот комментарий
Нашёл посто годовой давности. Админ пишет, что апи этот уже устарел, а новый в публичной версии не планируется
2
Автор поста оценил этот комментарий

F12 > Network - лучший друг любого майнера.
Догружай :)

Иллюстрация к комментарию
раскрыть ветку (1)
1
Автор поста оценил этот комментарий
Ах тыж хитрая жопа:)
Спасибо
Автор поста оценил этот комментарий

во-первых, почему залогинившись? во-вторых, хранить надо не сырые данные, а уже распаршенные. в-третьих, а какая вообще задача?
а теперь отвечая на твой вопрос - параллельные стримы в java8? правда я так когда-то и сайт один положил. но думаю для пикабу это не должно быть большой нагрузкой (на худой конец паузу сделать можно в 1,10,20 миллисекунд).
что-то типа такого:

Stream.iterate( 0, (i) -> i+1 ).limit( 10 ).parallel().forEach( (i) -> {

    System.out.println(i);

} );

вместо вывода в консоль надо сделать загрузку и сохранение контента

раскрыть ветку (1)
Автор поста оценил этот комментарий
В потоки пока не лез вообще.

Я представил себе задачу несколько проще.
1.Выкачиваем себе страницы за один день
2.засовываем их в список в виде HTML
3.парсим то, что нам нужно
4. Что-то с этим делаем. Например получаем все теги в свежем за определённый день.
показать ответы
Автор поста оценил этот комментарий

для такого нужно использовать публичный АПИ, если он конечно имеется у Пикабу (раз есть приложения для мобилок, АПИ должен быть, но на сколько он публичный - это вопрос). кстати, можешь попробовать переключиться в настройках на постраничный вывод - сможешь сформировать урлу на следующую страницу и парсить дальше.

раскрыть ветку (1)
1
Автор поста оценил этот комментарий
Публичного API нет. Попробую постранично. Есть одно но: для постраничного вывода нужно логинится, а этого делать не хочу, ибо бан может прилететь)
показать ответы
Автор поста оценил этот комментарий

@moderator, это разве форум по программированию?!

раскрыть ветку (1)
1
Автор поста оценил этот комментарий
Нет, это форум по копипасте
показать ответы
Автор поста оценил этот комментарий

здорово, а есть где-то описание всех методов?

раскрыть ветку (1)
Автор поста оценил этот комментарий
http://pikabu.ru/api

Доступ закрыт)
Автор поста оценил этот комментарий

здорово, а есть где-то описание всех методов?

раскрыть ветку (1)
Автор поста оценил этот комментарий
А можно начинающим говнокодерам сказать что тут происходит блджать?
Автор поста оценил этот комментарий

проблема получить следующие посты, за первой страницей. вторую страницу можно получить таким макаром - http://pikabu.ru/new?page=2

но мне было бы интереснее получать посты и комменты в каком-нибудь сыром виде - json, xml

раскрыть ветку (1)
Автор поста оценил этот комментарий
Ок. Тогда будем поступать методом каменного века. Сохраним все страницы залогинившись. Как мне максимально быстро сохранить страницы от 1 до n?
показать ответы
Автор поста оценил этот комментарий

всё равно без картинок оно мало полезно :(
хочу нормальный АПИ на Пикабу!
кстати, а за что может прилитеть бан?

нужно логинится, а этого делать не хочу, ибо бан может прилететь

это какое-то правило есть или это просто "а вдруг"?

раскрыть ветку (1)
Автор поста оценил этот комментарий
А вдруг?
Проверять не буду.jpg
Автор поста оценил этот комментарий

прикольно, правда не понятно что это за посты (свежее, горячее или ещё что) и как их фильтровать (по датам, постранично и т.п.) и возвращает только текст (без картинок и т.п.)
вот кстати ссылка на rss-ленту - http://pikabu.ru/xmlfeeds.php?cmd=popular
осталось тоже понять, можно там как-то фильтровать или нет)))

раскрыть ветку (1)
Автор поста оценил этот комментарий
Воспользовался поиском по Пикабу. Скорее всего это посты, которые выходят в горячее. Сверху самые новые
показать ответы
Автор поста оценил этот комментарий

не надо логиниться, попробуй просто урлу взять и не логинясь загрузить.

раскрыть ветку (1)
Автор поста оценил этот комментарий

Пробовали рассмотреть мобильную версию? Обычно в них всё проще.

раскрыть ветку (1)
Автор поста оценил этот комментарий
Нет, посмотрю обязательно