раскрыть ветку (19)
раскрыть ветку (9)
А в чем проблема выкачать stackoverflow хотя-бы частично? Википедия вон без картинок 20-30 гб занимает, сомневаюсь что тут больше
раскрыть ветку (6)
Прошу прощения, как вы собрались выкачать stackoverflow? И что вы с этим «выкачаном» будете делать?
раскрыть ветку (5)
Прошу прощения, как вы собрались выкачать stackoverflow?
Спарсить вопросы и ответы к ним и сохранить у себя на диске.
И что вы с этим «выкачаном» будете делать?Читать
раскрыть ветку (4)
Да уж... если бы вы были из ит мира, то такую чушь не несли. Вы хоть один парсер написали? Вы изучали законодательство, а точнее ответственность за скрайпинг сайтов? Вы хотябы с десяток трэдов прочитали на стэкоаерфло? Стэковерфло это хайлоад проект в котором данные размазаны по нескольким хранилищам для возможности навигации, полнотекстового поиска, быстрого показа информации и т.д Как вы теробайты данных скопируете себе на диск, но Это не самое страшное. Как вы с этими данными будете работать, чтобы их читать потом?
раскрыть ветку (3)
Да уж... если бы вы были из ит мира, то такую чушь не несли.
Я и так из IT мира и заинтригован тем, почему вы считаете такую простую задачу непосильной.
Вы изучали законодательство, а точнее ответственность за скрайпинг сайтов?И какая же эта статья УК РФ?
Так-же хочу напомнить что суд США признал скрапинг абсолютно законным
https://habr.com/ru/company/globalsign/blog/466911/
Стэковерфло это хайлоад проект в котором данные размазаны по нескольким хранилищам для возможности навигации, полнотекстового поиска, быстрого показа информации и т.дА какая разница какая у них там внутренняя инфраструктура, если скрапер взаимодействует через веб интерфейс и ему все это фиолетово?
Поиск на своей локальной копии можете делать каким угодно способом, хоть примитивный LIKE *МойТекст*, хоть эластик прикручиваете.
Как вы теробайты данных скопируете себе на дискОткуда там террабайты? Вы точно стаковерфлоу не переоцениваете? Еще раз - вся википедия весит 20-30 гб, откуда на стаковерфлоу могут взяться террабайты текста?
Как вы с этими данными будете работать, чтобы их читать потом?Как с любой другой информацией. Выше расписал
раскрыть ветку (1)
раскрыть ветку (6)
раскрыть ветку (3)
раскрыть ветку (2)
Это веб-спам, полученный из stacksowflow, который прогнали через google translate, чтобы показывать рекламу
раскрыть ветку (1)