418

Ответ на пост «Stack overflow»1

Чтобы шутка не стала трагедией, советую подготовиться.

Во-первых, есть архив SO: https://archive.org/download/stackexchange

Во-вторых, есть программы для локальной документации, я видел интеграцию SO только в Dash: https://kapeli.com/dash (он только на macos, для других систем есть Zeal, но там нет SO: https://zealdocs.org)

Ответ на пост «Stack overflow»

Лига программистов

2.1K постов11.9K подписчика

Правила сообщества

- Будьте взаимовежливы, аргументируйте критику

- Приветствуются любые посты по тематике программирования

- Если ваш пост содержит ссылки на внешние ресурсы - он должен быть самодостаточным. Вариации на тему "далее читайте в моей телеге" будут удаляться из сообщества

Вы смотрите срез комментариев. Показать все
3
Автор поста оценил этот комментарий

Nuget.org уже весь выкачал, качаю maven central, но там очень медленно .... Не уверен, что успею.

раскрыть ветку (13)
2
Автор поста оценил этот комментарий

Чот я про мавен то забыл. Как его лучше слить на локалхост? Гугл подсказал что-то типа mvn dependency:copy-dependencies -Dclassifier=sources

раскрыть ветку (9)
4
Автор поста оценил этот комментарий

Если есть конкретные проекты, то mvn dependency:go-offline, но меня интересовали все библиотеки с исходниками и жавадоками.

Закончилось все тем, что я распарсил индекс репозитория, который используется для поиска зависимостей (лежит в папке index в централе), выстроил пути до нужных файлов и качаю многопоточно. Из-за того, что все очень тормозно, то пришлось пожертвовать полнотой копирования: избегаю файлов с хэшами. Всего 23,5 миллиона файлов итого. Время загрузки каждого очень пляшет, то по 100 в секунду, то по 40 секунд и более. За сутки смог вытянуть только 170гб - это приблизительно 1.5 миллиона файлов. Сейчас разбил индекс на две части, гружу из дома тоже. Сижу ищу инфу о зеркалах мавена, так как все официальные - тыква. Я в принципе в шоке от того, что такие репозитории в одном экземпляре и по сути контролируются sonatype'ом, который явно говорит, что против зеркалирлвания м массового скачивания.

раскрыть ветку (8)
0
Автор поста оценил этот комментарий

А что, по весу, получается, всего в 4 тб может войти? Мавен и нпм хочу выкачать как раз. Nexus дома подняли или просто пока всё скачать?

раскрыть ветку (7)
4
Автор поста оценил этот комментарий

maven приблизительная оценка около 20тб. Nuget около 10 (не могу сказать точно, так как разбросано по хардам, где уже были данные, а подсчет занимает невменяемое время.

Репозиторий планирую на существующем на работе nexus развернуть. Качайте NPM, не мучайтесь с maven (по крайней мере качайте все, что нужно прямо сейчас, а не весь архив). Вы точно не успеете, либо не понадобится. А если понадобится, то я точно выложу в доступ на rutracker, а также и Вам советую поступить с NPM.

По maven - я качаю только central, а ведь есть точно другие - spring, jboss, gradle plugins...туда я даже не смотрел еще. Не у всех может быть индекс (

раскрыть ветку (6)
0
Автор поста оценил этот комментарий

да, как раз ковыряю нпм, думаю, как бы его выцепить. Диски завтра приедут под него, хотя бы latest пакеты соберу - уже хорошо

раскрыть ветку (5)
0
Автор поста оценил этот комментарий

Есть реализации, по частичному скачиванию. Например, https://github.com/131/npm-mirror.

Вопрос только в том, как получить список всех пакетов. Желательно инкрементально. Если найдете решение, поделитесь, пожалуйста.

раскрыть ветку (4)
0
Автор поста оценил этот комментарий

в 2018 было:
The registry is approximately 8TB in size, with 25M total package-versions.


блеен, у меня не влезет

раскрыть ветку (2)
0
Автор поста оценил этот комментарий

попробую вычленить какой-то топ и в него упереться

раскрыть ветку (1)
1
Автор поста оценил этот комментарий
Вечером потыкаю структуру репозитория, есть диск на 18тб без пары ему в рэйд, использую его.
0
Автор поста оценил этот комментарий
1
Автор поста оценил этот комментарий

Github надо.

раскрыть ветку (2)
2
Автор поста оценил этот комментарий

Я боюсь представить совокупный размер (

раскрыть ветку (1)
1
Автор поста оценил этот комментарий
Пока что слил метаданные по 8кк публичных проектов из ~100кк и если экстраполировать - понадобится около 200ТБ
Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества