25 миллионов книг в руках одного инженера

25 МИЛЛИОНОВ КНИГ В РУКАХ ОДНОГО ИНЖЕНЕРА, к которым вы никогда не получите доступ

Это история о том, как глупость, жадность и ревность смогли погубить один из величайших проектов современности.


Для тех, кто не хочет много читать - суть истории в трех абзацах.


Google потратила 400млн долларов и почти 15 лет на то, чтобы создать самый грандиозные проект в истории - оцифровать все книги мира.


Сегодня проект заморожен, а доступ к 60 петабайтам оцифрованных книг имеют лишь несколько инженеров Google. В их руках - вся история человечества.


Все, что нужно для того, чтобы мир начал пользоваться книгами всего мира - написать один запрос к базе данных. И доступ переключится с "Выкл" на "Вкл". Для этого нужно пару минут.


Но этого никогда не произойдет.


А теперь тот самый лонгрид со всеми подробностями.


Сразу предупреждаю - текста много. Так что запаситесь попкорном ;-)


15 лет назад Ларри Пейдж и Сергей Брин задумали невозможное. Они обьявили всему миру, что хотят оцифровать все существующие книги в мире. Это бы позволило любому человеку в мире за считанные секунды найти любую информацию, не проводя в библиотеках часы, дни, месяцы....


Проект по оцифровке книг получил кодовое название "Project Ocean". Идея казалась крутой, но мало реалистичной. Но за ней стояли два крутых парня с деньгами, поэтому проект стартовал.


С 2002 года Google начала жадно сканировать все книги, до которых могла дотянуться. Сначала это были книги на английском. Google договаривалась с крупнейшими библиотеками США и организовывала специальные центры сканирования, куда книги из библиотек в прям смысле слова свозили фурами.


Для сканирования книг был разработан специальный софт. Книга жестко фиксировалась, а сверху ее фотографировало несколько камер. Единственное, что страницы переворачивал не робот, а сотрудник. Машины не могли делать это достаточно быстро и нежно. В рамках проекта оцифровывали очень старые книги, и аккуратность была превыше всего.


К августу 2010 года Google потратила на проект в общей сложности 400 млн. долларов. И объявила о том, что по ее подсчетам в мире 129 864 880 книг. И она хочет оцифровать их все.


Изначально Google не планировала открывать доступ к книгам, а давать возможность совершать поиск. И демонстрировать только небольшой отрывок. Юридический отдел Google был уверен, что это попадает под определение "честного использования".


Также стоит сказать, что если в большинстве европейских стран книга становится бесплатно доступной обществу через 50 лет после смерти автора, то в США это так не работает. Закон об авторских правах таков, что уже не публикующиеся книги никто не имеет права опубликовать еще раз, не решив все вопросы с автором, издательством или наследниками их прав. То есть книга просто лежит и собирает пыль, а чтобы дать ей вторую жизнь, даже цифровую, надо потратить столько времени и денег, что проще ничего не делать.


И тут в какой-то момент эта история взбудоражила издателей и авторов. Они начали понимать, что Google уже оцифровала миллионы книг и совсем скоро к ним будет открыт публичный доступ. Начались коллективные иски...


На протяжении 2,5 лет юристы Google, библиотек, издателей и Гильдии авторов вели сложнейшие переговоры, суть которых один из их участников кратко, но емко охарактеризовал как "четырехмерные шахматы" — надо было учесть интересы всех сторон.


Самая главная проблема, с которой столкнулись участники переговоров заключалась вот в чем. Ок, допустим, Google делает грандиозный интернет-магазин цифровых книг, в том числе и тех, авторы которых давно умерли, издательства закрылись и вообще непонятно, кому принадлежат права. Кому платить причитающуюся плату? Установление прав на получение денег в каждом конкретном случае стоило бы намного больше, чем любые возможные выплаты. То есть чисто экономически это было бессмысленно.


Но эту проблему решили, придумав создать единое агентство, которому бы шла плата за все старые книги. Наследники авторов и издателей могли бы в него обращаться за своей долей, а часть полученных средств там бы тратили на установление авторства. Поскольку обращались бы, конечно, далеко не все, то схема имела экономический смысл — кому все равно, "спонсировали" бы тех, кто хотел бы, чтобы ему заплатили. Причем правообладатели и авторы в любом случае получали бы 69% от цены электронной книги, а Google бы довольствовалась остальным.


Грандиозность соглашения привлекла внимание Министерства юстиции США, которое начало расследование и попросило всех, кто возражает против этого соглашения "говорить сейчас или молчать вечно".


Разумеется, возражения поступили. От Microsoft и Amazon с технологической стороны, а также от нескольких тысяч авторов, многие из которых, похоже, не до конца поняли суть соглашения.


В ходе долгой борьбы и недальновидности Конгресса США, сделка не была одобрена.


Формально в итоге победила Google — ей позволено показывать отрывки из оцифрованных книг. Но проиграли — все. Читатели не получили гигантской цифровой библиотеки из всех-всех когда-либо напечатанных книг. Издатели и авторы не получили возможности получать постоянно небольшую денежку от их продажи. А Google "заморозила" траты в размере 400 млн. долларов. Даже выиграв, компания охладела к своему проекту и больше не сканирует книги. Кончился запал.


Сегодня где-то далеко на серверах Google лежат 50-60 петабайтов оцифрованных книг. Вот они, только руку протяни. Но доступ к ним имеют лишь несколько инженеров компании, ответственных за то, чтобы никто другой не получил к этим книгам доступ.


Честно стырено на ФБ

Вы смотрите срез комментариев. Показать все
68
Автор поста оценил этот комментарий

Им там охранник случаем не нужен? Желательно с доступом к данным.

раскрыть ветку (48)
18
Автор поста оценил этот комментарий
Как охранник сможет вынести 50-60 петабайт данных?)
раскрыть ветку (46)
41
Автор поста оценил этот комментарий

Чтобы вынести одновременно 60 PB данных понадобится ~6200 HDD объемом 10 TB каждый и весом 650 гр.
Чуть больше 4 тонн.

раскрыть ветку (37)
44
Автор поста оценил этот комментарий

Если складывать их на стандартный поддон (1x1,2 м), получится стопка высотой 2 м.
За два подхода можно упереть на рохле (обычная грузоподъемность 1500-2500 кг).

Иллюстрация к комментарию
раскрыть ветку (28)
99
Автор поста оценил этот комментарий
Если переть бегом, это будет самый быстрый канал передачи информации, изобретенный человечеством.
раскрыть ветку (15)
3
Автор поста оценил этот комментарий

Для которого бесконечным сопротивлением будет первый лежачий полицейский.

2
Автор поста оценил этот комментарий

https://pikabu.ru/story/kanal_peredachi_informatsii_5268583
вы в телевизоре горячем!!

Автор поста оценил этот комментарий
С другой стороны пока всё подключишь, столько времени пройдёт...
1
Автор поста оценил этот комментарий
А нельзя просто под видом обслуживания прикрепить вай-фай точку и качать из здания напротив?
раскрыть ветку (11)
9
DELETED
Автор поста оценил этот комментарий

чтобы скачать 60 петабайт через стабильный гигабитный канал, потребуется около двух десятков лет

раскрыть ветку (10)
Автор поста оценил этот комментарий

ну у них же тоже не на одной машине это все хранится, да и самих сканов там по-меньше - думаю, внушительную часть занимают всякие поисковые индексы. плюс архивировать можно, шакалить, и т.д.

раскрыть ветку (9)
Автор поста оценил этот комментарий

шакалить
Дело в том, что книги (все?) хранятся в виде текста в аналогичных шрифтах, а не просто отсканированные изображения.

раскрыть ветку (8)
Автор поста оценил этот комментарий

Ну как раз таки текст сжимается теми же архиваторами на раз-два. В несколько раз книгу сжать проще простого.

раскрыть ветку (7)
1
Автор поста оценил этот комментарий

Больше скажу, 7zip на ультрасжатии сжимает текст примерно в сто раз)

Пруф:

Иллюстрация к комментарию
раскрыть ветку (2)
Автор поста оценил этот комментарий

шакалить ≠ архивировать

раскрыть ветку (3)
Автор поста оценил этот комментарий

на один паллет 2 тонны разве что сдуру можно положить, а уж 4 - тем более.

я бы рекомендовал использовать 4 паллета.

это я вам как сотрудник ТК говорю:)

Автор поста оценил этот комментарий
Можно использовать ленточный картридж на 330 Тб, тогда понадобится всего 182 картриджа, можно обойтись одним поддоном
раскрыть ветку (2)
Автор поста оценил этот комментарий

Указывая жесткий диск в 10 тб, я предварительно прогуглил, какой максимальный размер накопителя доступен на сегодняшний день в рознице. HDD размером 12-14 тб не учитывал, хотя они уже должны были появится.
Уважаемые товарищи @EgrOnWire
Или специальные ленточные кассеты. Пару штук.
и @mrGhost
Можно использовать ленточный картридж на 330 Тб.
Можно пруфы, откуда вы такие объемы нашли?

раскрыть ветку (1)
Автор поста оценил этот комментарий
Рокла!!!не рохла и не рохля,а рокла,блеать!
раскрыть ветку (7)
1
Автор поста оценил этот комментарий

Тогда Rocla уж пиши.
Или вообще не выёбывайся:
"Рохля — сленговое название вилочной тележки".

ещё комментарии
9
Автор поста оценил этот комментарий
10 HDD и почти два года зарплаты в гугле
2
Автор поста оценил этот комментарий

есть же дата грузовики

2
Автор поста оценил этот комментарий
Или специальные ленточные кассеты. Пару штук.
1
Автор поста оценил этот комментарий
Отлично. Арендуем Камаз и профит :)
Автор поста оценил этот комментарий

Специально для вас уже все придумано :) https://pikabu.ru/story/aws_snowmobile_perevoz_petabayt_dann...

Автор поста оценил этот комментарий

а это даже не дневная норма выноса с завода, осталось только газель найти

Автор поста оценил этот комментарий
Вообще у microSD карт на 256 Gb плотность записи побольше будет. 1 такая весит ~1.41 g. Получится всего 346.5 kg, помещающихся в куб 3.44x3.44x3.44 метра (ну или 3х3х4). За пару недель можно справиться.
47
Автор поста оценил этот комментарий

да таким только дай волю...

раскрыть ветку (2)
1
Автор поста оценил этот комментарий
...и они ничего толком украсть не смогут :).
раскрыть ветку (1)
27
Автор поста оценил этот комментарий

Я прям вижу врывающихся туда людей с автоматами,которые копируют данные и сливают всё в сеть...кибер панк какой-то блядь!

9
Автор поста оценил этот комментарий
Будут как Сэм Тарли из игры престолов вручную на свитки из свиной кожи переписывать
2
Автор поста оценил этот комментарий
Лет за 10, постепенно с 10тб хардами.
Да и может он просто почитать хочет, а не выносить
2
Автор поста оценил этот комментарий
Легко, если он прапорщик:)
Автор поста оценил этот комментарий
мы собирём деньги на развитие технологии записывания данных непосредственно в мозг человека. проникнем в зранилище и всё скопируем.
Автор поста оценил этот комментарий

Вот так например: https://www.infon*iac.ru/news/Ves-vsego-interneta-raven-masse-odnoi-klubniki.html

1
Автор поста оценил этот комментарий

Их охранники заканчивали лучшие вузы мира, мне кажется. Кроме того что надежно охраняют.

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку