Пост в Лигу психотерапии.
В комментариях к посту про Збигнева Бжезинского #comment_88286528
зашла речь о попытке Гугла выдать себя за Академию наук, которая научно изучает тренды в общественном сознании и спор о том, насколько истинна гугловская картина мира, где оцифрованы не все книги.
Этот пост написан в развитие вчерашней темы.
В 2009 году новости бодро рапортовали: "Достигнуто революционное соглашение", "Идея о том, чтобы собрать все книги воедино и предоставить доступ к ним любому человеку родилась у двух сотрудников корпорации Сергея Брина и Ларри Пейджа, еще в то время, когда они были студентами. Сегодня их мечта воплотилась в реальность", "Сегодня в сервисе «Google books» хранятся сведения о десяти миллионах книг на ста различных языках. Интернет-гигант Google «дружит» с 40 библиотеками и с 30 тыс. различных издательств".
22 мая 2017 года редактор GeekTimes Вячеслав Голованов опубликовал статью, где рассказал о провале этого проекта. https://geektimes.ru/post/289377/.
Ниже - цитаты из его материала.
"Секретный проект Google по сканированию всех книг мира под кодовым названием «Project Ocean» по-настоящему начался в 2002 году, когда Ларри Пейдж и Марисса Майер встретились в комнате, в которой также были 300-страничная книга и метроном. Пейдж хотел узнать, за какое время можно отсканировать более ста миллионов книг, и он начал своё исследование с тех, что были у него под рукой. Используя метроном для поддержания ритма, он и Майер пролистали книгу от корки до корки. У них это заняло 40 минут.
Пейдж всегда мечтал оцифровать книги. Ещё в 1996 его студенческий проект, который потом превратится в Google – краулер, переваривающей документы и назначающий им ранг по релевантности относительно запроса пользователя – был задуман как часть проекта «разработать технологии для единой, интегрированной, универсальной цифровой библиотеки». Идея состояла в том, чтобы в будущем, когда все книги будут оцифрованы, вы смогли бы размечать их цитирование, смотреть, какие из них цитируют чаще всего, и использовать эти данные для улучшения результатов поиска, проводимого библиотекарями.
В 2002 году Пейдж решил, что настало время вернуться к книгам. Держа в голове 40-минутный отрезок времени, он пошёл к руководству Мичиганского университета, своей альма-матер и мировому лидеру по сканированию книг, чтобы узнать, как выглядят передовые технологии массовой оцифровки. В университете Пейджу сообщили, что с текущей скоростью полная оцифровка их коллекции в 7 миллионов томов займёт примерно тысячу лет. Пейдж, обдумавший к тому времени эту задачу, сообщил, что уверен, что они в Google справятся за шесть".
"К 2004 году Google начал сканирование. Всего за десять лет, договорившись с Мичиганом. Гарвардом, Стэнфордом, Оксфордом и Нью-Йоркской публичной библиотекой, а также с десятками других, компания опередила предсказание Пейджа, отсканировав 25 миллионов книг. На это у них ушло порядка $400 млн. И это было не только достижение технологий, но и логистики.
Каждые выходные фуры с книгами останавливались у специальных сканирующих центров Google. Стэнфордскую библиотеку переваривал центр в кампусе Маунтин-вью, располагавшийся в бывшем офисном здании. Книги разгружались с грузовиков на библиотечные тележки, и доставлялись к людям-операторам, сидящим за несколькими десятками сканирующих станций, расставленных рядами на расстоянии 2-3 метров друг от друга".
"Станции, которые на самом деле не сканировали, а фотографировали книги, были построены компанией с нуля. Каждая могла оцифровывать книги со скоростью 1000 страниц в час. Книга лежала на механической подставке, подстраивающейся под корешок и фиксирующей её на месте. Над ней располагался массив светильников и оптические устройства на сумму не менее $1000 – четыре камеры, направленные по две на каждую из половинок книги, и лидар, создававший трёхмерную решётку на поверхности страниц для корректировки их кривизны. Оператор переворачивал страницы вручную – ни одна машина не смогла бы делать это так быстро и аккуратно – и делал фото при помощи ножной педали, будто бы играя на странном пианино.
Эффективность системы обеспечивалась специальным ПО. Вместо попыток идеально расположить каждую страницу и разровнять её перед фотографированием, что тормозило традиционные системы сканирования, изображения изогнутых страниц скармливались расправляющим алгоритмам, использовавшим данные с лидаров и хитроумную математику для распрямления текста.
На пике развития в проекте участвовало 50 программистов на полный рабочий день. Они разработали ПО для оптического распознавания символов, превращавшее фото в текст. Они писали процедуры для распрямления, коррекции цвета и исправления контраста, чтобы изображения было легче обрабатывать. Они разработали алгоритмы для обнаружения иллюстраций и диаграмм, для извлечения номеров страниц, для обработки сносок, и для ранжирования книг по релевантности, согласно ранним исследованиям Брина и Пейджа. «Книги не являются частью какой-то сети, – сказал Дэн Клэнси, директор проекта в его активной фазе. – Понять связи между книгами – сложнейшая исследовательская задача».
"«В Google очень многие люди задавали вопросы по поводу целесообразности траты денег на такой проект, в то время как мы занимались разработкой Google Book Search», – сказал мне Клэнси. «А когда Google начал внимательнее присматриваться к своим тратам, тогда начали говорить: 'Погодите, это что, у нас сканирование книг отнимает $40 — $50 млн в год? И всего это обойдётся нам в $300-$400 млн? Вы о чём думали?' Но Ларри и Сергей очень поддерживали этот проект».
В августе 2010 года Google в блогпосте объявил о том, что в мире насчитывается 129 864 880 книг, и сообщил, что собирается отсканировать их все. Конечно, всё получилось немного не так.
Узнав, что компания просто берёт миллионы книг из библиотек, сканирует их, и возвращает, как ни в чём не бывало, авторы и издатели подали множество судебных исков против компании, обвиняя её в «массивном нарушении авторских прав».
Google решил, что проще попросить прощения, чем разрешения, но прощения ему не дали.
Законная компенсация за «намеренное нарушение» копирайта может достигать суммы в $150 000 за каждое произведение. Потенциальная ответственность компании за копирайт десятков миллионов букв могла обойтись ей в триллионы долларов. «Google было о чём волноваться, если она ставила свою фирму на кон в деле о добросовестном использовании», – писала Памела Сэмюэльсон, профессор юриспруденции из Калифорнийского университета в Беркли в 2011-м.
Правообладатели посчитали, что если они позволят Google продолжать оптом копировать все книги в Америке, это создаст опасный прецедент, который вообще может привести к исчезновению копирайта. Общественный фонд «Гильдия авторов» и несколько авторов книг лично подали публичный иск к Google от лица всех владельцев авторских прав на книги. Отдельно от них свой иск подала группа издателей, но затем они объединили иски в один".
"Основная проблема с переставшими издаваться книгами в том, что непонятно, кто ими владеет. Автор мог подписать договор с издателем 40 лет назад. Контракт постулировал, что права возвращаются к автору после того, как книгу перестают печатать, но требовал, чтобы автор отправил на этот счёт письменное уведомление, и наверняка не упоминал ничего по поводу цифровых прав. И всё это было записано на каких-то бумажных носителях, которых уже ни у кого не было.
По оценкам, примерно половина книг, издававшихся с 1923 по 1963 года, уже находятся в общественном достоянии – просто никто точно не знает, какая именно половина. Интеллектуальные права необходимо было обновлять, и часто правообладатель не заморачивался с документированием своих действий, а даже если и документировал что-то, то бумаги могли пропасть.
Переломный момент в деле «гильдия авторов против Google» наступил, когда стало ясно, что проблему можно просто обойти. Иск был подан от лица общественности, включая всех, кто в США владел правами на одну или несколько книг. Таким способом авторы и издатели просто давали бы Google зелёный свет.
То, что стало известным, как "исправленное соглашение по поиску в книгах от Google", вылилось в 165 страниц и более чем десяток дополнений. На уточнение всех деталей ушло два с половиной года. Сарноф описывал переговоры между авторами, издателями, библиотеками и Google, как «четырёхмерные шахматы». «Все, кто работал над ним, – сказал он мне, – реально все, люди со всех сторон дела, считали, что если им удастся успешно завершить это дело, оно станет самым важным делом всей их карьеры». В результате Google попал на $125 млн, включая единовременную выплату в $45 млн правообладателям уже отсканированных книг – порядка $60 за книгу – и $15,5 млн штрафов в пользу издателей, $30 млн в пользу авторов и $34,5 млн на создание Реестра.
Соглашение описывало, как освобождённые из забвения старые книги можно показывать и продавать. Согласно ему, Google сможет предварительно показывать до 20% книги, чтобы заинтересовать читателя, и предлагать купить скачиваемые копии книг по цене, определяемой по заданному правообладателем алгоритму. Обычно цены должны будут попадать в промежуток от $1,99 до $29,99. Все старые книги также организовываются в «базу данных подписки для организаций», которую смогут покупать университеты и давать пользоваться ею студентам и сотрудникам на бесплатной основе. А параграф §4.8(a) соглашения описывал создание беспрецедентного «общественного сервиса», который может быть воплощён на библиотечных терминалах по всей стране".
"Публикация о ходе этого дела попадали в заголовки новостей. Эта сделка должна была встряхнуть всю индустрию. Авторы, издатели, конкуренты Google, учёные, библиотекари, правительство США, все заинтересованные лица следили за каждым движением дела. Когда председательствующий судья Денни Чин запросил мнения по поводу предложенного соглашения, они посыпались как из рога изобилия.
«Хотим ли мы, чтобы величайшая из существовавших библиотек была в руках одной гигантской корпорации, которая сможет взимать любую плату за доступ к ней?» – вопрошал Роберт Дарнтон, президент Гарвардской библиотеки.
Он боялся, что судьба базы данных GB повторит судьбу рынка академических журналов. Сначала цена будет приемлемой, но когда библиотеки и университеты станут зависеть от подписки, цена будет расти, и расти, пока не начнёт конкурировать с ростовщическими ценами на подписку на научные журналы. К примеру, в 2011 году годовая подписка на журнал сравнительной неврологии [Journal of Comparative Neurology] могла достигать $25 910.
Amazon беспокоился, что соглашение позволит Google открыть единственный в своём роде книжный магазин. Всем остальным желающим продавать старые книги нужно было разбираться с авторскими правами отдельно для каждой книги, что практически невозможно, а соглашение давало Google лицензию на все книги разом.
Это возражение привлекло внимание Министерства юстиции США, в частности его антимонопольного подразделения, начавшего исследовать соглашение. Минюст отметил, что соглашение даёт Google монопольные права на все старые книги. Чтобы получить сходные права на эти книги, конкурентам компании придётся пройти через тот же ненормальный процесс: массово их отсканировать, попасть под суд и попытаться договориться. «Даже если и был бы смысл полагать, что такая необычная история повторится, – писали из Минюста, – вряд ли можно назвать хорошей практикой поощрение намеренных нарушений копирайта и дальнейшие тяжбы».
Антимонопольный комитет постоянно возвращался к этому вопросу. По их мнению, соглашение и так уже было довольно шатким: изначальное дело касалось того, может ли Google показывать выдержки из отсканированных книг, а в результате соглашение вышло далеко за рамки рассматриваемого вопроса и остановилось на создании хитроумного онлайн-рынка, зависящего от бессрочного отказа авторов и издателей от авторских прав. А для давно не издававшихся книг этих авторов и издателей будет нелегко разыскать. «Это была попытка, – писал комитет, – использовать механизм группового иска для заключения бизнес-соглашений с прицелом на будущее, далеко выходящих за рамки судебного разбирательства».
Дэн Клэнси, ведущий инженер проекта в Google, участвовавший в выработке соглашения, считает, что на решение комитета повлияли не его компании-конкуренты, а именно те люди, которые, казалось бы, должны были его поддержать – энтузиасты библиотек, авторы учёных трудов и прочие. «Не знаю, что случилось бы с соглашением, если бы все эти противники не возражали бы так сильно против него, – сказал он мне. – Я не знаю, вмешался бы антимонопольный комитет, если бы такие люди, как Боб Дарнтонс или Пэм Сэмюельсон не были бы столь активны. Без них это были бы просто очередные жалобы Amazon и Microsoft на Google – а в этом нет ничего нового».
В завершении дела судья Денни Чин объявил, что соглашение было не «честным, адекватным и разумным», процитировав возражения антимонопольщиков".
"Мне странно думать, что где-то в Google хранится база данных с из 25 миллионов книг, и никому нельзя их читать".
Материал полностью здесь https://geektimes.ru/post/289377/