Разработчик нейросети Claude "попал" на $1,5 миллиарда за пиратские книги⁠⁠

Здарова, пикабушники! Сегодня новость из мира нейросетей - компания Anthropic, создатель популярного чат-бота Claude, согласилась выплатить писателям полтора миллиарда долларов. Причина? Обучали свой искусственный интеллект на книгах, скачанных с пиратских сайтов. Давайте разберемся, как так вышло и почему это касается каждого, кто пользуется или работает с ИИ.

Как докатились до жизни такой: короткая история одного иска

Все началось, когда группа авторов, среди которых триллер-романистка Андреа Бартц и авторы нон-фикшн Чарльз Грэбер и Кирк Уоллес Джонсон, подала коллективный иск против Anthropic. Они обвинили компанию в том, что та для обучения своей нейросети Claude использовала миллионы книг, скачанных с пиратских "теневых библиотек", таких как Library Genesis (LibGen) и Pirate Library Mirror.

Суд в Сан-Франциско вынес поистине соломоново решение.

С одной стороны, он признал, что сам процесс обучения нейросети на книгах подпадает под доктрину "добросовестного использования" (fair use). Это значит, что использовать защищенные авторским правом материалы в трансформационных целях, например, для обучения ИИ - законно.

Но, как говорится, есть один нюанс. Судья четко разделил сам процесс обучения и способ получения данных. И вот тут Anthropic прокололась: одно дело - обучать модель на легально купленных книгах, и совсем другое - нагло качать их с торрентов. Именно за скачивание и хранение пиратских копий компания и будет платить.

Почему так много? Разбор полетов

Сумма в $1,5 миллиарда - это не просто много, это, возможно, крупнейшая компенсация по делу о нарушении авторских прав в истории. Вот из чего она сложилась:

Цена за книгу: по условиям мирового соглашения, Anthropic заплатит около $3000 за каждое из примерно 500 000 произведений, которые были использованы незаконно.
Минимальный порог: 1,5 миллиарда это лишь стартовая сумма. Если в ходе проверки выяснится, что пиратских книг было больше - компания доплатит по 3000 за каждое новое найденное произведение.
Репутация дороже: Вероятно, Anthropic решила, что проще заплатить, чем продолжать судебные тяжбы, которые могли бы обойтись еще дороже и нанести серьезный удар по репутации.

Помимо выплаты денег, компания обязалась удалить все нелегально скачанные книги из своих наборов данных для обучения будущих моделей.

Что все это значит для будущего ИИ?

Этот случай - звоночек (вот прям громкий) для всей IT-индустрии, особенно для разработчиков генеративных нейросетей. Вот главные выводы:

Обучать можно, воровать - нельзя. Суд подтвердил, что обучение ИИ на защищенных авторским правом материалах - это "добросовестное использование" (или Fair Use доктрина на западе). Но только если эти материалы получены легально. Видимо для обучения моделей больше не стоит сгребать все подряд из интернета.
Данные - это новая нефть (и за нее надо платить). Теперь AI-компаниям придется либо покупать данные для обучения по лицензии, либо использовать открытые и общедоступные наборы данных. Это может замедлить разработку и сделать ее дороже, но зато - законно.
Другие гиганты на очереди? Подобные иски поданы и против других крупных игроков, таких как OpenAI (создатели ChatGPT) и Meta. Решение по делу Anthropic создает мощный прецедент и может подтолкнуть суды к более жестким вердиктам в отношении других компаний.

Кажется, что технологические гиганты больше не могут игнорировать интеллектуальную собственность в погоне за инновациями. Будущее уже здесь, и оно требует лицензий. А что вы думаете по этому поводу? Вы на стороне авторов-копирастов или в целом поддерживаете прогресс и считаете, что решение явно не по делу?