OpenAI отчаянно уходит от объяснений причин удаления пиратских книжных баз данных

OpenAI,авторские права,судебный процесс,библиотека LibGen,искусственный интеллект

OpenAI может столкнуться с ростом штрафов после удаления наборов пиратских книг, поскольку суд требует раскрыть причины удаления и внутренние сообщения, что может подтвердить умышленное нарушение авторских прав.

OpenAI может вскоре оказаться вынуждена объяснить, почему она удалила пару спорных наборов данных, состоящих из пиратских книг, и ставки в этом деле не могут быть выше. В центре коллективного иска от авторов, обвиняющих ChatGPT в незаконном обучении на их произведениях, лежит решение OpenAI удалить эти наборы данных, которое может стать решающим фактором в их победе. Неоспоримо, что OpenAI удалила наборы, известные как «Books 1» и «Books 2», ещё до выпуска ChatGPT в 2022 году. Созданные бывшими сотрудниками OpenAI в 2021 году, наборы собирались путём сканирования открытого интернета и захвата большинства их данных из теневой библиотеки Library Genesis (LibGen). По версии OpenAI, наборы вышли из употребления в тот же год, что привело к внутреннему решению об их удалении. Однако авторы подозревают, что в этом есть нечто большее. Они заметили, что OpenAI, по‑видимому, меняет свою позицию, отказываясь от утверждения, что «неиспользование» наборов стало причиной их удаления, а затем заявляя, что все причины удаления, включая «неиспользование», подпадают под привилегию адвокат‑клиент. Для авторов казалось, что OpenAI быстро отступает после того, как суд удовлетворил их запросы о предоставлении внутренних сообщений компании об «неиспользовании». На самом деле, обратный ход OpenAI лишь усилил желание авторов увидеть, как обсуждалось «неиспользование», и теперь они могут узнать все причины, по которым наборы были удалены. На прошлой неделе окружной судья США Она Ванг распорядилась заставить OpenAI предоставить все коммуникации с внутренними юристами о удалении наборов, а также «все внутренние ссылки на LibGen, которые OpenAI скрыла или удержала на основании адвокатско‑клиентской привилегии». По словам Ванг, OpenAI ошиблась, утверждая, что «неиспользование» не является «причиной» удаления наборов, одновременно заявляя, что оно должно считаться «причиной», подлежащей привилегии. В любом случае судья постановила, что OpenAI не может блокировать раскрытие информации об «неиспользовании», удалив лишь несколько слов из прошлых документов, находившихся в суде более года. «OpenAI меняет позицию относительно того, является ли «неиспользование» в качестве «причины» удаления Books1 и Books2 привилегией», — пишет Ванг. «OpenAI не может заявлять о «причине» (что подразумевает отсутствие привилегии), а затем утверждать, что эта «причина» привилегирована, чтобы избежать раскрытия». Кроме того, утверждение OpenAI о том, что все причины удаления наборов являются привилегированными, «вызывает сомнения», — заключила она, приказав к 8 декабря предоставить широкий спектр потенциально раскрывающих внутренних сообщений. OpenAI также обязана обеспечить доступ к своим внутренним юристам для допроса к 19 декабря. OpenAI утверждает, что никогда не отказывалась от своих заявлений и лишь использовала расплывчатую формулировку, приведшую к путанице относительно того, какие причины удаления наборов считаются непривилегированными. Но Ванг не приняла эту версию, заключив, что «даже если «причина», такая как «неиспользование», могла бы быть привилегирована, OpenAI отказалась от привилегии, превращая её в подвижную цель». По запросу комментариев OpenAI сообщила Ars, что «не согласна с решением и планирует обжаловать». До настоящего момента OpenAI скрывала мотивы своего решения, утверждая, что все причины удаления наборов являются привилегированными. Внутренние юристы участвовали в обсуждении удаления и даже были в копии канала Slack, первоначально названного «excise-libgen». Однако Ванг проверила эти сообщения и обнаружила, что «подавляющее большинство этих коммуникаций не привилегировано, так как они явно не содержат запросов юридической консультации и адвокат ни разу не вмешивался». В особенно непривилегированной серии сообщений один из юристов OpenAI, Джейсон Квон, высказался лишь один раз, отметив судью, что название канала следует изменить на «project-clear». Ванг напомнила OpenAI, что «весь канал Slack и все содержащиеся в нём сообщения не являются привилегированными лишь потому, что их создал адвокат или в их копию был включён юрист». Авторы считают, что раскрытие мотивов OpenAI может помочь доказать умышленное нарушение авторских прав при пиратском копировании книжных данных. Как пояснила Ванг, отказ OpenAI ставит под вопрос «добросовестность и состояние сознания» компании, что может увеличить штрафы в случае поражения. «В деле об авторском праве суд может увеличить компенсацию до 150 000 долларов за каждое нарушенное произведение, если нарушение было умышленным, то есть ответчик действительно осознавал infringing‑деятельность или его действия были результатом равнодушного пренебрежения правами правообладателя», — пишет Ванг. В транскрипте суда адвокат, представляющий часть истцов, Кристофер Янг отметил, что OpenAI может оказаться в беде, если доказательства покажут, что она отказалась использовать наборы в будущих моделях из‑за юридических рисков. Он также предположил, что OpenAI может использовать наборы под другими названиями, скрывая дальнейшие нарушения. Ванг также нашла противоречивой позицию OpenAI, продолжающей в недавних документах утверждать о добросовестных действиях, одновременно «искусно» удаляя свою добросовестную защиту и ключевые слова, такие как «невиновный», «разумно полагавшийся», «добросовестный». Эти изменения лишь усилили запросы о раскрытии авторской теории умышленности, пишет судья, отмечая, что искомые внутренние сообщения теперь критически важны для судебного рассмотрения. «Присяжные имеют право знать основания предполагаемой добросовестности OpenAI», — подчеркнула Ванг. Судья особенно раздражалась тем, как OpenAI, по её мнению, искажала решение Anthropic в защиту от требований авторов узнать больше об удалении наборов. В сноске Ванг упрекнула OpenAI в «странном» цитировании решения Anthropic, которое «существенно» искажало вывод судьи Уильяма Алспа, заявившего, что «скачивание пиратских копий книг законно, если они впоследствии используются для обучения LLM». На самом деле Алсп писал, что сомневается, что «любой обвиняемый нарушитель смог бы оправдать необходимость скачивания пиратских копий с сайтов, где их можно было бы законно приобрести или получить». По её мнению, решение OpenAI о пиратском копировании книжных данных, а затем их удалении, явно попадает в категорию действий, запрещённых Алспом. Для уточнения она процитировала приказ Алспа, в котором говорилось: «такое пиратство доступных копий по своей природе является непоправимо нарушающим, даже если пиратские копии сразу же используются в трансформирующем использовании и сразу же утилизируются». Для авторов получение привилегированных коммуникаций OpenAI может стать решающим фактором, как отмечает Hollywood Reporter в своем материале. Некоторые авторы считают, что ключ к победе может скрываться в показаниях генерального директора Anthropic Дарио Амодеи, обвиняемого в создании спорных наборов, когда он ещё работал в OpenAI. По документам судов, Амодеи также обладает информацией о уничтожении наборов. OpenAI попыталась противостоять запросу авторов о допросе Амодеи, но суд в марте поддержал их, заставив Амодеи ответить на главные вопросы о своей роли. Остаётся открытым, станет ли его показание сенсацией, но ясно, что OpenAI может столкнуться с трудностями в защите от обвинений в умышленном нарушении. Ванг отметила «фундаментальный конфликт» в ситуациях, когда сторона утверждает добросовестную защиту, опираясь на совет юриста, но затем блокирует исследование её состояния сознания, ссылаясь на адвокатско‑клиентскую привилегию, что, по её мнению, существенно ослабило защиту OpenAI. Итоги спора об удалениях могут повлиять на расчёт OpenAI о том, стоит ли в конечном итоге заключать мировое соглашение. На фоне соглашения Anthropic — крупнейшего в истории публичного коллективного иска по авторскому праву — авторы, подающие в суд исковое заявление, указывают на доказательства того, что Anthropic перестала «со страстью» обучать модели на пиратских книгах «по юридическим причинам». Это, по их мнению, именно тот «дымовой сигнал», который они надеются увидеть в скрытых Slack‑сообщениях OpenAI.

Visited 1 times, 1 visit(s) today

Самое просматриваемое: