Похоже, OpenAI не только проиграла борьбу за то, чтобы не допустить изучения новостными организациями 20 миллионов логов ChatGPT для поиска доказательств нарушения авторских прав, но теперь сталкивается с призывами к санкциям и требованиями восстановить и предоставить потенциально миллионы удаленных чатов, которые долгое время считались неприкосновенными в судебном процессе.
В понедельник окружной судья США Сидни Стайн отклонил возражения OpenAI, утверждавшей, что магистратский судья Она Ванг не смогла адекватно сбалансировать интересы конфиденциальности пользователей ChatGPT, не участвующих в судебном процессе, приказывая OpenAI предоставить 20 миллионов логов.
Вместо этого OpenAI хотела, чтобы Стайн согласился с тем, что для пользователей было бы гораздо менее обременительно, если бы OpenAI запустила поисковые запросы, чтобы найти потенциально нарушающие авторские права результаты в выборке. Таким образом, новостные истцы получили бы доступ только к чатам, имеющим отношение к их делу, предложила OpenAI.
Но Стайн обнаружил, что Ванг надлежащим образом взвесила интересы конфиденциальности пользователей ChatGPT, когда приказала OpenAI предоставить логи. Например, для защиты пользователей ChatGPT общее количество предоставленных логов было значительно сокращено с десятков миллиардов до 20 миллионов, написал он, и OpenAI удалила всю идентифицирующую информацию из любых чатов, которые будут предоставлены.
Стайн далее согласился с тем, что новостным истцам нужен доступ ко всей выборке, потому что, как написала Ванг, даже “логи вывода, которые не содержат воспроизведения работ новостных истцов, все равно могут иметь отношение к защите добросовестного использования OpenAI”.
Хотя OpenAI утверждала, что Ванг следовало одобрить “наименее обременительный” путь к конфиденциальности пользователей, компания, занимающаяся искусственным интеллектом, не привела никаких прецедентов в поддержку этого аргумента, написал Стайн, как и ее утверждений о том, что Ванг была обязана предоставить им какие-либо объяснения для отклонения этого пути.
“Неспособность судьи Ванг явно объяснить, почему она отклонила предложение OpenAI о поисковых запросах, не является явно ошибочной или противоречащей закону, учитывая, что она адекватно объяснила свои причины для заказа производства всей 20-миллионной деидентифицированной выборки логов”, – написал Стайн, подтверждая приказ Ванг.
OpenAI в настоящее время рассматривает, остались ли какие-либо возможности для борьбы с приказом, но в основном это выглядит как конец пути, после того как фирма, занимающаяся искусственным интеллектом, поклялась сделать все, что в ее силах, чтобы избежать передачи разговоров обычных пользователей.
В ответ на просьбу о комментарии OpenAI указала Ars на блог, документирующий ее борьбу, последнее обновление которого было в середине декабря. В этом блоге подтверждено, что все данные, которые будут переданы, “прошли процесс деидентификации, предназначенный для удаления или маскировки PII и другой личной информации”. Новостные истцы смогут искать данные, но не смогут копировать или печатать какие-либо данные, не имеющие прямого отношения к делу, заявила OpenAI.
Новостные группы, возглавляемые The New York Times, считают, что логи вывода покажут доказательства нарушающих авторские права ответов чат-ботов, а также ответов, которые размывают товарные знаки новостных организаций или удаляют информацию об управлении авторскими правами (CMI), чтобы скрыть источник и облегчить нелицензированный вывод их контента.
Они, похоже, крайне разочарованы тем, что в их судебных документах описывается как тактика затягивания со стороны OpenAI и соответчика Microsoft, которая согласилась предоставить 8,1 миллиона логов Copilot, но не говорит, когда именно эти логи будут переданы.
В конце прошлого года новостные организации попросили суд рассмотреть вопрос о том, уместны ли санкции в отношении OpenAI.
Предположительно, новостным группам потребовалось 11 месяцев, чтобы узнать, что “OpenAI уничтожала соответствующие данные логов вывода”, не приостановив практику удаления, как только начался судебный процесс, включая “весьма значительную” часть данных логов вывода ChatGPT Free, Pro и Plus. Эти данные, которые, как утверждается, удалялись “непропорционально более высокими темпами”, скорее всего, содержат материалы, нарушающие авторские права, утверждают новостные группы, поскольку пользователи, побуждающие ChatGPT обходить платные экраны, скорее всего, настроят чаты на удаление.
OpenAI не предоставила “никакого объяснения тому, почему она уничтожала примерно 1/3 всех данных разговоров пользователей в течение месяца после того, как [The New York Times] подала иск, кроме не относящегося к делу нонсенса о том, что “количество разговоров в ChatGPT было нехарактерно низким (незадолго до Нового года 2024 года)”, – говорится в документе.
Описывая предполагаемую “игровую книгу” OpenAI по уклонению от претензий по авторским правам, новостные группы обвинили OpenAI в том, что она не “предприняла никаких шагов для приостановки своей обычной практики уничтожения”. Было также “два всплеска массового удаления”, которые OpenAI объяснила “техническими проблемами”.
Однако OpenAI позаботилась о сохранении результатов, которые могли бы помочь ее защите, утверждается в судебном документе, включая данные из учетных записей, упомянутых в жалобах новостных организаций.
OpenAI не проявила такой же заботы о сохранении чатов, которые могли быть использованы в качестве доказательств против нее, утверждают новостные группы, ссылаясь на показания Майка Триня, заместителя главного юрисконсульта OpenAI. “Другими словами, OpenAI сохранила доказательства того, что новостные истцы извлекали свои собственные работы из продуктов OpenAI, но удалила доказательства того, что это делали сторонние пользователи”, – говорится в документе.
Неясно, сколько данных было удалено, утверждают истцы, поскольку OpenAI не предоставляет “самую основную информацию” о своей практике удаления. Но, как утверждается, совершенно ясно, что OpenAI могла бы сделать больше для сохранения данных, поскольку у Microsoft, по-видимому, не было проблем с этим в Copilot, говорится в документе.
Новостные истцы надеются, что суд согласится с тем, что OpenAI и Microsoft ведут нечестную борьбу, затягивая передачу логов, что, по их словам, мешает им построить самое сильное дело.
Они попросили суд приказать Microsoft “немедленно” предоставить логи Copilot “в легкодоступном для поиска формате с удаленным доступом”, предложив крайний срок 9 января или “в течение дня после вынесения судом решения по этому ходатайству”.
Microsoft отклонила запрос Ars о комментарии.
Что касается OpenAI, то она хочет знать, можно ли восстановить удаленные логи, включая “массовые удаления”, что, возможно, вернет в судебный процесс миллионы других разговоров в ChatGPT, которые пользователи, вероятно, ожидали, что никогда больше не увидят свет.
В дополнение к возможным санкциям новостные истцы попросили суд оставить в силе приказ о сохранении, блокирующий OpenAI от безвозвратного удаления временных и удаленных чатов пользователей. Они также хотят, чтобы суд приказал OpenAI объяснить “полный объем уничтоженных данных логов вывода для всех своих продуктов, находящихся на рассмотрении” в судебном процессе, и можно ли восстановить эти удаленные чаты, чтобы новостные истцы также могли изучить их в качестве доказательств.
Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
7/9
Автор – Ashley Belanger




