Иск, поданный от имени Элизабет Лайон, писательницы из Орегона, утверждает, что Adobe использовала пиратские версии многочисленных книг, включая её собственную, для обучения программы компании SlimLM.
Adobe описывает SlimLM как серию небольших языковых моделей, которые могут быть «оптимизированы для задач помощи с документами на мобильных устройствах». Компания заявляет, что SlimLM была предварительно обучена на SlimPajama-627B — «дедуплицированном, многокорпусном наборе данных с открытым исходным кодом», выпущенном Cerebras в июне 2023 года. Лайон, автор ряда руководств по нехудожественному письму, утверждает, что некоторые из её работ были включены в набор данных для предварительного обучения, использованный Adobe.
В иске Лайон, о котором первоначально сообщило агентство Reuters, говорится, что её тексты были включены в обработанный поднабор манипулируемого набора данных, который лёг в основу программы Adobe: «Набор данных SlimPajama был создан путём копирования и манипулирования набором данных RedPajama (включая копирование Books3)», — говорится в иске. «Таким образом, поскольку SlimPajama является производной копией набора данных RedPajama, он содержит набор данных Books3, включая защищённые авторским правом произведения Истца и членов Класса».
«Books3» — огромная коллекция из 191 000 книг, использовавшихся для обучения систем генеративного ИИ, — является постоянным источником юридических проблем для технологического сообщества. RedPajama также упоминался в ряде судебных разбирательств. В сентябре иск против Apple утверждал, что компания использовала материалы, защищённые авторским правом, для обучения своей модели Apple Intelligence. В иске упоминался набор данных и утверждалось, что технологическая компания копировала защищённые работы «без согласия и без указания авторства или компенсации». В октябре аналогичный иск против Salesforce также утверждал, что компания использовала RedPajama для обучения.
К сожалению для технологической индустрии, подобные иски к настоящему времени стали несколько обыденными. Алгоритмы ИИ обучаются на массивных наборах данных, и в некоторых случаях эти наборы данных предположительно включали пиратские материалы. В сентябре Anthropic согласился выплатить 1,5 миллиарда долларов ряду авторов, которые подали на него в суд, обвиняя в использовании пиратских версий их работ для обучения своего чат-бота Claude. Дело считалось потенциальным поворотным моментом в продолжающихся юридических баталиях вокруг материалов, защищённых авторским правом, в данных для обучения ИИ, которых немало.
Автор – Lucas Ropek




