Разработчики искусственного интеллекта (ИИ) из США бьют тревогу по поводу атак методом «дистилляции» «промышленного масштаба», осуществляемых китайскими лабораториями с целью эксфильтрации разнообразных данных из их моделей. Однако те же самые фирмы сами подвергаются широкой критике за использование чужих данных без разрешения для первоначального обучения этих моделей. Методы дистилляции — это распространенный способ обучения ИИ, при котором небольшие модели обучаются на выходных данных более крупных и передовых моделей с целью воспроизведения их производительности и поведения. Хотя методы дистилляции позволяют лабораториям ИИ создавать меньшие, более адаптированные модели для клиентов по значительно более низкой цене, американские фирмы обеспокоены тем, что враждебное использование таких методов китайскими конкурентами представляет собой фундаментальный риск для их бизнеса. В посте в блоге, посвященном обнаружению и предотвращению таких атак, разработчик ИИ Anthropic обвинил три китайские фирмы — DeepSeek, MiniMax Group Inc и Moonshot AI — в нарушении своих условий обслуживания путем коллективного создания более 24 000 мошеннических учетных записей, которые затем использовались для генерации более 16 миллионов взаимодействий с их общедоступными моделями Claude. «Дистилляция — это широко используемый и законный метод обучения», — заявили в компании. «Например, передовые лаборатории ИИ регулярно дистиллируют свои собственные модели для создания меньших и более дешевых версий для своих клиентов. Но дистилляцию также можно использовать в незаконных целях: конкуренты могут применять ее для получения мощных возможностей от других лабораторий за долю времени и затрат, которые потребовались бы для их самостоятельной разработки». Компания также предупредила, что, поскольку такие кампании «растут по интенсивности и изощренности», решение проблемы угроз для американских компаний в сфере искусственного интеллекта «потребует быстрых, скоординированных действий со стороны игроков отрасли, политиков и мирового сообщества ИИ». OpenAI, разработчик ChatGPT, также недавно уведомила законодателей США об угрозе дистилляции моделей, предупредив, что DeepSeek использует такие методы в рамках «постоянных усилий по паразитированию на возможностях, разработанных OpenAI и другими передовыми американскими лабораториями». В письме в Специальный комитет Палаты представителей США по стратегической конкуренции между США и Коммунистической партией Китая от 12 февраля 2026 года OpenAI подчеркнула, как китайские фирмы используют «сторонние маршрутизаторы» для обхода ограничений доступа и извлечения данных. «В более общем плане, за последний год мы наблюдали значительную эволюцию в более широкой экосистеме дистилляции моделей», — говорится в письме. «Например, китайские субъекты перешли от извлечения цепочки рассуждений (CoT) к более сложным многоэтапным конвейерам, которые сочетают генерацию синтетических данных, крупномасштабную очистку данных и оптимизацию предпочтений в стиле подкрепления. «Мы также видели, как китайские компании полагаются на сети неавторизованных реселлеров услуг OpenAI для обхода контроля нашей платформы», — продолжили они. «Это указывает на созревание экосистемы, которая позволяет проводить попытки дистилляции в больших масштабах, а также на способы, которыми злоумышленники могут скрывать свои личности и действия». В случае с Anthropic разработчик подробно описал, как китайские фирмы использовали коммерческие прокси-сервисы, которые перепродают доступ к Claude и другим передовым моделям ИИ в больших масштабах. «Эти сервисы используют то, что мы называем архитектурой ‘гидра-кластера’: обширные сети мошеннических учетных записей, которые распределяют трафик по нашему API [интерфейсу прикладного программирования], а также по сторонним облачным платформам», — заявили в компании. Они добавили, что каждая кампания по дистилляции, проводимая тремя китайскими фирмами, была обнаруживаемой из-за аномальных шаблонов использования, поскольку объем, структура и направленность запросов указывали на то, что происходит преднамеренное извлечение возможностей. «В одной примечательной технике их запросы просили Claude представить и изложить внутреннее обоснование завершенного ответа и пошагово записать его — по сути, генерируя обучающие данные цепочки рассуждений в больших масштабах», — говорится в сообщении. «Изучив метаданные запросов, мы смогли отследить эти учетные записи до конкретных исследователей». Google также отдельно пожаловалась в отчете, опубликованном 12 февраля, что ее модель Gemini все чаще становится мишенью атак дистилляции, причем одна кампания создала более 100 000 запросов, предназначенных для «воспроизведения способности Gemini к рассуждению на целевых неанглийских языках для широкого спектра задач». В отчете добавлено, что «извлечение модели и последующая дистилляция знаний позволяют злоумышленнику ускорить разработку ИИ быстро и со значительно меньшими затратами. Эта деятельность фактически представляет собой форму кражи интеллектуальной собственности (ИС)».
«Добросовестное использование» для одних, «кража данных» для других
Несмотря на опасения, высказанные разработчиками ИИ, каждая из этих фирм также широко обвиняется в краже базовых данных, используемых для обучения их собственных моделей. Например, в сентябре 2025 года Anthropic согласилась выплатить 1,5 млрд долларов для урегулирования коллективного иска по поводу использования более семи миллионов пиратских книг для обучения Claude и в настоящее время сталкивается с отдельным иском на 3 млрд долларов от музыкальных издателей за предполагаемое пиратство более 20 000 песен. OpenAI также сталкивается с 12 исками об авторском праве в Нью-Йорке по поводу использования материалов для обучения моделей без согласия или компенсации. Хотя эти дела были объединены в апреле 2025 года — в основном против воли лиц и новостных издателей, подавших в суд на компании, — постановление о передаче, вынесенное судебной коллегией США по многоокружному судебному разбирательству по делам о нарушениях, гласило, что дела «имеют общие фактические вопросы, возникающие из утверждений о том, что OpenAI и Microsoft использовали защищенные авторским правом произведения без согласия или компенсации для обучения своих больших языковых моделей (LLM) … которые лежат в основе генеративных продуктов искусственного интеллекта ответчиков».
Обучение моделей ИИ без согласия
В Великобритании Google и Microsoft грозят иски за предположительно незаконный сбор и использование личных данных людей для обучения своих моделей ИИ без согласия. Иск, поданный юридической фирмой Barings Law, на данный момент привлек 15 000 истцов, причем юридическая фирма утверждает о целом ряде нарушений конфиденциальности данных, включая сбор информации о голосах пользователей, демографических данных, времени, проведенном в приложениях, и личной информации, включая адреса электронной почты и содержимое писем. Представление в Бюро по авторским правам США от 30 октября 2023 года подчеркивает, как, по крайней мере, в глазах разработчиков моделей, использование материалов, защищенных авторским правом, является неотъемлемой частью создания генеративных систем ИИ. «В той мере, в какой защищенные авторским правом произведения используются в обучающих данных, это делается для анализа (статистических взаимосвязей между словами и понятиями), не связанного с какой-либо выразительной целью произведения», — говорится в нем. «Такой вид трансформационного использования признавался законным в прошлом, и его следует продолжать считать законным и в данном случае». В нем также добавлено, что использование произведений, защищенных авторским правом, для обучения их модели Claude будет считаться «добросовестным использованием», поскольку «это не препятствует продаже оригинальных произведений, и, даже если это коммерческое использование, оно все равно является достаточно трансформационным». В рамках отдельного судебного процесса, поданного против Anthropic крупными музыкальными издателями в ноябре 2023 года, фирма пошла дальше в своих аргументах, заявив, что «было бы невозможно собрать достаточный контент для обучения большой языковой модели, такой как Claude, посредством сделок по лицензированию на расстоянии вытянутой руки, независимо от цены». Computer Weekly обратилась к Anthropic, OpenAI и Google с вопросом о том, чем подходы DeepSeek и других китайских фирм существенно отличаются от их собственных подходов к использованию чужой ИС, но не получила ответа к моменту публикации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Sebastian Klovig Skelton




