Две крупнейшие в мире компании в области искусственного интеллекта, Google и OpenAI, на этой неделе предупредили, что конкуренты, включая китайскую DeepSeek, пытаются получить доступ к их моделям, чтобы украсть лежащие в их основе принципы рассуждений, а затем скопировать эти возможности в своих собственных системах ИИ.
«Это исходит от злоумышленников со всего мира», — заявил аналитик группы Google Threat Intelligence Джон Халквист The Register, добавив, что злоумышленниками являются «компании частного сектора». Он отказался назвать конкретные компании или страны, причастные к такому типу кражи интеллектуальной собственности.
«Ваша модель — это действительно ценная интеллектуальная собственность, и если вы сможете выделить лежащую в ее основе логику, существует реальная возможность скопировать эту технологию, которая стоит недешево», — сказал Халквист. «Это настолько важная технология, и список заинтересованных сторон, стремящихся ее скопировать, бесконечен».
Google называет этот процесс использования запросов для клонирования своих моделей «атаками дистилляции» и в своем отчете в четверг заявил, что одна из кампаний использовала более 100 000 запросов, «чтобы попытаться воспроизвести способность Gemini к рассуждению на неанглийских целевых языках для широкого спектра задач».
Американские технологические гиганты потратили миллиарды долларов на обучение и разработку собственных больших языковых моделей. Злоупотребляя законным доступом к зрелым моделям, таким как Gemini, и используя эту информацию для обучения новых моделей, конкуренты значительно удешевляют и упрощают разработку собственных чат-ботов и систем ИИ.
Google заявляет, что обнаружила эту попытку в режиме реального времени и защитила свои внутренние следы рассуждений. Однако дистилляция, похоже, является еще одним риском в области ИИ, который чрезвычайно трудно, если не невозможно, устранить.
Это настолько важная технология, и список заинтересованных сторон, стремящихся ее скопировать, бесконечен
Дистилляция моделей Gemini без разрешения нарушает условия обслуживания Google, и Google может блокировать аккаунты, которые этим занимаются, или даже подавать на пользователей в суд. Хотя компания заявляет, что продолжает разрабатывать лучшие способы обнаружения и предотвращения таких попыток, сама природа больших языковых моделей делает их уязвимыми.
Общедоступные модели ИИ широко доступны, а борьба с злоупотребляющими аккаунтами может превратиться в игру «крысиные бега».
Кроме того, как предупредил Халквист, по мере того как другие компании разрабатывают свои собственные модели и обучают их на внутренних, конфиденциальных данных, риск атак дистилляции будет распространяться.
«Мы находимся на переднем крае в этом отношении, но по мере того, как все больше организаций предоставляют доступ к своим моделям, это неизбежно», — сказал он. «По мере того как эта технология будет внедряться и разрабатываться компаниями, такими как финансовые учреждения, их интеллектуальная собственность также может стать объектом нападения подобным образом».
Тем временем OpenAI в своем меморандуме [PDF] от четверга для Специального комитета Палаты представителей по Китаю обвинила DeepSeek и других китайских поставщиков больших языковых моделей и университеты в копировании ChatGPT и других передовых моделей американских компаний. Она также отметила некоторую периодическую активность со стороны России и предупредила, что незаконная дистилляция моделей представляет риск для «демократического ИИ под руководством США».
Методы дистилляции Китая за последний год стали более изощренными, выйдя за рамки извлечения цепочки рассуждений (CoT) и перейдя к многоэтапным операциям. К ним относятся генерация синтетических данных, масштабная очистка данных и другие скрытые методы. Как написала OpenAI:
В частности, наш анализ показывает, что DeepSeek продолжала проводить мероприятия, соответствующие враждебной дистилляции, направленной против OpenAI и других американских передовых лабораторий. Мы наблюдали, как сотрудники DeepSeek разрабатывали методы обхода ограничений доступа OpenAI и получали доступ к моделям через замаскированные сторонние маршрутизаторы и другими способами, скрывающими их источник. Мы также знаем, что сотрудники DeepSeek разработали код для доступа к американским моделям ИИ и получения результатов для дистилляции программными способами. Мы считаем, что DeepSeek также использует сторонние маршрутизаторы для доступа к передовым моделям других американских лабораторий.
OpenAI также отмечает, что инвестировала в более надежные средства обнаружения для предотвращения несанкционированной дистилляции. Она блокирует аккаунты, нарушающие ее условия обслуживания, и проактивно удаляет пользователей, которые, по-видимому, пытаются дистиллировать ее модели. Тем не менее, компания признает, что сама по себе не может решить проблему дистилляции моделей.
Для защиты от дистилляции потребуется подход «безопасности экосистемы», и это потребует некоторой помощи со стороны правительства США, заявляет OpenAI. «Недостаточно, чтобы какая-либо одна лаборатория укрепляла свою защиту, поскольку злоумышленники просто перейдут к наименее защищенному поставщику», — говорится в меморандуме.
Компания, занимающаяся ИИ, также предполагает, что политика правительства США «может быть полезной» в отношении обмена информацией и разведданными, а также сотрудничества с отраслью для разработки лучших практик по защите от дистилляции. OpenAI также призвала Конгресс закрыть лазейки в API-маршрутизаторах, которые позволяют DeepSeek и другим конкурентам получать доступ к американским моделям, и ограничить доступ «противников» к вычислительной и облачной инфраструктуре США. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Jessica Lyons




