В четверг Google объявил, что «коммерчески мотивированные» злоумышленники пытались скопировать знания из его чат-бота Gemini, просто отправляя ему запросы. В ходе одной из таких атак модель получили более 100 000 запросов на различных неанглийских языках, собирая ответы для обучения более дешевой копии.
Google опубликовал эти выводы в рамках своего квартального самоанализа угроз собственным продуктам, позиционируя компанию как жертву и героя, что неудивительно для таких самоизданных отчетов. Google называет эту незаконную деятельность «извлечением модели» и считает ее кражей интеллектуальной собственности, что является несколько спорной позицией, учитывая, что большая языковая модель Google была создана из материалов, собранных из Интернета без разрешения.
Google также не новичок в практике копирования. В 2023 году издание The Information сообщило, что команда Google Bard обвинялась в использовании выходных данных ChatGPT из ShareGPT, публичного сайта, где пользователи делятся беседами с чат-ботами, для обучения своей собственной модели. Старший научный сотрудник Google AI Джейкоб Девлин, создатель влиятельной языковой модели BERT, предупредил руководство о нарушении условий обслуживания OpenAI, после чего уволился и перешел в OpenAI. Google отрицал это обвинение, но, по сообщениям, прекратил использовать данные.
Тем не менее, условия обслуживания Google запрещают извлекать данные из его ИИ-моделей таким образом, и этот отчет открывает окно в мир несколько сомнительных тактик клонирования ИИ-моделей. Компания считает, что виновниками являются в основном частные компании и исследователи, ищущие конкурентное преимущество, и заявила, что атаки исходили со всего мира. Google отказался назвать подозреваемых.
Суть дистилляции
Обычно в индустрии эта практика обучения новой модели на основе выходных данных предыдущей модели называется «дистилляцией», и работает она следующим образом: если вы хотите создать свою собственную большую языковую модель (LLM), но у вас нет миллиардов долларов и лет работы, которые Google потратил на обучение Gemini, вы можете использовать ранее обученную LLM в качестве сокращенного пути.
,
Для этого необходимо подать существующей ИИ-модели тысячи тщательно отобранных запросов, собрать все ответы, а затем использовать эти пары входных-выходных данных для обучения меньшей, более дешевой модели. Результат будет в значительной степени имитировать поведение родительской модели, но, как правило, будет меньше по размеру. Это не идеально, но может быть гораздо более эффективным методом обучения, чем надежда построить полезную модель на случайных интернет-данных, включающих много «шума».
Модель-клон никогда не видит код или обучающие данные Gemini, но, изучив достаточное количество ее выходных данных, она может научиться воспроизводить многие ее возможности. Это можно сравнить с обратным инжинирингом рецептов шеф-повара, заказывая каждое блюдо из меню и восстанавливая рецепт, основываясь только на вкусе и внешнем виде.
В отчете, опубликованном Google, группа анализа угроз описывает растущую волну таких атак дистилляции на Gemini. Многие кампании были специально нацелены на алгоритмы, которые помогают модели выполнять симулированное рассуждение или принимать решения о поэтапной обработке информации.
Google заявил, что идентифицировал кампанию с 100 000 запросов и скорректировал защиту Gemini, но не уточнил, какие именно контрмеры были приняты.
Клон клона
Google — не единственная компания, обеспокоенная дистилляцией. OpenAI обвинила китайского конкурента DeepSeek в прошлом году в использовании дистилляции для улучшения своих моделей, и с тех пор эта техника распространилась по всей отрасли как стандарт для создания более дешевых и компактных ИИ-моделей на основе более крупных.
Грань между стандартной дистилляцией и кражей зависит от того, чью модель вы дистиллируете и есть ли у вас разрешение — различие, которое технологические компании потратили миллиарды долларов на защиту, но которое ни один суд еще не рассматривал.
,
Конкуренты используют дистилляцию для клонирования возможностей языковых моделей ИИ как минимум с эпохи GPT-3, а ChatGPT стал популярной целью после своего запуска.
В марте 2023 года, вскоре после того, как веса модели LLaMA от Meta* утекли в сеть, исследователи Стэнфордского университета создали модель под названием Alpaca, дообучив LLaMA на 52 000 выходных данных, сгенерированных GPT-3.5 от OpenAI. Общая стоимость составила около 600 долларов. Результат работал настолько похоже на ChatGPT, что сразу же возникли вопросы о том, можно ли защитить возможности любой ИИ-модели, если она доступна через API.
Позже в том же году xAI Илона Маска выпустила свой чат-бот Grok, который при отказе в определенных запросах ссылался на «политику использования OpenAI». Инженер xAI обвинил в этом случайное попадание выходных данных ChatGPT во время веб-скрапинга, но точность поведения, вплоть до характерной для ChatGPT формулировки отказа и привычки оборачивать ответы краткими резюме «В целом…», оставила многих в сообществе ИИ неубежденными.
До тех пор, пока LLM доступна публично, не существует надежного технического барьера, который мог бы помешать решительному злоумышленнику со временем сделать то же самое с моделью другого пользователя (хотя ограничение скорости помогает), что, по словам Google, и произошло с Gemini.
Дистилляция также происходит внутри компаний и часто используется для создания более мелких, более быстрых в исполнении версий старых, более крупных ИИ-моделей. Например, OpenAI создала GPT-4o Mini как дистиллированную версию GPT-4o, а Microsoft создала свое семейство компактных моделей Phi-3, используя тщательно отфильтрованные синтетические данные, сгенерированные более крупными моделями.
DeepSeek также официально опубликовала шесть дистиллированных версий своей модели рассуждения R1, самая маленькая из которых может работать на ноутбуке.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Benj Edwards




