«Red teaming» в сфере ИИ выходит на новый уровень

Cynthia Brumfield

10.06.2026

ии Red Teaming кибербезопасность тестирование агенты ии csoonline.com

Когда Рам Шанкар Сива Кумар запустил команду «красных команд» (red team) по ИИ в Microsoft в 2019 году, эта дисциплина едва существовала. «Раньше ходила шутка, что всех, кто работал в области тестирования ИИ на проникновение, можно уместить в 14-футовом катамаране», — рассказывает он CSO. В то время подход Microsoft был знаком любому специалисту по кибербезопасности: […] — csoonline.com

Когда в 2019 году Рам Шанкар Сива Кумар запустил команду «красных команд» (red team) по ИИ в Microsoft, эта дисциплина едва существовала.

«Раньше ходила шутка, что всех, кто работал в области тестирования ИИ на проникновение, можно уместить в 14-футовом катамаране», — рассказывает он CSO.

В то время подход Microsoft был знаком любому специалисту по кибербезопасности: атаковать системы машинного обучения так же, как группы безопасности атаковали всё остальное. Выявлять слабые места, эмулировать противников и обнаруживать уязвимости до того, как продукты попадут к клиентам.

Затем появился GPT-4. «Инструментарий, который у нас был, изменился; на самом деле, он сломался», — говорит Сива Кумар. Атаки, которые его команда разработала против более ранних систем машинного обучения, больше не работали против больших языковых моделей. Инструменты пришлось перестраивать. Методологии пришлось разрабатывать заново. Даже определение самой работы пришлось переосмыслить.

«Нам пришлось полностью сменить инструменты, а также переосмыслить, что значит проводить тестирование на проникновение для системы ИИ», — говорит он.

Это переосмысление продолжается и сегодня. Искусственный интеллект (ИИ) в сфере тестирования на проникновение стал одной из самых быстрорастущих специальностей в кибербезопасности, с выделенными командами в Microsoft, Anthropic, OpenAI, Google и Nvidia. Но отрасль борется с более фундаментальным вопросом, чем выбор инструментов: какова, собственно, эта работа?

Не тест на проникновение вашего отца

Самое базовое различие между тестированием традиционного программного обеспечения и тестированием ИИ меняет всё остальное: ИИ не детерминирован, он вероятностен.

«Одна и та же атака может сработать только один раз из 100 или 10 раз из 100, или 90 раз из 100», — говорит CSO Дэйн Шерретс, штатный архитектор по инновациям в HackerOne. Это меняет подход групп безопасности к оценке рисков. Вместо того чтобы спрашивать, существует ли уязвимость, они должны также определить, как часто она проявляется, при каких условиях и можно ли её надёжно воспроизвести.

Пит Брайан, технический руководитель команды «красных команд» по ИИ в Microsoft, считает, что вероятностная природа систем ИИ коренным образом меняет процесс тестирования. Системы необходимо оценивать многократно, в различных условиях, чтобы понять, как они себя ведут и возникают ли рискованные результаты последовательно.

Проблема не только в том, что ИИ ведёт себя иначе, чем традиционное ПО. Он также способен на то, на что традиционное ПО никогда не было способно.

Том Гиллис, старший вице-президент/генеральный менеджер группы инфраструктуры и безопасности в Cisco, указывает на то, что передовые модели обнаруживают уязвимости в сложных программных системах со скоростью, которая казалась немыслимой всего несколько лет назад. «Они способны находить странные взаимозависимости», — говорит он CSO. «Я меняю состояние этого маленького кусочка, что меняет состояние того кусочка, что меняет состояние этого кусочка, что приводит к переполнению памяти».

Современные модели могут анализировать огромные базы кода и выявлять цепочки взаимодействий, которые в конечном итоге приводят к условиям, пригодным для эксплуатации, — взаимосвязи, которые упускают даже исследователи-люди после многих лет изучения.

Эта возможность работает в обе стороны. Та же вычислительная мощь, которая делает ИИ полезным для тестирования безопасности, делает сами системы ИИ новым типом цели, для исследования которой требуются иные методы.

«Подросток с грязным языком»

Традиционные «красные команды» тратят большую часть времени на моделирование изощрённых противников: государств, киберпреступных группировок, продвинутых постоянных угроз (APT). Команды «красных команд» по ИИ по-прежнему заботятся об этих субъектах, но список релевантных угроз значительно расширился.

«Одна из постоянных персон, на которой мы также фокусируемся, — это то, что моя команда ласково называет подростком с грязным языком», — говорит Сива Кумар из Microsoft.

Эта фраза отражает одну из определяющих реалий эпохи генеративного ИИ. Многие из наиболее значимых атак типа jailbreak и prompt injection были обнаружены не элитными операторами наступления. Их нашли любопытные пользователи, экспериментирующие с запросами, — люди, не обладавшие специальными знаниями, но имевшие достаточно креативности и времени.

«В 2019 году, если бы у нас было это интервью, я бы сказал: „Эй, моя работа — эмулировать противников уровня государств и эмулировать продвинутые постоянные угрозы“», — говорит Сива Кумар.

Эти противники по-прежнему важны. Но системы ИИ могут давать сбои в ответ на то, что обычные пользователи задают неожиданные вопросы, креативно манипулируют запросами или просто взаимодействуют с технологией так, как её разработчики никогда не предполагали.

Иэн Суонсон, руководитель отдела безопасности ИИ в Palo Alto Networks, видит это в том, как предприятия подходят к проблеме. «На самом деле это означает, что нам нужно проводить поведенческое тестирование ИИ на предмет рисков безопасности, надёжности и, возможно, даже репутационных рисков для бренда», — говорит он CSO.

Вопрос больше не в том, может ли злоумышленник взломать систему. Вопрос в том, может ли сама система вести себя так, что это создаёт риск — независимо от того, кто задаёт вопрос.

Безопасность идёт рука об руку с защитой

Такое переосмысление вывело тестирование ИИ на проникновение далеко за пределы его кибербезопасности.

Когда команда Microsoft запустилась в 2019 году, её основное внимание уделялось конфиденциальности, целостности и доступности систем машинного обучения — традиционной триаде CIA. Генеративный ИИ драматически расширил эту мандат. Вопросы доверия и безопасности теперь стоят наряду с традиционными вопросами безопасности. Дезинформация, опасные области знаний, риски манипулирования и вопросы автономного поведения ИИ — всё это сегодня входит в сферу деятельности многих команд «красных команд» по ИИ.

«Состав моей команды соразмерно увеличился, чтобы соответствовать моменту ИИ», — говорит Сива Кумар. В его команде теперь есть психолог, лингвист и специалист по биологическому оружию — опыт, который показался бы неуместным в традиционной службе безопасности.

Брайан рассматривает это расширение как естественное следствие роли ИИ в обществе. «Тестирование ИИ на проникновение имеет гораздо более широкий охват», — говорит он. «Нас беспокоят эти инженерно-технические элементы, но мы также охватываем социально-технические риски, связанные со стороной безопасности».

Эти расширенные наборы проблем означают оценку вреда, с которым редко сталкивались традиционные команды кибербезопасности: усиление дезинформации, психосоциальный риск, контент, который может нанести вред без участия какого-либо злоумышленника.

«Нам нужны гораздо более широкие наборы навыков — люди, которые глубоко задумываются о психосоциальном вреде или усилении дезинформации, — чтобы охватить весь спектр безопасности и защищённости ИИ», — говорит Брайан.

Растущий объём работы по тестированию ИИ на проникновение привлёк даже внимание Вашингтона. Исполнительный указ президента Байдена 2023 года официально определил тестирование ИИ на проникновение и потребовал предоставлять правительству результаты тестирования безопасности самых мощных моделей до их развёртывания. Позже президент Трамп отменил этот указ, оставив разработку стандартов в основном на усмотрение отрасли и добровольных рамок.

Тестирование всего автомобиля

Одна из самых распространённых ошибок, которые допускают организации, начиная тестирование систем ИИ, — это сосредоточение исключительно на модели.

Шерретс из HackerOne использует аналогию с автомобилем. Модель — это двигатель. Но система ИИ — это всё, что с ним связано: базы данных, API, учётные записи клиентов, платёжные системы, внутренние рабочие процессы. «Я призываю людей проводить тестирование всего автомобиля», — говорит он. «Нам нужно понимать не только двигатель, но и все остальные части, которые подключаются к этому двигателю и как они работают вместе, потому что то, как они соединяются и работают вместе, также может иметь уязвимости».

Слабые места часто возникают не из самой модели, а из взаимодействий между компонентами. Шерретс приводит в пример случай с Air Canada, чтобы проиллюстрировать свою мысль.

Чат-бот авиакомпании выдумал несуществующую политику возврата средств в связи с трауром. Клиент положился на неё. В итоге авиакомпания оказалась в суде. Никто не взламывал систему. Никто не использовал уязвимость в общепринятом смысле. Чат-бот вёл себя некорректно — и организация была признана ответственной за то, что её ИИ сказал от её имени.

По мере того как организации развёртывают ИИ-помощников в сфере обслуживания клиентов, продаж, отдела кадров и внутренних операций, такой тип сбоя становится всё более значимой категорией риска. Системе не нужно, чтобы на неё нападали, чтобы причинить вред. Ей достаточно просто ошибиться, не в то время и не перед тем человеком.

Проблема агентов

На протяжении большей части эпохи генеративного ИИ специалисты по «красным командам» в основном беспокоились о результатах. Будет ли модель галлюцинировать? Будет ли она утекать конфиденциальную информацию? Будет ли она генерировать вредоносный контент?

Агенты представляют собой совершенно иную категорию риска.

Агентные системы ИИ не просто генерируют текст. Они извлекают информацию. Они вызывают API. Они обрабатывают возврат средств. Они получают доступ к базам данных. Они выполняют задачи от имени пользователей с реальными последствиями. Уязвимость, заставляющая чат-бот сказать что-то не то, — это проблема коммуникации. Уязвимость в агенте, который выполняет бизнес-процессы, — это операционная проблема.

Сдвиг выходит за рамки тестирования самих систем ИИ. Гиллис из Cisco утверждает, что всё более мощные модели ИИ ускоряют темпы изменений в корпоративных средах, делая статические подходы к безопасности устаревшими. «Эта идея укрепления вашей инфраструктуры, а затем надежды, что она не изменится в течение 18 месяцев, — всё, она навсегда мертва и ушла в этой среде после Mythos», — говорит он CSO.

Это означает, что тестирование безопасности больше не может быть периодическим упражнением. По мере того как системы ИИ становятся более автономными, организации должны постоянно оценивать, как эти системы ведут себя в производственных средах. «Нам нужно тестировать поведение, чтобы убедиться, что агенты делают правильные вещи», — говорит Суонсон.

Брайан считает, что агентные системы вынуждают к сближению традиционных команд «красных команд» по кибербезопасности и команд «красных команд» по ИИ, что определит следующую фазу развития отрасли. В Microsoft эти две команды остаются отдельными организациями, но они работают всё более тесно, поскольку системы, которые они теперь тестируют, сочетают риски традиционного программного обеспечения с проблемами безопасности, специфичными для ИИ, которые ни одна из команд не может решить в одиночку.

«Агентный ИИ — это действительно пересечение всех рисков кибербезопасности, связанных с традиционными программными системами, наряду со всеми рисками безопасности и защищённости ИИ», — говорит он.

ИИ — это тоже командный вид спорта

Брайан указывает на решение Microsoft сделать инструменты тестирования безопасности ИИ открытым исходным кодом как на признание того, что проблему рисков ИИ не могут решить поставщики моделей за своих клиентов. Предприятия, развёртывающие ИИ, нуждаются в собственных возможностях тестирования. Не каждая организация будет содержать специализированную команду «красных команд» по ИИ, но каждая организация, развёртывающая ИИ, должна понимать его риски.

«Как и кибербезопасность, которая всегда была командным видом спорта, безопасность и защищённость ИИ — это действительно то, что движется сообществом», — говорит Брайан. «У каждого своя роль и ответственность».

Брайан также видит, что долгосрочная траектория развития отрасли склоняется к другому виду сближения. «Я думаю, просто наступит момент, когда наличие ИИ для тестирования на проникновение почти станет излишним, и это и будет тестирование на проникновение», — говорит он. «Все используют ИИ для улучшения своей работы независимо от области».

Отличительной чертой останется задача тестирования самих систем ИИ — вероятностных систем, которые расширяются по сфере охвата с каждой новой возможностью и которые могут нанести вред без чьего-либо намерения.

Пять лет назад тестирование ИИ на проникновение было нишевой специальностью, которой занималось всего несколько исследователей. Сегодня оно охватывает кибербезопасность, безопасность, дезинформацию, автономию и управление. Завтра оно снова будет выглядеть иначе — формируемое тем, на что окажется способно следующее поколение систем ИИ.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Cynthia Brumfield

Оригинал статьи