ИИ-агенты все чаще рассматриваются как способ усиления возможностей команд кибербезопасности, но кто справляется лучше всех? Компания Wiz разработала набор эталонных тестов из 257 реальных задач, охватывающих пять направлений атак: обнаружение уязвимостей нулевого дня, обнаружение CVE (уязвимостей кода), безопасность API, веб-безопасность и облачная безопасность, чтобы выяснить это.
Wiz тестирует различные комбинации ИИ-агентов и их базовых ИИ-моделей на тестовом наборе, чтобы определить, кто получает наивысшие баллы в каждой из пяти категорий. Оценка является детерминированной и программной, с использованием нескольких факторов: многомерные рубрики для обнаружения уязвимостей нулевого дня и CVE; сопоставление конечных точек и степени серьезности для безопасности API и захват задержек для веб- и облачных задач.
Тесты в рамках эталонного испытания проводятся в изолированных контейнерах Docker с достаточными ресурсами и без ограничений по времени на каждую задачу, поэтому баллы отражают возможности, а не ограничения. Каждый агент использует свои нативные инструменты и модель выполнения «из коробки», и получает три попытки на каждую задачу, чтобы увидеть среднюю производительность.
В сообщении в блоге, анонсирующем бенчмарки Cyber model arena, Wiz уклончиво отзывается о результатах своих испытаний. Лучшим в своих испытаниях стал Claude Code, работающий на Claude Opus 4.6. Wiz, которая вскоре станет дочерней компанией Google, возможно, не очень заинтересована в публичном освещении этого. Однако отрыв Claude невелик, и обстоятельства могут быстро измениться. И по крайней мере, Gemini 3 Pro занял второе место.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Maxwell Cooter




