Битва ботов на арене кибербезопасности

Maxwell Cooter

13.02.2026

ии кибербезопасность бенчмаркинг уязвимости Api облака csoonline.com

Компания Wiz разработала бенчмарк для оценки ИИ-агентов в кибербезопасности. Тестируются 257 реальных задач в пяти областях: обнаружение уязвимостей нулевого дня, CVE, безопасность API, веб- и облачных систем. Определяются лучшие ИИ-агенты для усиления команд защиты. — csoonline.com

ИИ-агенты все чаще рассматриваются как способ усиления возможностей команд кибербезопасности, но кто справляется лучше всех? Компания Wiz разработала набор эталонных тестов из 257 реальных задач, охватывающих пять направлений атак: обнаружение уязвимостей нулевого дня, обнаружение CVE (уязвимостей кода), безопасность API, веб-безопасность и облачная безопасность, чтобы выяснить это.

Wiz тестирует различные комбинации ИИ-агентов и их базовых ИИ-моделей на тестовом наборе, чтобы определить, кто получает наивысшие баллы в каждой из пяти категорий. Оценка является детерминированной и программной, с использованием нескольких факторов: многомерные рубрики для обнаружения уязвимостей нулевого дня и CVE; сопоставление конечных точек и степени серьезности для безопасности API и захват задержек для веб- и облачных задач.

Тесты в рамках эталонного испытания проводятся в изолированных контейнерах Docker с достаточными ресурсами и без ограничений по времени на каждую задачу, поэтому баллы отражают возможности, а не ограничения. Каждый агент использует свои нативные инструменты и модель выполнения «из коробки», и получает три попытки на каждую задачу, чтобы увидеть среднюю производительность.

В сообщении в блоге, анонсирующем бенчмарки Cyber model arena, Wiz уклончиво отзывается о результатах своих испытаний. Лучшим в своих испытаниях стал Claude Code, работающий на Claude Opus 4.6. Wiz, которая вскоре станет дочерней компанией Google, возможно, не очень заинтересована в публичном освещении этого. Однако отрыв Claude невелик, и обстоятельства могут быстро измениться. И по крайней мере, Gemini 3 Pro занял второе место.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Maxwell Cooter

Оригинал статьи

В тренде:

API, csoonline.com, бенчмаркинг, ИИ, кибербезопасность, облака, уязвимости

Искать на сайте

Битва ботов на арене кибербезопасности

В тренде:

Похожие новости:

Битва ботов на арене кибербезопасности

В тренде:

Похожие новости:

Новый GPT-5.5-Cyber от OpenAI обошел Claude Mythos 5 в бенчмарке

«Пять глаз» предупреждают ИБ-директоров: пора менять стратегию кибербезопасности под угрозой

OpenAI запускает новую инициативу для поиска и исправления багов в

Интернет-гиганты захватывают рынок AI-здравоохранения: ByteDance, Tencent, JD Health и Ant