Способность моделей ИИ выполнять комплексное многоэтапное тестирование на проникновение, сопоставимое с возможностями человека, выполняющего те же задачи, резко возросла за последние месяцы, согласно новым эталонным показателям, опубликованным Институтом безопасности ИИ (AISI) правительства Великобритании.
В ноябре 2025 года сложность киберзадач, которые могли выполнять лучшие модели, удваивалась каждые восемь месяцев, по данным AISI, исследовательской организации при Департаменте науки, инноваций и технологий (DSIT).
К февралю этого года темпы улучшения производительности ускорились: сложность задач, которые могли выполнять модели ИИ, удваивалась каждые 4,7 месяца, а с тех пор новейшие модели Claude Mythos Preview и GPT-5.5 демонстрируют еще более высокие возможности, как сообщает AISI.
Эталонные показатели временного горизонта, используемые AISI, сначала измеряют или оценивают время, которое потребуется эксперту-человеку для решения ряда задач в качестве прокси для их сложности, а затем оценивают самую длительную задачу (в человеко-часах), которую модели ИИ могут выполнить с уровнем успеха 80%. Это делает данный показатель мерой автономной способности, а не скорости: если человек может успешно выполнить набор задач по тестированию на проникновение за 4 часа, тестирование временного горизонта измеряет, насколько успешно модель ИИ может соответствовать этой возможности при заданной надежности.
Для достижения этого ИИ должен поддерживать производительность на протяжении нескольких шагов, сохраняя при этом контекст и восстанавливаясь после сбоев. Чем больше шагов, тем сложнее становится тестирование на проникновение и тем более значимыми являются результаты.
Как и во всех эталонных тестах, существуют оговорки. Первая заключается в том, что для сравнения производительности моделей с течением времени тестирование ограничивало системы ИИ низким порогом в 2,5 миллиона токенов. Это имеет ряд последствий, в том числе, в рамках этих тестов, ограничивает способность моделей ИИ отслеживать то, над чем они работали на более раннем этапе.
Как говорится в анализе AISI: «Они являются неточными предикторами производительности; ИИ испытывает трудности с некоторыми задачами, которые люди выполняют быстро, и легко справляется с другими, которые люди находят сложными. Однако мы используем этот тип эталонного теста, поскольку он предлагает меру автономии ИИ, на основе которой мы можем выявить тенденции».
Растущий риск
Это исследование вызывает обеспокоенность у правительства Великобритании.
«Наше независимое тестирование показывает, что кибервозможности ведущих систем ИИ развиваются намного быстрее, чем мы ожидали. Это важно, поскольку это не теоретические рассуждения — эти достижения уже начинают приводить к реальным рискам для организаций, особенно тех, у кого слабые меры киберзащиты», — заявил министр по вопросам ИИ Великобритании Канишка Нараян по электронной почте.
«Эти инструменты также могут помочь командам по кибербезопасности быстрее обнаруживать и устранять уязвимости. Великобритания лидирует в тестировании и понимании передового ИИ, и эта возможность будет только возрастать по мере того, как технология продолжит развиваться стремительными темпами», — добавил он.
В апреле министр по вопросам науки, инноваций и технологий Лиз Кендалл и министр безопасности Дэн Джарвис опубликовали открытое письмо, в котором предупредили предприятия о растущих рисках кибербезопасности, связанных с моделями ИИ.
Очевидно, что возможности моделей ИИ в реальных сценариях быстро улучшаются и, судя по недавней оценке AISI модели Claude Mythos Preview, вероятно, ускоряются.
Не все недавние эталонные тесты способностей ИИ решать сложные задачи дали столь впечатляющие результаты. В недавнем тесте 19 моделей ИИ на ряде задач, включая программирование, кристаллографию, генеалогию и нотацию музыкальных листов, исследователи из Microsoft обнаружили, что модели могут быть подвержены ошибкам и ненадежны, особенно при выполнении более длительных задач.
Кэт Траxлер, ведущий исследователь безопасности в Vectra AI, считает эти эталонные показатели полезным сигналом, на который предприятиям следует обратить внимание. «Эталонные тесты AISI не измеряют, могут ли модели обнаружить уязвимость. Скорее, они измеряют, могут ли различные модели объединять серию эксплойтов в работающие атаки для достижения конечной цели, как это делают реальные злоумышленники. Как сигнал наступательной способности, результаты AISI имеют реальный вес», — сказала она.
Однако она указала на недавнюю оценку Claude Mythos от Xbow, которая выявила неоднозначную производительность в некоторых задачах. «То, как эти известные ограничения моделей на самом деле ограничат реальные автономные наступательные кампании, еще предстоит определить, но это указывает на необходимость в сложном проверочном механизме для истинного понимания предела возможностей моделей».
По словам Криса Лентриччиа, директора по стратегии безопасности в области облачных технологий и ИИ в Sweet Security, предприятиям следует также рассмотреть положительную сторону — модели ИИ помогают как злоумышленникам, так и защитникам.
«Это не исключительно наступательная история. То же ускорение, улучшающее возможности злоумышленников, может также улучшить оборонительные возможности в таких областях, как проактивное обнаружение угроз и автоматизация реагирования. Эталонные тесты лучше всего рассматривать как индикаторы для понимания того, развиваются ли корпоративные средства защиты достаточно быстро, чтобы не отставать от ускоряющихся возможностей ИИ», — сказал Лентриччиа.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – John E. Dunn




