Стремясь упростить этот процесс тестирования, во вторник компания Microsoft представила ASSERT — аббревиатуру от Adaptive Spec-driven Scoring for Evaluation and Regression Testing (Адаптивное балльное оценивание на основе спецификаций для оценки и регрессионного тестирования).
По заявлению Microsoft, эта платформа с открытым исходным кодом упрощает оценку специфического для приложений поведения ИИ, используя сам ИИ для преобразования высокоуровневых описаний целей, политик или предполагаемого поведения на естественном языке в исчерпывающие, оцененные тесты, которые можно исследовать.
ASSERT принимает описания ожидаемого поведения и политик модели ИИ на простом языке, преобразует их в структурированный набор допустимого и недопустимого поведения, генерирует проблемные сценарии и тестовые случаи, запускает их против целевой системы и оценивает результаты. Он также может записывать пути, которые проходит система ИИ, включая промежуточные действия и вызовы инструментов, чтобы разработчики могли проверить, где возникают сбои.
Разработчики также могут предоставить контекст системы, инструменты и ограничения, если они хотят дополнительно настроить охват оценок.
Например, разработчик может указать, что агент ИИ для исследования документов не должен отправлять электронные письма сотрудникам за пределами компании, ограничивать конфиденциальную информацию руководителями высшего звена (C-level) и предоставлять краткие резюме с учетом предыдущего контекста. ASSERT будет использовать эти правила для генерации тестовых случаев, проверяющих, соблюдает ли система эти правила на постоянной основе.

Согласно Microsoft, эта платформа восполняет пробел, который не могут заполнить более широкие и общие оценки, когда предполагается, что модели ИИ должны вести себя в манере, определяемой контекстом, политиками и инструментами приложения или продукта.
«Один из уроков, который мы усвоили, заключается в том, что оценки абсолютно критичны для принятия правильных решений», — заявила Сара Бёрд, директор по продуктам в области ответственного ИИ (Responsible AI) в Microsoft. «Потому что, если вы не понимаете поведение системы ИИ, очень трудно понять, соответствует ли она стандартам вашей организации […] Мы обнаружили, что если вы действительно хотите иметь надежную систему, вам следует оценивать гораздо больше измерений, специфичных для конкретного приложения».
Бёрд отметила, что ASSERT можно использовать для оценки систем на этапе разработки, после развертывания и даже для непрерывного мониторинга.
Выпуск этой платформы происходит на фоне постепенного, но более широкого сдвига в индустрии ИИ. По мере того как модели становятся все более мощными, исследователи сосредотачиваются на повторяемом тестировании и регрессионных проверках. Такие проекты, как HELM от Стэнфорда, AILuminate от MLCommons и группы по оценке, такие как METR, выпускают эталонные тесты для измерения того, как модели ведут себя в различных условиях.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Ram Iyer




