Ant Health и команда академика Ван Цзюня из Пекинского университета объединяют усилия.
Ant Health совместно с командой академика Ван Цзюня из Народной больницы Пекинского университета представили GAPS (Обоснованность, Адекватность, Возмущение, Безопасность) – первую в мире систему оценки, предназначенную для анализа возможностей больших языковых моделей в конкретных заболеваниях на основе доказательной базы. Вместе с системой команда также выпустила сопутствующий эталонный набор данных GAPS-NSCLC-preview.
Эта инициатива устраняет давнее ограничение в оценке медицинского ИИ, которая в значительной степени опиралась на вопросы и ответы в стиле “экзамена” и не имела систематической оценки клинической глубины, полноты, надежности и безопасности.
Первоначальный эталонный тест фокусируется на немелкоклеточном раке легких (НМРЛ) и включает 92 вопроса, охватывающих 1691 пункт клинических решений, поддерживаемых полностью автоматизированной цепочкой инструментов оценки. Благодаря сочетанию генерации вопросов, основанной на руководствах, с многоагентным сотрудничеством, исследовательская группа достигла сквозной автоматизации – от создания вопросов и разработки критериев оценки до многомерной оценки. Все соответствующие статьи, наборы данных и подробности о системе были опубликованы в открытом доступе.
GAPS разделяет клиническую компетентность на четыре ортогональных измерения:
Обоснованность (G) – глубина клинического мышления за пределами фактического воспроизведения.
Адекватность (A) – полнота ответа.
Возмущение (P) – устойчивость в условиях неопределенности или противоречивых данных.
Безопасность (S) – соблюдение непреложных границ клинической безопасности.
Примечательно, что измерение безопасности вводит строгое правило “нулевой терпимости”: любая катастрофическая или вредная клиническая рекомендация приводит к автоматическому обнулению общего балла.
Проект следовал четкому разделению труда: клиническая команда Ван Цзюня определяла медицинские стандарты, а Ant Health занималась инженерией и системной реализацией, формируя модель сотрудничества “врач устанавливает стандарты, ИИ обеспечивает масштаб”. Результаты были применены к “AQ” (A-Fu от Ant). Используя GAPS, команда оценила несколько ведущих моделей, включая GPT-5, Gemini 2.5 Pro и Claude Opus 4. Результаты показывают, что, хотя модели хорошо справляются с фактическим воспроизведением, их производительность резко падает в задачах более высокого порядка, требующих рассуждений в условиях неопределенности и принятия клинических решений.
Выпуск GAPS знаменует собой важный сдвиг в оценке медицинского ИИ – от оптимизации “результатов тестов” к оценке истинной клинической компетентности.
Источник: QbitAi
Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
8/7
Автор – Pandaily




