Представлена первая в мире основанная на доказательствах система GAPS для оценки искусственного интеллекта в области конкретных заболеваний.

медицинский ии,языковые модели,gaps,оценка ии,здравоохранение,ant health

Ant Health и академик Ван Цзюнь представили GAPS – первую систему оценки ИИ в медицине, анализирующую возможности языковых моделей в диагностике заболеваний. GAPS включает оценку глубины, полноты, устойчивости и безопасности решений ИИ.

Ant Health и команда академика Ван Цзюня из Пекинского университета объединяют усилия.

Ant Health совместно с командой академика Ван Цзюня из Народной больницы Пекинского университета представили GAPS (Обоснованность, Адекватность, Возмущение, Безопасность) – первую в мире систему оценки, предназначенную для анализа возможностей больших языковых моделей в конкретных заболеваниях на основе доказательной базы. Вместе с системой команда также выпустила сопутствующий эталонный набор данных GAPS-NSCLC-preview.

Эта инициатива устраняет давнее ограничение в оценке медицинского ИИ, которая в значительной степени опиралась на вопросы и ответы в стиле “экзамена” и не имела систематической оценки клинической глубины, полноты, надежности и безопасности.

Первоначальный эталонный тест фокусируется на немелкоклеточном раке легких (НМРЛ) и включает 92 вопроса, охватывающих 1691 пункт клинических решений, поддерживаемых полностью автоматизированной цепочкой инструментов оценки. Благодаря сочетанию генерации вопросов, основанной на руководствах, с многоагентным сотрудничеством, исследовательская группа достигла сквозной автоматизации – от создания вопросов и разработки критериев оценки до многомерной оценки. Все соответствующие статьи, наборы данных и подробности о системе были опубликованы в открытом доступе.

GAPS разделяет клиническую компетентность на четыре ортогональных измерения:

Обоснованность (G) – глубина клинического мышления за пределами фактического воспроизведения.

Адекватность (A) – полнота ответа.

Возмущение (P) – устойчивость в условиях неопределенности или противоречивых данных.

Безопасность (S) – соблюдение непреложных границ клинической безопасности.

Примечательно, что измерение безопасности вводит строгое правило “нулевой терпимости”: любая катастрофическая или вредная клиническая рекомендация приводит к автоматическому обнулению общего балла.

Проект следовал четкому разделению труда: клиническая команда Ван Цзюня определяла медицинские стандарты, а Ant Health занималась инженерией и системной реализацией, формируя модель сотрудничества “врач устанавливает стандарты, ИИ обеспечивает масштаб”. Результаты были применены к “AQ” (A-Fu от Ant). Используя GAPS, команда оценила несколько ведущих моделей, включая GPT-5, Gemini 2.5 Pro и Claude Opus 4. Результаты показывают, что, хотя модели хорошо справляются с фактическим воспроизведением, их производительность резко падает в задачах более высокого порядка, требующих рассуждений в условиях неопределенности и принятия клинических решений.

Выпуск GAPS знаменует собой важный сдвиг в оценке медицинского ИИ – от оптимизации “результатов тестов” к оценке истинной клинической компетентности.

Источник: QbitAi

Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
8/7