Представлена первая в мире основанная на доказательствах система GAPS для оценки искусственного интеллекта в области конкретных заболеваний.

Pandaily

30.12.2025

медицинский ии,языковые модели,gaps,оценка ии,здравоохранение,ant health

Ant Health и академик Ван Цзюнь представили GAPS – первую систему оценки ИИ в медицине, анализирующую возможности языковых моделей в диагностике заболеваний. GAPS включает оценку глубины, полноты, устойчивости и безопасности решений ИИ.

Ant Health и команда академика Ван Цзюня из Пекинского университета объединяют усилия.

Ant Health совместно с командой академика Ван Цзюня из Народной больницы Пекинского университета представили GAPS (Обоснованность, Адекватность, Возмущение, Безопасность) – первую в мире систему оценки, предназначенную для анализа возможностей больших языковых моделей в конкретных заболеваниях на основе доказательной базы. Вместе с системой команда также выпустила сопутствующий эталонный набор данных GAPS-NSCLC-preview.

Эта инициатива устраняет давнее ограничение в оценке медицинского ИИ, которая в значительной степени опиралась на вопросы и ответы в стиле “экзамена” и не имела систематической оценки клинической глубины, полноты, надежности и безопасности.

Первоначальный эталонный тест фокусируется на немелкоклеточном раке легких (НМРЛ) и включает 92 вопроса, охватывающих 1691 пункт клинических решений, поддерживаемых полностью автоматизированной цепочкой инструментов оценки. Благодаря сочетанию генерации вопросов, основанной на руководствах, с многоагентным сотрудничеством, исследовательская группа достигла сквозной автоматизации – от создания вопросов и разработки критериев оценки до многомерной оценки. Все соответствующие статьи, наборы данных и подробности о системе были опубликованы в открытом доступе.

GAPS разделяет клиническую компетентность на четыре ортогональных измерения:

Обоснованность (G) – глубина клинического мышления за пределами фактического воспроизведения.

Адекватность (A) – полнота ответа.

Возмущение (P) – устойчивость в условиях неопределенности или противоречивых данных.

Безопасность (S) – соблюдение непреложных границ клинической безопасности.

Примечательно, что измерение безопасности вводит строгое правило “нулевой терпимости”: любая катастрофическая или вредная клиническая рекомендация приводит к автоматическому обнулению общего балла.

Проект следовал четкому разделению труда: клиническая команда Ван Цзюня определяла медицинские стандарты, а Ant Health занималась инженерией и системной реализацией, формируя модель сотрудничества “врач устанавливает стандарты, ИИ обеспечивает масштаб”. Результаты были применены к “AQ” (A-Fu от Ant). Используя GAPS, команда оценила несколько ведущих моделей, включая GPT-5, Gemini 2.5 Pro и Claude Opus 4. Результаты показывают, что, хотя модели хорошо справляются с фактическим воспроизведением, их производительность резко падает в задачах более высокого порядка, требующих рассуждений в условиях неопределенности и принятия клинических решений.

Выпуск GAPS знаменует собой важный сдвиг в оценке медицинского ИИ – от оптимизации “результатов тестов” к оценке истинной клинической компетентности.

Источник: QbitAi

Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
8/7

Автор – Pandaily

Оригинал статьи

В тренде:

ant health, gaps, здравоохранение, медицинский ии, оценка ии, языковые модели

Интерес к программному обеспечению Spoor для мониторинга птиц с помощью ИИ растет.
11.12.2025
Программное обеспечение Spoor с использованием ИИ и компьютерного зрения помогает ветряным электростанциям и другим отраслям отслеживать популяции птиц и их миграционные пути, повышая точность идентификации до 96% и расширяя радиус действия до 2,5 км.
Строители наживаются на буме ИИ
02.12.2025
51‑летний ДеМонд Чемблис, переехавший из малого бизнеса в Огайо в должность супервайзера дата‑центра, теперь зарабатывает свыше $100 000 в год. В отрасли специалисты получают от $200 000 до $225 000, а компании добавляют бонусы, бесплатные обеды и удалённые позиции, чтобы справиться с нехваткой…
Merriam‑Webster назвал словом года «slop» на фоне дискуссий об искусственном интеллекте
15.12.2025
Контент, созданный искусственным интеллектом, доминировал в интернете в прошлом году, и американский словарь отметил это. Термин "slop" (хлам) был выбран словом года, описывая низкокачественный цифровой контент, производимый ИИ в больших количествах, и породивший "экономику хлама".
Инвестиции в индийские стартапы в сфере искусственного интеллекта достигнут 11 миллиардов долларов к 2025 году по мере того, как инвесторы становятся более разборчивыми.
28.12.2025
В 2025 году раунды финансирования стартапов в Индии резко сократились, поскольку инвесторы сосредоточили капитал в меньшем количестве компаний. Анализ ситуации на рынке ИИ, венчурные инвестиции и государственная поддержка стартап-экосистемы.

Представлена первая в мире основанная на доказательствах система GAPS для оценки искусственного интеллекта в области конкретных заболеваний.

В тренде:

Интерес к программному обеспечению Spoor для мониторинга птиц с помощью ИИ растет.

Строители наживаются на буме ИИ

Merriam‑Webster назвал словом года «slop» на фоне дискуссий об искусственном интеллекте