Люди обращаются к ИИ за всевозможными советами, в том числе задают вопросы, которые обычно адресуют врачу. Однако в следующий раз, когда вам захочется спросить у ChatGPT, не является ли родинка на вашем лице раком кожи, учтите следующее: исследования показывают, что ведущие современные модели ИИ ошибаются при первичном дифференциальном диагнозе более чем в 8 из 10 случаев.
Команда исследователей под руководством студента Гарвардской медицинской школы Арьи Рао на этой неделе опубликовала в JAMA Network Open результаты исследования, в котором были проанализированы 21 ведущая готовая к использованию модель ИИ на основе 29 стандартизированных клинических сценариев. Все боты показали довольно хорошие результаты, когда им предоставлялся полный набор медицинской информации и предлагалось поставить окончательный диагноз: ведущие модели были правы в 91 проценте случаев. Проблема с уровнем отказов более 80 процентов возникает при первичном дифференциальном диагнозе, когда клиницисты пытаются исключить определенные состояния, взвешивая различные возможности.
“Каждая протестированная нами модель не справилась с подавляющим большинством случаев”, — сообщила Рао изданию The Register по электронной почте. “Это стадия, где неопределенность имеет наибольшее значение, и именно здесь эти системы наиболее уязвимы”.
Иными словами, это снова та самая ночная тревожная поездка по кроличьей норе WebMD, только усиленная ИИ, который, вероятно, ошибается даже чаще, чем вы без него.
“Наши результаты показывают, что современным готовым к использованию LLM нельзя доверять в вопросах диагностических рассуждений, ориентированных на пациента, без структурированной всесторонней проверки человеком, и они имеют существенные ограничения при использовании пациентами для самодиагностики”, — сообщил нам по электронной почте соавтор статьи и радиолог Массачусетского госпиталя доктор Марк Суччи.
“Они могут демонстрировать уверенность, не показывая при этом надежных рассуждений, особенно в отношении дифференциального диагноза”, — сказал Суччи, добавив, что такая уверенность может еще больше усилить беспокойство пациентов, страдающих от стресса и тревожных расстройств.
Рао отметила, что неудача в статье не обязательно означала, что ИИ полностью провалил диагноз, а лишь то, что он не предоставил полностью правильный ответ. Она сказала, что, возможно, более справедливо оценивать ИИ по их чистой точности как долю правильных ответов в каждом случае, которая варьировалась от 63 до 78 процентов — что намного лучше, чем более строгая метрика отказа, отмеченная в статье.
Сырые данные, как сообщила Рао, “показывают, что модели часто были частично правы, давая некоторые, но не все правильные ответы, даже когда они не смогли дать полностью правильный дифференциальный диагноз согласно более строгому определению показателя отказа”.
Несмотря на это, команда утверждает, что более строгое определение показателя отказа по-прежнему заслуживает внимания, особенно учитывая, что ИИ-боты часто рекламируются как агенты первичной медицинской помощи, предназначенные для сужения круга диагнозов, прежде чем направить пациентов к человеку для получения более конкретной помощи.
“Маркетинг LLM в качестве диагностических агентов рискует породить ложную уверенность именно там, где они наименее надежны”, — пояснила команда. “Постоянные сбои в генерации дифференциальных диагнозов и навигации в условиях неопределенности показывают, что LLM еще нельзя доверять в принятии решений на передовой”.
Суччи также отметил, что более высокие показатели успеха в окончательном диагнозе не должны успокаивать, предупреждая, что такие данные могут создать ложное ощущение безопасности и компетентности модели.
“Настоящие клинические рассуждения начинаются раньше, когда неоднозначность самая высокая, и именно здесь они остаются самыми слабыми”, — сказал Суччи. “Даже если в конечном итоге вы придете к правильному ответу, неверный дифференциальный диагноз может привести к задержкам в лечении, ненужным процедурам с осложнениями, высоким затратам и многому другому”.
Иными словами, в следующий раз, когда вы будете ходить кругами из-за проблем со здоровьем, не заходите в интернет, если только не для того, чтобы найти номер своего врача и получить правильный диагноз от человека. ИИ пока не готов. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Brandon Vigliarolo




