Тестирование показало: ИИ-обзоры Google генерируют миллионы «фейков» в час

Google Ai Overviews Gemini ии точность Simpleqa arstechnica.com

Достаточно ли точности в 90 процентов для поискового робота? Анализ New York Times показал, что каждый десятый ответ AI Overviews неверен, что для Google означает сотни тысяч ошибок в минуту. — arstechnica.com

Поиск информации в Google сегодня означает столкновение с AI Overviews — поисковым роботом на базе Gemini, который появляется вверху страницы результатов. AI Overviews переживает не лучшие времена с момента запуска в 2024 году, вызывая гнев пользователей из-за своей неровной точности, но он становится лучше и обычно выдает правильный ответ. Впрочем, это невысокая планка. Новый анализ The New York Times предпринял попытку оценить точность AI Overviews и обнаружил, что он прав в 90 процентах случаев. Обратная сторона медали в том, что каждый десятый ответ ИИ неверен, а для Google это означает сотни тысяч неточностей, распространяемых каждую минуту дня.

Times провела этот анализ с помощью стартапа под названием Oumi, который сам глубоко вовлечен в разработку моделей ИИ. Компания использовала инструменты ИИ для проверки AI Overviews с помощью оценки SimpleQA — распространенного теста для ранжирования фактической достоверности генеративных моделей, таких как Gemini. SimpleQA, выпущенный OpenAI в 2024 году, по сути, представляет собой список из более чем 4000 вопросов с проверяемыми ответами, которые можно подать на вход ИИ.

Oumi начала проводить свое тестирование в прошлом году, когда Gemini 2.5 еще был лучшей моделью компании. В то время эталонный тест показывал 85-процентный уровень точности. Когда тест был перезапущен после обновления до Gemini 3, AI Overviews ответил правильно на 91 процент вопросов. Если экстраполировать этот процент промахов на все поисковые запросы Google, то AI Overviews генерирует десятки миллионов некорректных ответов в день.

Отчет содержит несколько примеров того, где AI Overviews допустил ошибку. Когда его спросили о дате, когда бывший дом Боба Марли стал музеем, AI Overviews процитировал три страницы, две из которых вообще не содержали информации о дате. На последней, Википедии, были указаны два противоречащих друг другу года, и AI Overviews уверенно выбрал неверный. Тест также предлагает моделям указать дату вступления Йо-Йо Ма в зал славы классической музыки. Хотя AI Overviews процитировал веб-сайт организации, где было указано о вступлении Ма, он заявил, что такого понятия, как Зал славы классической музыки, не существует.

,

Google не в восторге от этого теста. Представитель Google Нед Адрианс заявил Times, что Google считает, что SimpleQA содержит неверную информацию. Их оценки моделей часто опираются на аналогичный тест под названием SimpleQA Verified, который использует меньший набор вопросов, прошедших более тщательную проверку. «В этом исследовании есть серьезные пробелы», — сказал Адрианс Times. «Оно не отражает то, что люди на самом деле ищут в Google».

Проблемы с эталонами

Оценка новых моделей ИИ порой больше похожа на искусство, чем на науку, что и является частью проблемы. У каждой компании есть свой предпочтительный способ демонстрации возможностей модели, а недетерминированная природа генеративного ИИ может затруднить проверку чего-либо. Эти роботы могут дать правильный фактический ответ, а затем полностью провалиться, если немедленно повторить запрос. Oumi даже использует инструменты ИИ для проведения своих оценок, и эти модели тоже могут галлюцинировать.

Другая загвоздка в том, что AI Overviews — это не единая монолитная модель. Google сообщил Ars Technica, что использует «правильную модель» для каждого запроса. Хотя AI Overviews получил бы наилучшие ответы, если бы всегда использовался Gemini 3.1 Pro, это медленно и дорого. Чтобы обеспечить быструю загрузку на странице поиска, в обзоре используются более быстрые модели Gemini Flash, когда это возможно (что, по-видимому, происходит в большинстве случаев).

Реакция Google на этот отчет показательна. В сфере фактической достоверности ИИ 9 из 10 — это даже не так уж плохо. Google недавно опубликовал эталонные показатели для новых выпусков моделей, демонстрирующие фактическую достоверность в диапазоне от 60 до 80 процентов — эти тесты проводятся без таких инструментов, как веб-поиск. Привязка ИИ к большему объему данных, такому как богатство человеческих знаний в Интернете, действительно делает его более точным, чем «голая» модель. Однако правда где-то в синих ссылках, а AI Overviews побуждает людей принимать его порой неточные резюме вместо ручной проверки этих источников.

Хотя Google утверждает, что результаты Times не совпадают с тем, что видят пользователи, стоит задуматься, откуда компания это знает. Вы, вероятно, видели ошибки в AI Overviews — мы все их видели, потому что так работает генеративный ИИ. Как Google сам напоминает внизу каждого обзора: «ИИ может допускать ошибки, поэтому перепроверяйте ответы».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: