AI-модели ужасно справляются со ставками на футбол, особенно xAI Grok

ии премьер-лига ставки General Reasoning модели ии arstechnica.com

Системы от Google, OpenAI, Anthropic и xAI с трудом справляются с анализом сезона Премьер-лиги, теряя деньги на ставках, что указывает на слабость ИИ в долгосрочном прогнозировании реального мира. — arstechnica.com

Модели ИИ от Google, OpenAI и Anthropic потеряли деньги, делая ставки на футбольные матчи в течение сезона Премьер-лиги, согласно новому исследованию, предполагающему, что даже самые передовые системы испытывают трудности с анализом реального мира в долгосрочной перспективе.

Отчет «KellyBench», опубликованный на этой неделе стартапом в области ИИ General Reasoning, подчеркивает разрыв между стремительно развивающимися возможностями ИИ в определенных задачах, таких как написание программного обеспечения, и его недостатками в других видах человеческих проблем.

Лондонская компания General Reasoning протестировала восемь ведущих систем ИИ в виртуальной реконструкции сезона Премьер-лиги 2023–24 годов, предоставив им подробные исторические данные и статистику о каждой команде и предыдущих играх. ИИ было поручено построить модели, которые максимизируют доходность и управляют рисками.

Затем ИИ-«агенты» делали ставки на исходы матчей и количество забитых голов, чтобы проверить, как они могут адаптироваться к новым событиям и обновленным данным об игроках по мере развития сезона.

ИИ не имел доступа к Интернету для получения результатов, и каждой модели было дано три попытки получить прибыль.

Лучше всего показала себя Claude Opus 4.6 от Anthropic: средние потери составили 11 процентов, и она почти вышла в ноль за одну попытку.

Grok 4.20 от xAI один раз обанкротилась и не смогла завершить две другие попытки. Gemini 3.1 Pro от Google смогла получить прибыль в 34 процента за один раз, но обанкротилась при другой попытке.

,

«Каждая протестированная нами передовая модель потеряла деньги в течение сезона, и многие столкнулись с полным крахом», — заключили авторы статьи, отметив, что в этом сценарии ИИ «систематически уступал людям».

AI Model Mean ROI Best try Worst try Mean final bankroll
Anthropic Claude Opus 4.6 –11.0% –0.2% –18.8% £89,035
OpenAI GPT-5.4 –13.6% –4.1% –31.6% £86,365
Google Gemini 3.1 Pro –43.3% +33.7% –100.0% £56,715
Google Gemini Flash 3.1 LP –58.4% +24.7% –100.0% £41,605
Z.AI GLM-5 –58.8% –14.3% –100.0% £41,221
Moonshot Kimi K2.5 –68.3% –27.0% –100.0% £7,420
xAI Grok 4.20 –100.0% –100.0% –100.0% £0
Acree Trinity –100.0% –100.0% –100.0% £0
Каждая модель начинала с нормализованного банкролла в £100 000. Рентабельность инвестиций и итоговый банкролл усредняются по трем попыткам. Grok и Trinity не завершили каждую попытку.

Результаты дают некоторое утешение офисным работникам и предприятиям, которые опасаются, что ИИ может занять их рабочие места, поскольку он сотрясает акции отраслей от финансов до маркетинга.

Росс Тейлор, один из авторов исследования и генеральный директор General Reasoning, заявил: «Существует так много шумихи вокруг автоматизации с помощью ИИ, но мало измерений того, как ИИ работает в условиях долгосрочной перспективы».

Он добавил, что многие эталонные показатели, обычно используемые для тестирования ИИ, ошибочны, поскольку они устанавливаются в «очень статичных средах», которые мало напоминают хаос и сложность реального мира.

Документ General Reasoning, который еще не прошел рецензирование, служит противовесом растущему энтузиазму в Кремниевой долине по поводу огромных недавних скачков в способности ИИ выполнять задачи по программированию с минимальным вмешательством человека или без него.

Тейлор, бывший исследователь Meta* AI, сказал: «Если вы… пробуете ИИ на некоторых реальных задачах, он показывает себя очень плохо… Да, разработка программного обеспечения очень важна и экономически ценна, но существует множество других видов деятельности с более длительными временными горизонтами, которые важно рассмотреть».

© 2026 The Financial Times Ltd. Все права защищены. Запрещается перераспространение, копирование или изменение в любой форме.

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: