Модели ИИ от Google, OpenAI и Anthropic потеряли деньги, делая ставки на футбольные матчи в течение сезона Премьер-лиги, согласно новому исследованию, предполагающему, что даже самые передовые системы испытывают трудности с анализом реального мира в долгосрочной перспективе.
Отчет «KellyBench», опубликованный на этой неделе стартапом в области ИИ General Reasoning, подчеркивает разрыв между стремительно развивающимися возможностями ИИ в определенных задачах, таких как написание программного обеспечения, и его недостатками в других видах человеческих проблем.
Лондонская компания General Reasoning протестировала восемь ведущих систем ИИ в виртуальной реконструкции сезона Премьер-лиги 2023–24 годов, предоставив им подробные исторические данные и статистику о каждой команде и предыдущих играх. ИИ было поручено построить модели, которые максимизируют доходность и управляют рисками.
Затем ИИ-«агенты» делали ставки на исходы матчей и количество забитых голов, чтобы проверить, как они могут адаптироваться к новым событиям и обновленным данным об игроках по мере развития сезона.
ИИ не имел доступа к Интернету для получения результатов, и каждой модели было дано три попытки получить прибыль.
Лучше всего показала себя Claude Opus 4.6 от Anthropic: средние потери составили 11 процентов, и она почти вышла в ноль за одну попытку.
Grok 4.20 от xAI один раз обанкротилась и не смогла завершить две другие попытки. Gemini 3.1 Pro от Google смогла получить прибыль в 34 процента за один раз, но обанкротилась при другой попытке.
,
«Каждая протестированная нами передовая модель потеряла деньги в течение сезона, и многие столкнулись с полным крахом», — заключили авторы статьи, отметив, что в этом сценарии ИИ «систематически уступал людям».
| AI Model | Mean ROI | Best try | Worst try | Mean final bankroll |
|---|---|---|---|---|
| Anthropic Claude Opus 4.6 | –11.0% | –0.2% | –18.8% | £89,035 |
| OpenAI GPT-5.4 | –13.6% | –4.1% | –31.6% | £86,365 |
| Google Gemini 3.1 Pro | –43.3% | +33.7% | –100.0% | £56,715 |
| Google Gemini Flash 3.1 LP | –58.4% | +24.7% | –100.0% | £41,605 |
| Z.AI GLM-5 | –58.8% | –14.3% | –100.0% | £41,221 |
| Moonshot Kimi K2.5 | –68.3% | –27.0% | –100.0% | £7,420 |
| xAI Grok 4.20 | –100.0% | –100.0% | –100.0% | £0 |
| Acree Trinity | –100.0% | –100.0% | –100.0% | £0 |
| Каждая модель начинала с нормализованного банкролла в £100 000. Рентабельность инвестиций и итоговый банкролл усредняются по трем попыткам. Grok и Trinity не завершили каждую попытку. | ||||
Результаты дают некоторое утешение офисным работникам и предприятиям, которые опасаются, что ИИ может занять их рабочие места, поскольку он сотрясает акции отраслей от финансов до маркетинга.
Росс Тейлор, один из авторов исследования и генеральный директор General Reasoning, заявил: «Существует так много шумихи вокруг автоматизации с помощью ИИ, но мало измерений того, как ИИ работает в условиях долгосрочной перспективы».
Он добавил, что многие эталонные показатели, обычно используемые для тестирования ИИ, ошибочны, поскольку они устанавливаются в «очень статичных средах», которые мало напоминают хаос и сложность реального мира.
Документ General Reasoning, который еще не прошел рецензирование, служит противовесом растущему энтузиазму в Кремниевой долине по поводу огромных недавних скачков в способности ИИ выполнять задачи по программированию с минимальным вмешательством человека или без него.
Тейлор, бывший исследователь Meta* AI, сказал: «Если вы… пробуете ИИ на некоторых реальных задачах, он показывает себя очень плохо… Да, разработка программного обеспечения очень важна и экономически ценна, но существует множество других видов деятельности с более длительными временными горизонтами, которые важно рассмотреть».
© 2026 The Financial Times Ltd. Все права защищены. Запрещается перераспространение, копирование или изменение в любой форме.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tim Bradshaw, Financial Times




