AI-модели ужасно справляются со ставками на футбол, особенно xAI Grok

Tim Bradshaw, Financial Times

11.04.2026

ии премьер-лига ставки General Reasoning модели ии arstechnica.com

Системы от Google, OpenAI, Anthropic и xAI с трудом справляются с анализом сезона Премьер-лиги, теряя деньги на ставках, что указывает на слабость ИИ в долгосрочном прогнозировании реального мира. — arstechnica.com

Модели ИИ от Google, OpenAI и Anthropic потеряли деньги, делая ставки на футбольные матчи в течение сезона Премьер-лиги, согласно новому исследованию, предполагающему, что даже самые передовые системы испытывают трудности с анализом реального мира в долгосрочной перспективе.

Отчет «KellyBench», опубликованный на этой неделе стартапом в области ИИ General Reasoning, подчеркивает разрыв между стремительно развивающимися возможностями ИИ в определенных задачах, таких как написание программного обеспечения, и его недостатками в других видах человеческих проблем.

Лондонская компания General Reasoning протестировала восемь ведущих систем ИИ в виртуальной реконструкции сезона Премьер-лиги 2023–24 годов, предоставив им подробные исторические данные и статистику о каждой команде и предыдущих играх. ИИ было поручено построить модели, которые максимизируют доходность и управляют рисками.

Затем ИИ-«агенты» делали ставки на исходы матчей и количество забитых голов, чтобы проверить, как они могут адаптироваться к новым событиям и обновленным данным об игроках по мере развития сезона.

ИИ не имел доступа к Интернету для получения результатов, и каждой модели было дано три попытки получить прибыль.

Лучше всего показала себя Claude Opus 4.6 от Anthropic: средние потери составили 11 процентов, и она почти вышла в ноль за одну попытку.

Grok 4.20 от xAI один раз обанкротилась и не смогла завершить две другие попытки. Gemini 3.1 Pro от Google смогла получить прибыль в 34 процента за один раз, но обанкротилась при другой попытке.

«Каждая протестированная нами передовая модель потеряла деньги в течение сезона, и многие столкнулись с полным крахом», — заключили авторы статьи, отметив, что в этом сценарии ИИ «систематически уступал людям».

AI Model	Mean ROI	Best try	Worst try	Mean final bankroll
Anthropic Claude Opus 4.6	–11.0%	–0.2%	–18.8%	£89,035
OpenAI GPT-5.4	–13.6%	–4.1%	–31.6%	£86,365
Google Gemini 3.1 Pro	–43.3%	+33.7%	–100.0%	£56,715
Google Gemini Flash 3.1 LP	–58.4%	+24.7%	–100.0%	£41,605
Z.AI GLM-5	–58.8%	–14.3%	–100.0%	£41,221
Moonshot Kimi K2.5	–68.3%	–27.0%	–100.0%	£7,420
xAI Grok 4.20	–100.0%	–100.0%	–100.0%	£0
Acree Trinity	–100.0%	–100.0%	–100.0%	£0
Каждая модель начинала с нормализованного банкролла в £100 000. Рентабельность инвестиций и итоговый банкролл усредняются по трем попыткам. Grok и Trinity не завершили каждую попытку.

Результаты дают некоторое утешение офисным работникам и предприятиям, которые опасаются, что ИИ может занять их рабочие места, поскольку он сотрясает акции отраслей от финансов до маркетинга.

Росс Тейлор, один из авторов исследования и генеральный директор General Reasoning, заявил: «Существует так много шумихи вокруг автоматизации с помощью ИИ, но мало измерений того, как ИИ работает в условиях долгосрочной перспективы».

Он добавил, что многие эталонные показатели, обычно используемые для тестирования ИИ, ошибочны, поскольку они устанавливаются в «очень статичных средах», которые мало напоминают хаос и сложность реального мира.

Документ General Reasoning, который еще не прошел рецензирование, служит противовесом растущему энтузиазму в Кремниевой долине по поводу огромных недавних скачков в способности ИИ выполнять задачи по программированию с минимальным вмешательством человека или без него.

Тейлор, бывший исследователь Meta* AI, сказал: «Если вы… пробуете ИИ на некоторых реальных задачах, он показывает себя очень плохо… Да, разработка программного обеспечения очень важна и экономически ценна, но существует множество других видов деятельности с более длительными временными горизонтами, которые важно рассмотреть».

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Tim Bradshaw, Financial Times

Оригинал статьи

В тренде:

arstechnica.com, general reasoning, ИИ, модели ИИ, премьер-лига, ставки

Искать на сайте

AI-модели ужасно справляются со ставками на футбол, особенно xAI Grok

В тренде:

Похожие новости:

AI-модели ужасно справляются со ставками на футбол, особенно xAI Grok

В тренде:

Похожие новости:

WeChat запускает тестирование нативного ИИ-ассистента Xiaowei для 1,4 миллиарда пользователей

Новый GPT-5.5-Cyber от OpenAI обошел Claude Mythos 5 в бенчмарке

«Пять глаз» предупреждают ИБ-директоров: пора менять стратегию кибербезопасности под угрозой

OpenAI запускает новую инициативу для поиска и исправления багов в