最先端AIがサッカー賭博で全滅？プレミアリーグ予想実験「KellyBench」が示したAIの意外な弱点

公開日: 2026年6月11日

ChatGPTやClaude、Geminiなど8つの最先端AIモデルがプレミアリーグの試合予想と賭けに挑戦した実験「KellyBench」。結果はまさかの全モデル損失、破産続出。AIはなぜサッカー予想に失敗したのか、その理由と私たちへの示唆をわかりやすく解説します。

「AIは人間より賢い」——そんなイメージを持っている方は多いのではないでしょうか。プログラミングや文章作成では人間顔負けの実力を見せるAIですが、実はサッカーの試合予想では惨敗してしまったという興味深い研究結果が2026年4月に発表されました。

その名も「KellyBench（ケリーベンチ）」。ロンドンのAIスタートアップ「General Reasoning」社が実施したこの実験では、世界トップクラスのAIモデル8つがプレミアリーグの賭けに挑戦し、なんと全モデルが損失を出すという衝撃的な結果に終わったのです。

この記事では、実験の内容と結果、そしてAIがなぜ失敗したのかをわかりやすく解説していきます。

KellyBenchとは？実験の概要

KellyBenchは、AIの「現実世界での判断力」を測るために設計されたベンチマーク（性能評価テスト）です。実験のルールはシンプルですが、なかなかシビアな内容になっています。

参加したのはGoogle、OpenAI、Anthropic、xAIなど主要企業の最先端AIモデル8つ
各AIに10万ポンド（約2,000万円）の仮想資金を支給
2023-24シーズンのプレミアリーグを丸ごと再現した環境で、試合結果やゴール数に賭けを実施
過去の試合データやチーム統計など、詳細な歴史データを提供
ただしインターネットへのアクセスは遮断（カンニング防止のため）
各モデルには3回の挑戦チャンスを付与

AIたちに課されたミッションは「リスクを管理しながらリターンを最大化する戦略を構築すること」。つまり、ただ予想を当てるだけでなく、資金管理を含めたトータルの投資判断が試されたわけです。

衝撃の結果：全モデルが損失、破産も続出

結果は研究チームの言葉を借りれば「一様に悲惨」でした。主なモデルの成績を見てみましょう。

最も健闘したのはClaude Opus 4.6

AnthropicのClaude Opus 4.6は**平均マイナス11%**と、全モデル中で最も損失が少ない結果となりました。ベストの試行ではマイナス0.2%と、ほぼ損益分岐点まで迫る健闘を見せています。とはいえ、それでも「プラスにはなれなかった」のが現実です。

GPT-5.4も安定して負ける

OpenAIのGPT-5.4は平均13.6%の損失。大崩れはしなかったものの、コツコツと資金を減らし続ける結果になりました。

Geminiはジェットコースター相場

GoogleのGemini 3.1 Proは極端に不安定で、ある試行では34%の利益（全試行を通じて唯一のプラス記録）を叩き出した一方、別の試行では完全に破産。同じくGoogleのGemini Flashに至っては、過去の勝率にわずか3ポイントの優位性があるだけの賭けに約27万ポンドを一点投入して敗北し、3回中2回を途中棄権するという豪快な散り方をしています。

Grokは全試行で破産

最下位はxAIのGrok 4.20。3回の挑戦すべてで破産または途中棄権となり、最終的な資金は平均できっかりゼロ。Arcee社のTrinityモデルも1回も完走できず、同じ運命をたどりました。

なぜAIはサッカー予想に失敗したのか

ここで疑問が浮かびます。膨大なデータを分析できるAIが、なぜ賭けで勝てなかったのでしょうか。研究から見えてきたポイントは3つあります。

1. 「知っている」と「使える」は別物

実験名の由来である「ケリー基準」は、優位性があるときに最適な賭け金を計算する1956年に考案された有名な公式です。興味深いことに、どのAIモデルもこの公式を完璧に説明できるのに、実戦では誰も使いこなせなかったのです。

これは人間にもよくある話ではないでしょうか。投資の教科書を読破しても実際の相場で勝てるとは限らない——AIも同じ壁にぶつかったというわけです。

2. 変化し続ける現実世界への適応力不足

サッカーの賭けで勝つには、選手の怪我、チームの調子、天候、監督の采配など、数十もの変数に数か月にわたって適応し続ける必要があります。

General Reasoning社のCEOで元Meta AI研究者のロス・テイラー氏は、従来のAIベンチマークの多くが「非常に静的な環境」で行われており、現実世界の混沌や予測不能性とはかけ離れていると指摘しています。コーディングのような構造化されたタスクは得意でも、長期間にわたる不確実な状況での判断はまだ苦手なのです。

3. 戦略の「洗練度」が圧倒的に足りない

研究チームは賭けファンドの専門家と協力して、戦略の質を測る44項目の評価基準も作成しました。資金配分、データ分析、状況変化への対応などを採点したところ、最高得点のClaude Opus 4.6でさえ32.6%——つまり満点の3分の1にも届きませんでした。

しかも、この洗練度スコアが高いモデルほど破産率が有意に低いという相関も確認されています。言い換えれば、AIは市場が攻略不可能だから負けたのではなく、持っている知識を活かしきれずに負けたのです。

この結果が私たちに教えてくれること

「AIが賭けで負けた」と聞くと笑い話のようですが、この研究にはもっと深い意味があります。

AIへの資産運用の丸投げは時期尚早

金融業界ではAIによる自動運用への期待が高まっていますが、この実験は不確実性の高い環境で長期的にお金を扱う判断を、現在のAIに任せるのはまだリスクが大きいことを示唆しています。実際、過去の別の研究では、報酬の最大化を指示されたAIがギャンブル依存症に似た行動パターンを示し、シミュレーションで高い確率で破産したという報告もあります。

人間の仕事はまだ奪われない？

一方で、AIに仕事を奪われる不安を感じている人にとっては、少しホッとできる結果かもしれません。研究チームも、AIが人間のベッターを「組織的に下回った」と報告しています。変化する状況を読み、リスクを取捨選択する力は、今のところ人間に分があるようです。

ベンチマークの在り方を問い直す

この研究は査読前の段階ではありますが、AIの評価方法そのものにも一石を投じています。試験問題のような静的なテストで高得点を取るAIが、現実の動的な課題ではあっさり破綻する——本当に測るべきは「現実世界での使い物になる知性」ではないかという問いかけです。

まとめ：AIの実力を正しく知ることが大切

KellyBenchの実験結果をまとめると、次のようになります。

最先端AI8モデルがプレミアリーグの賭けに挑戦し、全モデルが損失を記録
最優秀のClaude Opus 4.6でも平均マイナス11%、Grok 4.20は全試行で破産
失敗の原因は予想力不足というより、知識を実践に落とし込む力と長期的な状況適応力の欠如
静的なタスクは得意でも、動的で不確実な現実世界の問題はまだ苦手

AIは確かに驚異的なスピードで進化していますが、「何でもできる魔法の道具」ではありません。得意分野と苦手分野を正しく理解して付き合っていくことが、AI時代を生きる私たちにとって何より重要だと言えそうです。

少なくとも当面のあいだ、週末の試合予想はAIに頼らず、自分の目で楽しむのがよさそうですね。