马斯克Grok 4杀疯了!AI棋王争霸赛上演“逆袭剧”,Kimi、DeepSeek惨遭“一轮游”

温故智新AIGC实验室

TL;DR:

这场由Kaggle搞的AI国际象棋锦标赛,简直是AI圈的“史诗级大乱斗”!马斯克家的Grok 4硬是把谷歌的Gemini 2.5 Pro拖进了加时赛,绝地反杀挺进决赛,而国内的Kimi和DeepSeek则不幸“一轮游”,这波剧情反转,比电视剧还精彩!

嘿,各位吃瓜群众和技术大佬们,最近AI圈又炸锅了!不是又有什么大模型发新版,也不是谁家的芯片又突破天际,而是——AI们自己“下场”了!就在Google旗下的Kaggle游戏竞技场里,一场名为“AI国际象棋锦标赛”的巅峰对决,爆冷程度直接拉满,简直是大型“真香”现场!

棋坛“新秀”扎堆,有人欢喜有人忧

想象一下,把全球最顶尖的8款大语言模型,丢到64格的国际象棋棋盘上,让他们来一场“智商”和“情商”的双重考验,是不是想想就刺激?这可不是你家AlphaGo那种“大力出奇迹”的暴力计算流,这次,玩儿的是纯粹的“大脑体操”!

参赛选手阵容强大,星光熠熠:OpenAI的o3和o4-mini,谷歌的Gemini 2.5 Pro和Gemini 2.5 Flash,Anthropic的Claude Opus 4,马斯克xAI家的Grok 4,当然,还有我们国内的月之暗面Kimi K2和DeepSeek R1 1

然而,这开局就有点“炸裂”:备受关注的Kimi K2和DeepSeek R1,竟然在首轮就惨遭淘汰,未能进入四强!这剧情,谁看了不说一句“啊这……” Kimi甚至还在社交平台上公开“吐槽”了一把,声称自己的推理版本还没来得及发布呢 2

Kimi的“凡尔赛”发言:“怪我咯?我的推理版本还没上线,这比赛规则…咳咳,懂得都懂。” (潜台词:等我完全体上线,看我不把你们按在地上摩擦?)

“文科生”下棋?这次玩儿的就是心跳!

话说回来,为啥这次比赛这么受关注?因为Kaggle搞了一个叫Game Arena(游戏竞技场)的全新AI基准测试平台 3。它不像传统象棋AI那样,允许模型调用Stockfish这种专业棋类引擎,也不提供合法的走法列表。模型必须自己“思考”,自己判断,甚至走错棋还有“重试机会”(最多3次)。更绝的是,它们只能通过文本符号来理解棋盘状态,完全是“盲下”!

这套独特的“Chess-Text Harness”规则,摆明了就是要测试大模型的“象棋智商”,看它们在战略规划、推理、记忆、适应,甚至是“心智理论”方面的能力。用大白话说,就是“你不能作弊,不能百度,全凭脑子和临场发挥!”

Grok 4的“宿醉”开局与“神仙”逆转

半决赛的重头戏,无疑是马斯克家的Grok 4对阵谷歌的Gemini 2.5 Pro。这场比赛,简直是“把心提到嗓子眼”的典范!

第一局,Grok 4的表现简直是“迷之操作”,开局没几步就直接“白给”了一个主教,随后又稀里糊涂地丢了皇后。解说比赛的国际象棋大V GothamChess(Levy Rozman)都忍不住打趣道:

“Grok昨晚肯定在以4:0赢了Gemini Flash之后出去狂欢了,由于喝得酩酊大醉,现在才宿醉醒来!” (内心OS:这AI是不是也得996,不然怎么会这么“上头”?)

然而,戏剧性的事情发生了!Grok 4在随后的比赛中,仿佛瞬间“清醒”,第二局虽然开局又白送骑士,但中后盘硬是扛住了压力,打出“神来之笔”般的战术组合,扳回一城。第三局更是精准走出电脑最佳走法,虽然中间有个“牺牲骑士”的小插曲,但关键时刻,它又找到一个绝妙的战术,直接“吃”掉Gemini的皇后,再次追平比分。

最终,比赛被拖入决胜局!这个决胜局,还特别加入了“世界末日”(Armageddon)赛制:和棋则执黑的Grok 4获胜。结果,Grok 4在占据巨大优势(多一个皇后!)的情况下,竟然选择了重复移动棋子,导致和棋。没错,就是和棋!根据Armageddon规则,执黑的Grok 4就这样,惊险地,奇迹般地,淘汰了Gemini Pro,杀入决赛! 1

隔壁OpenAI的“自家人”内战,o3倒是展现了压倒性的实力,4:0横扫o4 mini,稳稳晋级。但这场Grok的“极限反杀”,才是真正的“名场面”啊!

赛后,马斯克也是“装”了起来,直接在社交平台上发文:“xAI在国际象棋上几乎没花什么心思。”这波“凡尔赛”,你品,你细品!

巅峰对决即将上演:谁是真正的“棋王”?

随着半决赛尘埃落定,决赛名单也新鲜出炉:OpenAI的o3将迎战马斯克xAI的Grok 4!这场对决,不光是AI技术的较量,更像是奥特曼和马斯克这对“老冤家”恩怨情仇的棋盘映射。谁能在这场AI棋王争霸赛中笑到最后,捧起冠军奖杯?让我们拭目以待!

而Kaggle Game Arena的未来也值得期待。国际象棋只是个开始,未来还会加入更多策略游戏,排行榜实时动态更新,这简直就是AI界的“英雄联盟”竞技场啊!AI的“智商”和“情商”到底能修炼到什么境界,我们拭目以待。

引用


  1. 战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini · 量子位(2025/8/7)·检索日期2025/8/7 ↩︎ ↩︎

  2. 闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了 · 知乎(2025/8/7)·检索日期2025/8/7 ↩︎

  3. Google Kaggle 举办AI 国际象棋锦标赛,评估领先模型的推理能力 · 开源中国(2025/8/7)·检索日期2025/8/7 ↩︎