惊!马斯克Grok 4险胜谷歌Gemini,AI棋坛再掀波澜,老马这波又赢麻了?

温故智新AIGC实验室

TL;DR:

谁能想到,谷歌精心策划的AI国际象棋大赛半决赛,Grok 4竟然一路“跌跌撞撞”干翻了备受看好的Gemini 2.5 Pro,成功晋级决赛!这波操作,让之前放话“象棋只是副作用”的马斯克,又有了“凡尔赛”的底气。AI下棋这事儿,真是比人类大片还精彩!

Kaggle AI国际象棋对抗赛的半决赛,那叫一个刺激,简直是AI界的“王炸”对决!本以为是谷歌家的Gemini 2.5 Pro能稳稳晋级,毕竟人家可是热门选手。结果呢?Grok 4,就是那个被马斯克大佬轻描淡写地称为“国际象棋只是副作用”的模型,愣是上演了一出“惊天逆转”,把Gemini 2.5 Pro给“淘汰出局”了!1

消息一出,整个AI圈都沸腾了。要知道,昨天还有不少人把宝押在Gemini 2.5 Pro身上呢。现在看来,这届AI的剧本,真是比谁都“会玩”!

炸裂!Grok 4险过关,谷歌Gemini竟“幻觉”送皇后?

要说这场Grok 4和Gemini 2.5 Pro的巅峰对决,那真是跌宕起伏,看得人心脏狂跳。开局Grok 4就有点“拉胯”,直接丢马丢车,痛失一局,简直让人替它捏了把汗,生怕马斯克那句“没花多少力气优化”成了现实打脸现场。2

不过,AI的“神奇脑回路”很快就上线了。当两边都脱离了开局定式,进入自由发挥模式后,AI的“神操作”就开始了。Grok 4 再次“迷之送马”,正当大家以为它要凉凉时,Gemini 2.5 Pro 却更让人“摸不着头脑”——它竟然自己“幻觉”了,主动把皇后给送掉了!这波操作,直接把局面扭转,让Grok 4“躺赢”了第二盘。

“这波操作,简直是AI界的‘我反手就是一个王炸,结果炸到自己人’啊!”

接下来的两盘,两边依旧是“机械式创造力”和“致命失误”齐飞。Grok 4 赢下第三盘后,比分一度领先,但Gemini 2.5 Pro 很快又将比分扳平,直接把比赛拖入了国际象棋里最刺激的“末日加赛”(Armageddon tiebreak)!

在末日加赛中,Grok 4 执黑,拥有和棋即胜的“天选”优势。Gemini 2.5 Pro 一度占据上风,甚至还错失了一个“一招将死”的绝佳机会,那场面,看得人直呼“血压飙升”!连国际象棋特级大师Peter Heine Nielsen(就是世界冠军Magnus Carlsen的教练)都忍不住“隔空指导”了一把Grok,这排面,杠杠的。

“你看Grok,这里可以下马将军!走你!”—— Peter Heine Nielsen(虽然可能不是原话,但氛围到了)

最终,Gemini 2.5 Pro 在优势局面下,再次展现“送子天赋”,白白送掉皇后,将胜利拱手让给Grok 4。但剧情还没完,Grok 4 竟然在绝对优势下,因为三次重复局面,戏剧性地以和棋收场!虽然是和棋,但根据末日加赛的规则,执黑的Grok 4依然是笑到最后的那个。这场比赛,堪称“今日最佳”,把AI的“不确定性”展现得淋漓尽致。

OpenAI内部PK:o3王者风范,迷你版为何“躺平”?

另一边厢,OpenAI的两大模型——o3和o4-mini——也上演了一场“同门师兄弟”的对决。虽然不如Grok和Gemini那样“抓马”,但结果却毫不意外。o3以4-0的压倒性优势横扫了o4-mini,顺利晋级决赛。3

这结果,其实是“意料之中”。要知道,o3在OpenAI的推理模型体系里,可是个“全能型选手”,稳定性和复杂推理能力都“拉满”。而o4-mini呢,顾名思义就是个“迷你版”,主打一个“轻量化”,追求速度和成本的平衡。在象棋这种对稳定性和容错性要求极高的任务面前,o4-mini的“妥协”就显得有点力不从心了。

不过,o3的表现还是亮眼得让人想给它“点赞”。它在其中一盘棋里,仅用12步就完成了“致胜攻击”,手法酷似国际象棋界的“解谜冲刺”,准确率更是高达完美的100分!这波操作,让旁观者惊叹连连,也给谷歌举办这场比赛的目的——分析AI模型是如何思考的——提供了不少有趣的案例。可以说,o3完美诠释了“实力派”的定义。

所以,这波半决赛结束后,决赛圈的两位选手也尘埃落定:X家的Grok 4和OpenAI家的o3,将上演一场“火星撞地球”的终极对决。而谷歌的Gemini 2.5 Pro和OpenAI的o4-mini,则只能去争夺三四名了。

之前大家都看好Grok 4和Gemini 2.5 Pro能会师决赛,现在看来,预测什么的,在AI面前都成了“浮云”。那么问题来了,经历过这场“惊心动魄”的半决赛,你还会把冠军的票投给那个“声称象棋是副作用”的Grok 4吗?这出AI大戏,我们拭目以待!

引用


  1. 刚刚,马斯克Grok4干翻谷歌Gemini!o3杀入首届大模型对抗赛决战·网易号(2025/8/7)·检索日期2025/8/7 ↩︎

  2. 您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没 - 36氪·36氪(2025/8/7)·检索日期2025/8/7 ↩︎

  3. Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了·新浪财经(2025/8/7)·检索日期2025/8/7 ↩︎