谷歌AI深夜“炸场”:IMO金牌得主Deep Think,真能“吊打”Grok 4和OpenAI o3吗?

温故智新AIGC实验室

TL;DR:

谷歌深夜“偷袭”,放出了曾在IMO奥数夺金的Gemini 2.5 Deep Think模型!它号称能像“时间管理大师”一样并行思考,还把Grok 4和OpenAI o3甩在了后面。然而,网友们对它每月250刀的“天价”订阅费和使用限制,那真是“吐槽能量条拉满”啊!这AI,到底香不香?

昨晚,科技圈的“卷王”谷歌又搞了个大动作,悄悄咪咪地给自家Gemini Ultra的“尊贵”订阅用户们送上了一个“王炸”——Gemini 2.5 Deep Think模型。这可不是什么小打小闹,这家伙不仅在今年的国际数学奥林匹克竞赛(IMO)上斩获了金牌,还宣称在多项严苛测试中把马斯克的Grok 4和OpenAI的o3甩在了身后,这波操作,直接把AI圈子的“深夜食堂”变成了“擂台赛”!

Deep Think:AI界的“时间管理大师”和“头脑风暴”狂魔?

话说回来,这个让谷歌如此“凡尔赛”的Deep Think,到底有啥过人之处?用谷歌官方的话说,它可是目前最先进的AI推理模型,能同时探索和考虑多个想法,然后把这些“脑洞”汇集起来,最终得出“最优解”。1

想象一下,我们普通人解决复杂问题,是不是也得左思右想、权衡利弊、甚至反复修改才能得出个像样的答案?Deep Think就是把这套“人类思考流程”给AI化了,而且还是个“并行处理器”!它能同时生成多个AI智能体,让它们兵分多路,一起“开脑洞”,再把所有思路集合起来,甚至还能随着时间推移不断“迭代”和“整合”。这简直就是AI界的“时间管理大师”和“头脑风暴”狂魔啊!

更骚的是,DeepMind团队还特意给Gemini加长了“思考时间”。别的大模型可能几秒钟甚至几分钟就给个答案,Deep Think却能“琢磨”上好几个小时。这不是在“慢工出细活”吗?谷歌还得意洋洋地表示,他们开发了“新颖的强化学习技术”,让Deep Think能更好地利用这些“扩展的推理路径”,简直就是给AI装了个“自我进化引擎”,让它越想越聪明,越学越会!

这“思考时间”一延长,能力自然也就跟着“飞升”了:

  • 迭代开发与设计:写代码、搞设计,它能兼顾美观和功能,简直是产品经理的“梦中情模”。
  • 科学与数学发现:推导数学猜想、啃复杂科学文献,研究员的“科研加速器”来了。
  • 算法开发与代码:解决棘手的编码问题,连那些需要“权衡和时间复杂性”的“烧脑题”都能搞定。

硬核对决:Deep Think真能“吊打”友商吗?

光吹牛没用,数据才是硬道理。谷歌搬出了两大“硬核”基准测试来证明Deep Think的实力:

  1. Humanity's Last Exam (HLE):这名字听着就有点“中二”,但据说难度逆天,考的是AI在数学、人文和科学领域的“众包”问题解决能力。

    • Gemini 2.5 Deep Think (无工具版):34.8%
    • xAI Grok 4:25.4%
    • OpenAI o3:20.3% 这数据,简直是“降维打击”!Deep Think领先优势明显,仿佛在说:“在座的各位都是弟弟。”
  2. LiveCodeBench V6:衡量模型在编程竞赛中的表现。

    • Gemini 2.5 Deep Think:87.6%
    • xAI Grok 4:79%
    • OpenAI o3:72% 这次又是Deep Think“C位出道”,看来“码农”们的“饭碗”又悬了几分?2

这些数据摆出来,谷歌的潜台词就是:我们不只拿了奥数金牌,还在编码和综合知识领域“全面开花”,甚至连宣传都显得有点“佛系”,生怕太高调把友商“吓坏”了。

吃瓜群众怎么看?吐槽与吹捧齐飞!

然而,AI圈的“吃瓜群众”可不是那么好忽悠的。谷歌这么“凡尔赛”,网友们自然要上手“盘一盘”。结果呢?评论区直接“两极分化”,简直是大型“真香”与“打脸”现场!

有网友“真香”了,直呼“棒极了”,甚至考虑直接充值Ultra订阅,就为了用上这个“奥数金牌选手”。还有人觉得谷歌这次“不声不响”放出这么个“大杀器”,但基准测试数据却“好得让人震惊”,简直是AI界的“扫地僧”。3

但也有不少网友对这每月250美元(约合人民币1800元)的“天价订阅费”和很快就触顶的“每日使用上限”表示“难以接受”。有网友直言:

“我开始用这个新的 Deep Think 代理进行一些实验,但五次提示后就达到了每日使用上限。每月 250 美元的价格实在令人难以接受。与 o3-pro 和 Grok 4 Heavy 相比,它简直毫无竞争力。 在性能方面,目前为止我甚至还没能看出什么明显优势。我向它提出了一个我公司面临的棘手组织问题,并提供了相关背景信息,它确实提出了一个清晰、经过深思熟虑的解决方案,与我们内部讨论的内容一致。但值得注意的是,o3 以更低的成本得出了同样有效的结论,尽管它的报告在‘综合能力’方面略逊一筹。看来,我得等到明天才能了解更多关于这个Agent的实际性能信息了。”4

这波“劝退”操作,真是让人感叹,再强的模型也得接地气才能“香”起来。还有网友“一针见血”地指出,即使是顶尖模型也可能在某些特定领域“掉链子”,而且“输入一个问题就能生成代码”这事儿,在大模型出来之前就有了,只不过没现在这么“智能”罢了。5

看来,AI这条路,既有“星辰大海”,也有“脚下泥泞”。谷歌的Deep Think无疑在AI推理能力上迈出了一大步,但如何让“高冷”的技术真正普惠大众,让“打工人”也能无压力地享受AI红利,或许才是巨头们需要继续“卷”的方向。毕竟,AI的终极目标,不就是让我们的生活更轻松,而不是让我们的钱包更“轻松”嘛!

引用