谷歌AI深夜“炸场”：IMO金牌得主Deep Think，真能“吊打”Grok 4和OpenAI o3吗？

TL;DR：

谷歌深夜“偷袭”，放出了曾在IMO奥数夺金的Gemini 2.5 Deep Think模型！它号称能像“时间管理大师”一样并行思考，还把Grok 4和OpenAI o3甩在了后面。然而，网友们对它每月250刀的“天价”订阅费和使用限制，那真是“吐槽能量条拉满”啊！这AI，到底香不香？

昨晚，科技圈的“卷王”谷歌又搞了个大动作，悄悄咪咪地给自家Gemini Ultra的“尊贵”订阅用户们送上了一个“王炸”——Gemini 2.5 Deep Think模型。这可不是什么小打小闹，这家伙不仅在今年的国际数学奥林匹克竞赛（IMO）上斩获了金牌，还宣称在多项严苛测试中把马斯克的Grok 4和OpenAI的o3甩在了身后，这波操作，直接把AI圈子的“深夜食堂”变成了“擂台赛”！

Deep Think：AI界的“时间管理大师”和“头脑风暴”狂魔？

话说回来，这个让谷歌如此“凡尔赛”的Deep Think，到底有啥过人之处？用谷歌官方的话说，它可是目前最先进的AI推理模型，能同时探索和考虑多个想法，然后把这些“脑洞”汇集起来，最终得出“最优解”。¹

想象一下，我们普通人解决复杂问题，是不是也得左思右想、权衡利弊、甚至反复修改才能得出个像样的答案？Deep Think就是把这套“人类思考流程”给AI化了，而且还是个“并行处理器”！它能同时生成多个AI智能体，让它们兵分多路，一起“开脑洞”，再把所有思路集合起来，甚至还能随着时间推移不断“迭代”和“整合”。这简直就是AI界的“时间管理大师”和“头脑风暴”狂魔啊！

更骚的是，DeepMind团队还特意给Gemini加长了“思考时间”。别的大模型可能几秒钟甚至几分钟就给个答案，Deep Think却能“琢磨”上好几个小时。这不是在“慢工出细活”吗？谷歌还得意洋洋地表示，他们开发了“新颖的强化学习技术”，让Deep Think能更好地利用这些“扩展的推理路径”，简直就是给AI装了个“自我进化引擎”，让它越想越聪明，越学越会！

这“思考时间”一延长，能力自然也就跟着“飞升”了：

迭代开发与设计：写代码、搞设计，它能兼顾美观和功能，简直是产品经理的“梦中情模”。
科学与数学发现：推导数学猜想、啃复杂科学文献，研究员的“科研加速器”来了。
算法开发与代码：解决棘手的编码问题，连那些需要“权衡和时间复杂性”的“烧脑题”都能搞定。

硬核对决：Deep Think真能“吊打”友商吗？

光吹牛没用，数据才是硬道理。谷歌搬出了两大“硬核”基准测试来证明Deep Think的实力：

Humanity's Last Exam (HLE)：这名字听着就有点“中二”，但据说难度逆天，考的是AI在数学、人文和科学领域的“众包”问题解决能力。
- Gemini 2.5 Deep Think (无工具版)：34.8%
- xAI Grok 4：25.4%
- OpenAI o3：20.3% 这数据，简直是“降维打击”！Deep Think领先优势明显，仿佛在说：“在座的各位都是弟弟。”
LiveCodeBench V6：衡量模型在编程竞赛中的表现。
- Gemini 2.5 Deep Think：87.6%
- xAI Grok 4：79%
- OpenAI o3：72% 这次又是Deep Think“C位出道”，看来“码农”们的“饭碗”又悬了几分？²

这些数据摆出来，谷歌的潜台词就是：我们不只拿了奥数金牌，还在编码和综合知识领域“全面开花”，甚至连宣传都显得有点“佛系”，生怕太高调把友商“吓坏”了。

吃瓜群众怎么看？吐槽与吹捧齐飞！

然而，AI圈的“吃瓜群众”可不是那么好忽悠的。谷歌这么“凡尔赛”，网友们自然要上手“盘一盘”。结果呢？评论区直接“两极分化”，简直是大型“真香”与“打脸”现场！

有网友“真香”了，直呼“棒极了”，甚至考虑直接充值Ultra订阅，就为了用上这个“奥数金牌选手”。还有人觉得谷歌这次“不声不响”放出这么个“大杀器”，但基准测试数据却“好得让人震惊”，简直是AI界的“扫地僧”。³

但也有不少网友对这每月250美元（约合人民币1800元）的“天价订阅费”和很快就触顶的“每日使用上限”表示“难以接受”。有网友直言：

“我开始用这个新的 Deep Think 代理进行一些实验，但五次提示后就达到了每日使用上限。每月 250 美元的价格实在令人难以接受。与 o3-pro 和 Grok 4 Heavy 相比，它简直毫无竞争力。在性能方面，目前为止我甚至还没能看出什么明显优势。我向它提出了一个我公司面临的棘手组织问题，并提供了相关背景信息，它确实提出了一个清晰、经过深思熟虑的解决方案，与我们内部讨论的内容一致。但值得注意的是，o3 以更低的成本得出了同样有效的结论，尽管它的报告在‘综合能力’方面略逊一筹。看来，我得等到明天才能了解更多关于这个Agent的实际性能信息了。”⁴

这波“劝退”操作，真是让人感叹，再强的模型也得接地气才能“香”起来。还有网友“一针见血”地指出，即使是顶尖模型也可能在某些特定领域“掉链子”，而且“输入一个问题就能生成代码”这事儿，在大模型出来之前就有了，只不过没现在这么“智能”罢了。⁵

看来，AI这条路，既有“星辰大海”，也有“脚下泥泞”。谷歌的Deep Think无疑在AI推理能力上迈出了一大步，但如何让“高冷”的技术真正普惠大众，让“打工人”也能无压力地享受AI红利，或许才是巨头们需要继续“卷”的方向。毕竟，AI的终极目标，不就是让我们的生活更轻松，而不是让我们的钱包更“轻松”嘛！

引用

Deep Think：用平行思维为Gemini解锁更深层的推理能力·Google AI Blog·Google (2025/8/1)·检索日期2025/8/2 ↩︎
谷歌奥数金牌Gemini 2.5 Deep Think发布！多智能体推理碾压Grok 4 ...·新智元·未知作者 (2025/8/2)·检索日期2025/8/2 ↩︎
谷歌深夜放出IMO金牌模型，多项测试力压Grok 4、OpenAI o3！网友评论两极分化·InfoQ·未知作者 (2025/8/2)·检索日期2025/8/2 ↩︎
谷歌深夜放出IMO金牌模型，多项测试力压Grok 4、OpenAI o3！网友评论两极分化·InfoQ·未知作者 (2025/8/2)·检索日期2025/8/2 ↩︎
谷歌深夜放出IMO金牌模型，多项测试力压Grok 4、OpenAI o3！网友评论两极分化·InfoQ·未知作者 (2025/8/2)·检索日期2025/8/2 ↩︎