OpenAI奥数“金牌”被群嘲：这波操作是“真香”还是“翻车”？

TL;DR:

最近OpenAI又整活儿了！它家AI模型号称在奥数IMO拿到了“金牌水平”，结果被全网“爆锤”：是抢风头还是真本事？是自嗨还是真牛掰？连数学大神陶哲轩都出来“划重点”：AI开挂和人类裸考，这能比吗？

哈喽各位科技老铁们，最近科技圈和数学圈可真是“炸锅”了！起因是咱们AI界的“顶流”OpenAI搞了个大新闻：他们家的人工智能模型，居然在世界最顶级的数学竞赛IMO（国际数学奥林匹克竞赛）中，考出了媲美金牌的成绩！¹

好家伙，AI学会做奥数题，还达到了世界冠军水平，这要是搁以前，那绝对是“奔走相告，香槟开起来”的高光时刻啊！但没想到，香槟还没来得及倒，全网的口水仗就先打响了。这到底是怎么回事？一个技术喜报，怎么就迅速演变成了一场“罗生门”式的争议风波呢？

网友们化身“福尔摩斯”，把这事儿总结成了三大“拷问”：

时机对吗？ 为啥OpenAI不按规矩出牌，在IMO闭幕式前就“抢跑”发成绩，是不是在抢那群寒窗苦读、顶着巨大压力参赛的“学霸”们风头，显得有点“不讲武德”？
金牌真吗？ OpenAI这“神秘模型”参加的又不是IMO官方邀请的比赛，评委还是自己请的，这枚“金牌”的含金量，到底有多少“水分”？
比赛公平吗？ 让一个能瞬间调用“海量资源”的AI，和苦学十几年的人类孩子在同一个维度下比较，这本身是不是就是一场“降维打击”？

这背后，到底藏着哪些“瓜”？咱们一层层来扒。

“金牌”还是“碰瓷”？OpenAI这一波操作有多“迷惑”？

要说这波争议的“导火索”，还得从OpenAI研究员Alex Wei在X平台（就是那个X）发的一则帖子说起。7月19日，Alex喜滋滋地宣布，他家一个内部未命名的独立实验模型，在IMO数学竞赛中斩获了金牌级别的成绩：6道题做对5道，总分35/42，刚好踩线金牌标准线！他特意强调，这模型没开外挂，在标准考试环境下完成，没联网，时间一样，提交次数也一样。评分呢，找了3位前IMO金牌得主来“把脉”。¹

Alex说这是“AI推理能力的一次重大跨越”，还特意提了，这模型不是针对奥数专项训练的，而是靠着通用的推理能力“平趟”考场。他甚至“凡尔赛”地表示，这次模型的表现，把AI解题的“思考时间”从GSM8K（顶尖人类0.1分钟）直接拉到了IMO（100分钟级别），这简直是“质的飞跃”啊！

然而，万万没想到，争议恰恰就从这则帖子的“发布时间”开始。

众所周知，IMO比赛结束后，有个不成文的“君子协议”：为了尊重参赛的学生们，AI公司们最好等闭幕式结束一周后再公布自己的AI成绩，别抢了孩子们的“C位”。但OpenAI偏偏在闭幕式之前就“官宣”了。

“国际数学奥林匹克要求人工智能公司不要抢孩子们的风头，并在闭幕式后一周再公布结果。而OpenAI在闭幕式之前就宣布了结果。”¹ —— IMO协调员Joseph Myers的“吐槽”，字字珠玑，句句扎心。

另一家参与IMO测试的AI公司Harmonic也出来“作证”了，他们就老老实实地遵守了“约定”，等到7月28日才公布结果。这下，OpenAI可算是被推上了“不尊重赛事”的风口浪尖，网友们怒斥他们为了抢头条、赚流量，连“体面”都不要了，让那些辛苦备赛的“后浪”们的成就黯然失色。

当然了，OpenAI这边也赶紧出来“灭火”了。研究员Noam Brown澄清说，他们是在闭幕式结束后才发的，而且发帖前也提前告知了IMO组织者，并且遵守了对方“等闭幕式结束再发”的要求。

“1. 我们是在闭幕式结束后发布的消息，闭幕式是直播的，可以证明他们的发布时间。2. 他在发帖前提前告知了一位 IMO 组织者，后者请求 OpenAI 等闭幕式结束再发，OpenAI 也确实遵守了这个请求。”¹ —— OpenAI研究员Noam Brown的“洗白”，听起来还挺有理有据？

尽管如此，“抢跑”、“不体面”的标签还是像口香糖一样粘在了OpenAI身上。如果说这还只是程序和沟通上的“罗生门”，那接下来的争议，可就直指这块“金牌”的含金量本身了。

更大的质疑点在于：这块“金牌”到底是谁认证的？虽然Alex Wei和OpenAI官方都小心翼翼地用了“金牌水平”（gold medal-level performance）这种“谦虚”的措辞，但架不住社交媒体上网友们直接简化成了“AI赢得金牌”。

问题就出在这：IMO是有专门邀请AI公司参与竞赛的，比如前面提到的Harmonic，但OpenAI并不在官方邀请名单上。也就是说，OpenAI既没正式注册参赛，也没把结果提交给IMO官方评审，而是自己请了三位前金牌得主来“打分”。有评论直接“点穴”：这三位前金牌得主又不是官方协调员，OpenAI的测试过程也完全不公开，更没接受第三方验证。

说白了，这更像是OpenAI在自己家后院搞了场“内部测试”，然后自封了个“金牌水平”，有点像**“自卖自夸”**。尽管模型可能真的解决了难题，但这种不公开、不透明的流程，让它的“金牌级别”说法，多少有点“野鸡大学”的感觉。

不过呢，也有不少网友“站队”OpenAI，觉得这事儿非但没啥坏处，反而让IMO这项“高冷”的赛事获得了前所未有的关注度。

“OpenAI的帖让我第一次点进去看今年谁拿了金牌，以前我从不关心。” —— 这位网友道出了不少人的心声，AI这波“炒作”属实把IMO送上了“热搜”。

陶哲轩“点透”：这AI奥数，真能和人类“掰手腕”吗？

所以，OpenAI这一波操作，到底是不是真的“越界”了，光顾着秀肌肉，全然不顾“孩子们”的感受？

作为此次IMO金牌得主颁奖嘉宾的“数学天才”陶哲轩（Terence Tao），也在这场风波中发声了。虽然他没直接评论OpenAI的争议，但他却用一番**“醍醐灌顶”**的话，一语道破了AI和人类比赛的本质区别。

“AI能力存在着极为广泛的差距，差距可能达到几个数量级，这取决于提供的资源和辅助支持，以及如何获得报告结果。”¹ —— 陶哲轩的“金句”，直接揭示了AI的“隐形外挂”。

他拿这次IMO竞赛“神级比喻”：AI取得的成绩，就像是选手在“时间加速器”里答题了几个月，而不是人类在标准比赛里短短几个小时。更离谱的是，AI还能无限重写题目、用无限工具解题、多人协作、把失败的答案直接“丢进垃圾桶”，只上交“最好看”的那一份！

“在没有一个控制测试方法的情况下，应该小心不要将各种AI模型在IMO等比赛中的表现进行简单的比较，也不应将这些模型与人类选手进行直接对比。我也不会评论任何没有提前披露方法论的自我报告的AI比赛成绩。”¹ —— 陶哲轩的“忠告”，直接把OpenAI的“自嗨”拍在了沙滩上。

他总结说，与其纠结于分数高低，不如先问一句：比赛规则公平吗？ 陶哲轩甚至在今年6月就预测，AI在IMO这种大型比赛中不会取得高分，建议研究人员“目标放低点”。这脸打得，有点疼啊！

抛开关于发布时间和评分标准的技术性争论，整场风波的内核，更像是一种集体情绪的真实写照：我们，或许还未准备好接受这个趋势。

这个趋势就是，眼看着AI从围棋棋盘，到编程赛场，如今又“兵临城下”，来到了代表着最年轻一代智力光芒的IMO数学赛场。我们当然可以争论评价标准是否统一，可以辩驳AI拥有不平等的资源，但这些都无法改变一个最根本的事实：AI只会越来越强，我们曾经引以为傲的一座座智力堡垒，正在被它逐一攻破。

OpenAI这次引发的争议，或许就是人类与AI共存时代的一个缩影：一边是疯狂进化的技术，一边是需要时间调适的人类。

值得一提的是，就像OpenAI研究员Alex Wei在推文最后说的，他向所有参赛者表示祝贺，并透露OpenAI的很多研究员都曾是IMO的参赛选手，甚至是金牌得主。而在此次IMO竞赛中，中国队选手获得了团体第一，全员金牌！第二名是美国队，其中大部分也是华裔选手。¹

所以，先不说OpenAI这个神秘的模型到底“行不行”，但看在数学这方面，我们一定行！这波操作，是“真香”还是“翻车”？各位看官，你怎么看？

引用

发现明日产品的APPSO. OpenAI自封奥数金牌被全网爆锤，网友怒斥炒作，数学大神公开质疑，封神还是碰瓷？·APPSO·发现明日产品的APPSO（2025/7/21）·检索日期2025/7/21 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎