TL;DR:
最近OpenAI又整活儿了!它家AI模型号称在奥数IMO拿到了“金牌水平”,结果被全网“爆锤”:是抢风头还是真本事?是自嗨还是真牛掰?连数学大神陶哲轩都出来“划重点”:AI开挂和人类裸考,这能比吗?
哈喽各位科技老铁们,最近科技圈和数学圈可真是“炸锅”了!起因是咱们AI界的“顶流”OpenAI搞了个大新闻:他们家的人工智能模型,居然在世界最顶级的数学竞赛IMO(国际数学奥林匹克竞赛)中,考出了媲美金牌的成绩!1
好家伙,AI学会做奥数题,还达到了世界冠军水平,这要是搁以前,那绝对是“奔走相告,香槟开起来”的高光时刻啊!但没想到,香槟还没来得及倒,全网的口水仗就先打响了。这到底是怎么回事?一个技术喜报,怎么就迅速演变成了一场“罗生门”式的争议风波呢?
网友们化身“福尔摩斯”,把这事儿总结成了三大“拷问”:
- 时机对吗? 为啥OpenAI不按规矩出牌,在IMO闭幕式前就“抢跑”发成绩,是不是在抢那群寒窗苦读、顶着巨大压力参赛的“学霸”们风头,显得有点“不讲武德”?
- 金牌真吗? OpenAI这“神秘模型”参加的又不是IMO官方邀请的比赛,评委还是自己请的,这枚“金牌”的含金量,到底有多少“水分”?
- 比赛公平吗? 让一个能瞬间调用“海量资源”的AI,和苦学十几年的人类孩子在同一个维度下比较,这本身是不是就是一场“降维打击”?
这背后,到底藏着哪些“瓜”?咱们一层层来扒。
“金牌”还是“碰瓷”?OpenAI这一波操作有多“迷惑”?
要说这波争议的“导火索”,还得从OpenAI研究员Alex Wei在X平台(就是那个X)发的一则帖子说起。7月19日,Alex喜滋滋地宣布,他家一个内部未命名的独立实验模型,在IMO数学竞赛中斩获了金牌级别的成绩:6道题做对5道,总分35/42,刚好踩线金牌标准线!他特意强调,这模型没开外挂,在标准考试环境下完成,没联网,时间一样,提交次数也一样。评分呢,找了3位前IMO金牌得主来“把脉”。1
Alex说这是“AI推理能力的一次重大跨越”,还特意提了,这模型不是针对奥数专项训练的,而是靠着通用的推理能力“平趟”考场。他甚至“凡尔赛”地表示,这次模型的表现,把AI解题的“思考时间”从GSM8K(顶尖人类0.1分钟)直接拉到了IMO(100分钟级别),这简直是“质的飞跃”啊!
然而,万万没想到,争议恰恰就从这则帖子的“发布时间”开始。
众所周知,IMO比赛结束后,有个不成文的“君子协议”:为了尊重参赛的学生们,AI公司们最好等闭幕式结束一周后再公布自己的AI成绩,别抢了孩子们的“C位”。但OpenAI偏偏在闭幕式之前就“官宣”了。
“国际数学奥林匹克要求人工智能公司不要抢孩子们的风头,并在闭幕式后一周再公布结果。而OpenAI在闭幕式之前就宣布了结果。”1 —— IMO协调员Joseph Myers的“吐槽”,字字珠玑,句句扎心。
另一家参与IMO测试的AI公司Harmonic也出来“作证”了,他们就老老实实地遵守了“约定”,等到7月28日才公布结果。这下,OpenAI可算是被推上了“不尊重赛事”的风口浪尖,网友们怒斥他们为了抢头条、赚流量,连“体面”都不要了,让那些辛苦备赛的“后浪”们的成就黯然失色。
当然了,OpenAI这边也赶紧出来“灭火”了。研究员Noam Brown澄清说,他们是在闭幕式结束后才发的,而且发帖前也提前告知了IMO组织者,并且遵守了对方“等闭幕式结束再发”的要求。
“1. 我们是在闭幕式结束后发布的消息,闭幕式是直播的,可以证明他们的发布时间。2. 他在发帖前提前告知了一位 IMO 组织者,后者请求 OpenAI 等闭幕式结束再发,OpenAI 也确实遵守了这个请求。”1 —— OpenAI研究员Noam Brown的“洗白”,听起来还挺有理有据?
尽管如此,“抢跑”、“不体面”的标签还是像口香糖一样粘在了OpenAI身上。如果说这还只是程序和沟通上的“罗生门”,那接下来的争议,可就直指这块“金牌”的含金量本身了。
更大的质疑点在于:这块“金牌”到底是谁认证的?虽然Alex Wei和OpenAI官方都小心翼翼地用了“金牌水平”(gold medal-level performance)这种“谦虚”的措辞,但架不住社交媒体上网友们直接简化成了“AI赢得金牌”。
问题就出在这:IMO是有专门邀请AI公司参与竞赛的,比如前面提到的Harmonic,但OpenAI并不在官方邀请名单上。也就是说,OpenAI既没正式注册参赛,也没把结果提交给IMO官方评审,而是自己请了三位前金牌得主来“打分”。有评论直接“点穴”:这三位前金牌得主又不是官方协调员,OpenAI的测试过程也完全不公开,更没接受第三方验证。
说白了,这更像是OpenAI在自己家后院搞了场“内部测试”,然后自封了个“金牌水平”,有点像**“自卖自夸”**。尽管模型可能真的解决了难题,但这种不公开、不透明的流程,让它的“金牌级别”说法,多少有点“野鸡大学”的感觉。
不过呢,也有不少网友“站队”OpenAI,觉得这事儿非但没啥坏处,反而让IMO这项“高冷”的赛事获得了前所未有的关注度。
“OpenAI的帖让我第一次点进去看今年谁拿了金牌,以前我从不关心。” —— 这位网友道出了不少人的心声,AI这波“炒作”属实把IMO送上了“热搜”。
陶哲轩“点透”:这AI奥数,真能和人类“掰手腕”吗?
所以,OpenAI这一波操作,到底是不是真的“越界”了,光顾着秀肌肉,全然不顾“孩子们”的感受?
作为此次IMO金牌得主颁奖嘉宾的“数学天才”陶哲轩(Terence Tao),也在这场风波中发声了。虽然他没直接评论OpenAI的争议,但他却用一番**“醍醐灌顶”**的话,一语道破了AI和人类比赛的本质区别。
“AI能力存在着极为广泛的差距,差距可能达到几个数量级,这取决于提供的资源和辅助支持,以及如何获得报告结果。”1 —— 陶哲轩的“金句”,直接揭示了AI的“隐形外挂”。
他拿这次IMO竞赛“神级比喻”:AI取得的成绩,就像是选手在“时间加速器”里答题了几个月,而不是人类在标准比赛里短短几个小时。更离谱的是,AI还能无限重写题目、用无限工具解题、多人协作、把失败的答案直接“丢进垃圾桶”,只上交“最好看”的那一份!
“在没有一个控制测试方法的情况下,应该小心不要将各种AI模型在IMO等比赛中的表现进行简单的比较,也不应将这些模型与人类选手进行直接对比。我也不会评论任何没有提前披露方法论的自我报告的AI比赛成绩。”1 —— 陶哲轩的“忠告”,直接把OpenAI的“自嗨”拍在了沙滩上。
他总结说,与其纠结于分数高低,不如先问一句:比赛规则公平吗? 陶哲轩甚至在今年6月就预测,AI在IMO这种大型比赛中不会取得高分,建议研究人员“目标放低点”。这脸打得,有点疼啊!
抛开关于发布时间和评分标准的技术性争论,整场风波的内核,更像是一种集体情绪的真实写照:我们,或许还未准备好接受这个趋势。
这个趋势就是,眼看着AI从围棋棋盘,到编程赛场,如今又“兵临城下”,来到了代表着最年轻一代智力光芒的IMO数学赛场。我们当然可以争论评价标准是否统一,可以辩驳AI拥有不平等的资源,但这些都无法改变一个最根本的事实:AI只会越来越强,我们曾经引以为傲的一座座智力堡垒,正在被它逐一攻破。
OpenAI这次引发的争议,或许就是人类与AI共存时代的一个缩影:一边是疯狂进化的技术,一边是需要时间调适的人类。
值得一提的是,就像OpenAI研究员Alex Wei在推文最后说的,他向所有参赛者表示祝贺,并透露OpenAI的很多研究员都曾是IMO的参赛选手,甚至是金牌得主。而在此次IMO竞赛中,中国队选手获得了团体第一,全员金牌!第二名是美国队,其中大部分也是华裔选手。1
所以,先不说OpenAI这个神秘的模型到底“行不行”,但看在数学这方面,我们一定行!这波操作,是“真香”还是“翻车”?各位看官,你怎么看?