TL;DR:
苹果一篇AI论文被曝GT错误率高达30%,代码还有bug,搞得国内研究员通宵加班也跑不出好结果。论文作者最初“已读不回”式关issue,直到人家公开“开麦”才被迫撤稿。这波操作,让吃瓜群众直呼:大厂的“光环”也得擦亮眼睛看啊!
最近,AI圈又上演了一出“大无语事件”,堪称年度迷惑行为大赏!主角不是别人,正是顶着“科技巨头”光环的苹果公司,而受害者则是一位来自国内AI大模型公司阶跃星辰的资深研究员Lei Yang。这起事件不仅让Lei Yang和他的团队“熬秃了头”,也让整个AI学术界对数据质量和审稿机制打上了一个大大的问号。
连夜“爆肝”,却发现“地基”是歪的?
故事是这样的:这个月月初,Lei Yang被同事安利了一篇挂在arXiv上的苹果出品论文,题目叫《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。1 这篇论文号称提出了一种基于谜题的视觉推理任务诊断benchmark,更“凡尔赛”地宣称“小模型全面超越GPT-5、数据经人工精心把控”。听起来是不是很炸裂?更巧的是,这玩意儿和Lei Yang最近的研究方向简直是“天作之合”!
Lei Yang一看,这还得了?立马放下手头工作,撸起袖子就开干,准备适配这个神仙benchmark。谁知道,这一“干”就是个通宵周末。模型跑出来的点数,那叫一个惨不忍睹,远低于预期。Lei Yang心想:“我是谁?我在哪儿?我的模型这么菜吗?” 于是,他开始地毯式检查,结果发现——官方代码竟然有个低级bug:“请求VLM(视觉语言模型)的时候只用了图片路径的字符串,而不包含图片本身。” 翻译一下就是,模型在“看图说话”的时候,只看到了图片的“名字”,没看到“本尊”!这不就相当于,你让我评论一个人,却只给我看他的身份证号,没给我看照片吗?离谱!
行吧,bug嘛,修就修呗。Lei Yang“啪”的一下,把bug给修好了。结果呢?修复后模型的点数更低了! 这操作直接把Lei Yang干懵了,一度怀疑人生。他在小作文里写道:“由于结果过于离谱,我不得不做更多的验证工作,最终结论仍然是修了bug后点会更低。”2 这简直是“雪上加霜”的典范,程序员的崩溃往往就在一瞬间。
不得已,他决定一条一条分析错题,看看自家模型到底错在哪儿。这一看,不打紧——他随机抽查了前20道模型答错的题,结果有6道题明确属于GT错误! GT,也就是Ground Truth,简单来说就是“标准答案”或“正确标注”。这一下子就**“捅了马蜂窝”**了!
更惊悚的是,Lei Yang初步估算,这个benchmark的GT错误率可能高达30%!这意味着什么?就像你参加高考,考卷上30%的标准答案都是错的,你考得再好也白搭啊!这种错误风格,很可能是AI大模型(比如GPT)自动生成答案(CoT,即Chain of Thought,思考链)后,质检严重不足,导致大量“幻觉”被当成了真理。这哪里是“人工精心把控”,简直是“AI自由发挥”啊!
怒喷撤稿:程序员的“硬核”自卫反击战
发现这么大的问题,Lei Yang自然是忍不了。他选择在GitHub上向论文作者反馈。结果,6天过后,作者只是“不情不愿”地回复了两句,然后直接把issue(问题反馈)给关了! 这种“已读不回”式的傲慢,简直把Lei Yang气得“七窍生烟”。
你以为这就够离谱了?朋友们,别急,更离谱的还在后头!这篇论文可是投了ICLR 2026的。Lei Yang去看了看它的5条审稿意见,好家伙,居然没有任何一个审稿人发现GT质量问题,也没人发现论文中的例子存在幻觉和错误! 这一刻,学术界的“同行评审”机制,在Lei Yang眼里可能跟“空气”也差不多了。这不禁让人思考,在AI领域如此高速发展的今天,同行评审是不是也得“升级打怪”了?
愤怒之下,Lei Yang决定“放大招”——他撰写了一份详尽的Public Comment,3 摆事实、讲道理、列实例,把GT问题的“底裤”都掀开了,提醒ICLR审稿人和整个社区:这个数据集质量堪忧,极易误导研究方向!他在评论中写道:
我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力。
这哪里是“喷”,这分明是**“燃烧自己,照亮他人”的“学术打假斗士”精神!果然,在这条公开评论发表的第二天,论文作者就宣布撤稿,并删除了GitHub上的repo**。这速度,简直比你点外卖还快!网友们纷纷为Lei Yang的“硬核”行为点赞,直呼“干得漂亮!”
作者回应:承认疏忽,但“业余”不是借口?
事情闹大了,论文作者坐不住了。这两天,作者在“小地瓜”(没错,就是那个平台)上现身回应了。2 他首先声明已经和Lei Yang进行了详细交流,感谢大家推动学术社区进展。
那么,作者是怎么解释的呢?
- 数据质量问题:承认审核不周。虽然对人为注入错误的样本做了检查,但对更关键的部分**“没认真审核”**。特别是GPT自动转换成分步骤CoT时出现了“幻觉”,导致“标准答案”都错了。
- 代码问题:解释称项目中的example inference代码只是一个“dummy示例”,不是正式的演示代码。嗯……“dummy示例”?这借口,听起来有点耳熟。
- 关闭Issue:对自己当初直接关闭issue的行为表示“非常抱歉”,并承诺以后会一直开着直到问题解决。
最后,作者还特意强调:“我们的目标包括这个benchmark的目的都是推进各个研究方向,在做数据时有不应出现的疏忽,但我们各自都是出于对这个方向的兴趣,利用业余时间在做这个项目,也在其中花费了大量时间精力为了推进这个小方向的发展。我们会认真总结这次的经验教训,再接再厉。”
“利用业余时间”?这句回应一出,又引来了不少讨论。AI科研毕竟是严肃的学术活动,尤其当你的研究成果被大公司背书,甚至被其他研究员用作基准时,“业余时间”是否能成为数据质量和审核疏忽的挡箭牌呢? 这个问题,值得我们深思。
AI科研“大跃进”:警惕“草台班子”陷阱
这起苹果AI论文撤稿事件,无疑给火热的AI科研泼了一盆“冰水”,也敲响了警钟。
首先,数据质量是AI的生命线,绝不能“糊弄”。当大模型时代的数据生成能力越来越强,我们对这些“机器制造”的数据,更要擦亮眼睛,进行严格的人工质检。如果连benchmark的GT都有高达30%的错误率,那在此基础上训练和评估的模型,结果可想而知,那不就是**“用垃圾数据训练出的垃圾模型,还用来评估别的模型”**吗?
其次,学术界的审稿机制亟待优化。5个审稿人,竟然无一发现如此明显的bug和错误,这不禁让人担忧当前AI论文审稿的压力、效率与质量之间的平衡。在AI技术日新月异的背景下,如何确保评审的深度和有效性,是整个学术界需要直面并解决的问题。
最后,“大公司光环”并非“免检牌”。即便是苹果这样的大厂,其产出的论文和代码也可能存在严重缺陷。这提醒我们,在追逐前沿科技、膜拜“巨头”的同时,更要保持批判性思维和严谨的学术态度,不盲从,敢质疑。毕竟,真理越辩越明,好的科研成果也需要经得起千锤百炼。
这场“闹剧”虽然以撤稿告终,但它带来的反思才刚刚开始。或许,这是AI领域在“大跃进”之后,不得不面对的**“草台班子”陷阱**:在追求速度和产出的同时,如何守住学术的严谨和质量的底线?这不仅是对苹果的拷问,更是对整个AI科研生态的灵魂拷问。