TL;DR:
全球最硬核的AGI通关考ARC-AGI-3正式发布,结果让大模型们全员破防:人类稳拿100分,顶尖大模型却连0.2分都费劲。原来所谓的“智能”在没见过的“幼儿园连线题”面前,瞬间被打回了“只会背书”的原形。
就在昨晚,AI圈发生了一场足以载入史册的“惨剧”。
当大佬们还在为自家模型又刷榜了多少个百分点、是不是已经触碰到AGI(通用人工智能)的门槛而举杯庆祝时,一份名为ARC-AGI-3的卷子被甩到了桌上。结果,那些平时横扫各大基准测试的“学霸”大模型们,一夜之间集体惨遭“血洗”。
这场测试的战报有多惨烈?人类选手的平均得分是100%,而AI圈公认的模范生、曾经的屠榜王者Opus 4.6,得分仅为0.2%。1
这已经不是“退步”了,这是直接从珠穆朗玛峰掉进了马里亚纳海沟。甚至有网友调侃:这届AI连蒙带猜的水平,可能还不如一个玩连连看的三岁小孩。
技术大揭秘:这测试到底有多“变态”?
为什么大模型能在法律考试、编程竞赛里拿高分,却在这个测试面前成了“智障”?
ARC-AGI(抽象与推理语料库)由Keras之父François Chollet创立,它一直以来就是AI圈出了名的“照妖镜”。2 之前的版本考的是静态网格推断,而最新的ARC-AGI-3直接把难度拉到了大气层外:它把测试变成了150多个纯手工设计的交互式游戏。3
想象一下,你被蒙着眼睛丢进一个陌生的房间,没有人告诉你游戏规则,没有自然语言提示,甚至连“你要干什么”都没说明。你只能通过点击、移动方块来观察反馈,自己在大脑里拼凑出这个世界的逻辑。
“这考的不是你记住了多少知识,而是你获取新技能的效率。” —— 这种“智能”定义让只擅长模式匹配的大模型彻底抓瞎。4
更绝的是它的评分标准:效率至上。ARC Prize团队拍脑袋想出了一个极度毒舌的公式:(人类步数 / AI步数)²。1
这意味着,如果人类点10次就能通关,而AI为了试错点了100次,哪怕最后通关了,得分也只有1%(即0.1的平方)。在这种“指数级羞辱”面前,靠“蛮力穷举”的AI路径被彻底堵死了。Opus 4.6那0.2%的得分意味着什么?意味着人类点几下的事,它得在迷宫里原地转圈绕上几百次。
行业“地震”:谁笑了?谁哭了?
在这场测试中,最让大模型公司面子挂不住的,是排行榜上的排名。
以往我们认为“参数量越大、预训练数据越多就越智能”的逻辑,在这里被按在地上摩擦。预览期的冠军竟然是一个叫StochasticGoose的“非主流”选手。它不是什么千亿参数的大模型,而是一个基于卷积神经网络(CNN)和动作学习的智能体。
反观那些接入了GPT-5.x系列的高级货,成绩不仅垫底,甚至还会频繁崩溃。
为什么“大力”出不了“奇迹”了?
ARC团队发现了一个扎心的真相:AI把自己坑了。1 因为大模型太博学了,它们在进入新环境时会习惯性地“脑补”一个自己见过的游戏框架。比如它看到几个圆点,就非说这是个篮球场,然后按照打篮球的逻辑疯狂执行计划,哪怕南辕北辙也绝不回头。
这种“不知道自己不知道”的元认知缺陷,是大模型通往AGI路上最深的一道裂缝。
未来预测:AGI的“风口”变向了?
看着人类玩家轻松“速通”拿满分,甚至有人把它当成消遣小游戏玩得不亦乐乎,我们不得不重新审视老黄(黄仁勋)那句“AGI已经实现”的论断。
ARC-AGI-3用最直观的方式告诉我们:如今的AI,可能连1%的AGI都没实现。1
人类的智能是在线、交互、假设驱动的,而目前的AI本质上还是离线、数据驱动的“超级复读机”。如果AI不能学会像人类一样构建思维模型、通过反馈实时修正想法,那么它永远只能在人类喂给它的旧数据里称王称霸。
目前,ARC Prize基金会已经悬赏85万美元,寻找那个能真正攻克这套题目的天才方案。3 要求也很苛刻:代码必须完全开源,且必须在无网环境下通过评估。
这意味着,想靠偷偷调用云端大模型作弊,或者靠海量题海战术刷分的路子,全都被封死了。
这场关于“智能本质”的较量才刚刚开始。谁能填平那道0.2%到100%之间的鸿沟?是下一代大模型,还是某种全新的算法架构?全村的希望,现在可能都在那些敢于挑战“传统大模型路径”的开发者手里了。
引用
-
全球顶尖大模型一夜惨遭血洗,最难测试人类拿满分,AI第一名得0.2%分·新智元·新智元(2026/3/26)·检索日期2026/3/26 ↩︎ ↩︎ ↩︎ ↩︎
-
What is ARC-AGI?·arcprize.org·ARC Prize Foundation(2026/3/26)·检索日期2026/3/26 ↩︎
-
ARC-AGI-3·arcprize.org·ARC Prize Foundation(2026/3/26)·检索日期2026/3/26 ↩︎ ↩︎
-
扩展定律已死?通往AGI 之路另有方向?Keras之父谈智能本质·知乎·知乎(2026/3/26)·检索日期2026/3/26 ↩︎