AI圈深夜大地震！全球顶尖大模型集体“挂科”：人类拿满分，AI最强选手仅得0.2分？

全球最硬核的AGI通关考ARC-AGI-3正式发布，结果让大模型们全员破防：人类稳拿100分，顶尖大模型却连0.2分都费劲。原来所谓的“智能”在没见过的“幼儿园连线题”面前，瞬间被打回了“只会背书”的原形。

就在昨晚，AI圈发生了一场足以载入史册的“惨剧”。

当大佬们还在为自家模型又刷榜了多少个百分点、是不是已经触碰到AGI（通用人工智能）的门槛而举杯庆祝时，一份名为ARC-AGI-3的卷子被甩到了桌上。结果，那些平时横扫各大基准测试的“学霸”大模型们，一夜之间集体惨遭“血洗”。

这场测试的战报有多惨烈？人类选手的平均得分是100%，而AI圈公认的模范生、曾经的屠榜王者Opus 4.6，得分仅为0.2%。¹

这已经不是“退步”了，这是直接从珠穆朗玛峰掉进了马里亚纳海沟。甚至有网友调侃：这届AI连蒙带猜的水平，可能还不如一个玩连连看的三岁小孩。

为什么大模型能在法律考试、编程竞赛里拿高分，却在这个测试面前成了“智障”？

ARC-AGI（抽象与推理语料库）由Keras之父François Chollet创立，它一直以来就是AI圈出了名的“照妖镜”。² 之前的版本考的是静态网格推断，而最新的ARC-AGI-3直接把难度拉到了大气层外：它把测试变成了150多个纯手工设计的交互式游戏。³

想象一下，你被蒙着眼睛丢进一个陌生的房间，没有人告诉你游戏规则，没有自然语言提示，甚至连“你要干什么”都没说明。你只能通过点击、移动方块来观察反馈，自己在大脑里拼凑出这个世界的逻辑。

“这考的不是你记住了多少知识，而是你获取新技能的效率。” —— 这种“智能”定义让只擅长模式匹配的大模型彻底抓瞎。⁴

更绝的是它的评分标准：效率至上。ARC Prize团队拍脑袋想出了一个极度毒舌的公式：(人类步数 / AI步数)²。¹

这意味着，如果人类点10次就能通关，而AI为了试错点了100次，哪怕最后通关了，得分也只有1%（即0.1的平方）。在这种“指数级羞辱”面前，靠“蛮力穷举”的AI路径被彻底堵死了。Opus 4.6那0.2%的得分意味着什么？意味着人类点几下的事，它得在迷宫里原地转圈绕上几百次。

在这场测试中，最让大模型公司面子挂不住的，是排行榜上的排名。

以往我们认为“参数量越大、预训练数据越多就越智能”的逻辑，在这里被按在地上摩擦。预览期的冠军竟然是一个叫StochasticGoose的“非主流”选手。它不是什么千亿参数的大模型，而是一个基于卷积神经网络（CNN）和动作学习的智能体。

反观那些接入了GPT-5.x系列的高级货，成绩不仅垫底，甚至还会频繁崩溃。

为什么“大力”出不了“奇迹”了？

ARC团队发现了一个扎心的真相：AI把自己坑了。¹ 因为大模型太博学了，它们在进入新环境时会习惯性地“脑补”一个自己见过的游戏框架。比如它看到几个圆点，就非说这是个篮球场，然后按照打篮球的逻辑疯狂执行计划，哪怕南辕北辙也绝不回头。

这种“不知道自己不知道”的元认知缺陷，是大模型通往AGI路上最深的一道裂缝。

看着人类玩家轻松“速通”拿满分，甚至有人把它当成消遣小游戏玩得不亦乐乎，我们不得不重新审视老黄（黄仁勋）那句“AGI已经实现”的论断。

ARC-AGI-3用最直观的方式告诉我们：如今的AI，可能连1%的AGI都没实现。¹

人类的智能是在线、交互、假设驱动的，而目前的AI本质上还是离线、数据驱动的“超级复读机”。如果AI不能学会像人类一样构建思维模型、通过反馈实时修正想法，那么它永远只能在人类喂给它的旧数据里称王称霸。

目前，ARC Prize基金会已经悬赏85万美元，寻找那个能真正攻克这套题目的天才方案。³ 要求也很苛刻：代码必须完全开源，且必须在无网环境下通过评估。

这意味着，想靠偷偷调用云端大模型作弊，或者靠海量题海战术刷分的路子，全都被封死了。

这场关于“智能本质”的较量才刚刚开始。谁能填平那道0.2%到100%之间的鸿沟？是下一代大模型，还是某种全新的算法架构？全村的希望，现在可能都在那些敢于挑战“传统大模型路径”的开发者手里了。

引用

全球顶尖大模型一夜惨遭血洗，最难测试人类拿满分，AI第一名得0.2%分·新智元·新智元（2026/3/26）·检索日期2026/3/26 ↩︎ ↩︎ ↩︎ ↩︎
What is ARC-AGI?·arcprize.org·ARC Prize Foundation（2026/3/26）·检索日期2026/3/26 ↩︎
ARC-AGI-3·arcprize.org·ARC Prize Foundation（2026/3/26）·检索日期2026/3/26 ↩︎ ↩︎
扩展定律已死？通往AGI 之路另有方向？Keras之父谈智能本质·知乎·知乎（2026/3/26）·检索日期2026/3/26 ↩︎