Claude Mythos把AI考卷撕了:评测机构惊喊“测不准”,2027奇点已提前撞线?

温故智新AIGC实验室

TL;DR:

国际权威评测机构METR发现,自家用来衡量AI能力的“温度计”被Claude Mythos直接撑爆了——它能独立完成人类需要干16个小时的复杂任务,而评测题库里,超过16小时的任务总共只有5道。这意味着,我们可能已经失去了丈量AI真实能力的尺子。2027年的AGI奇点,似乎比预想中来得更早、更猛。

“考官”出不起题了:人类16小时的工作,AI表示“我可以”

你有没有过这种体验?考试时发现题目太简单,提前交卷,结果老师一脸尴尬地说:“同学,这个卷子可能测不出你的真实水平……”

现在,AI界的“顶级考生”Claude Mythos,让全球最权威的AI评测机构之一METR体验到了同样的窘迫感。1

事情的起因是一张在网上刷屏的趋势图。METR设计了一套名为“Time Horizons”的考试,专门用来衡量AI完成长周期复杂任务的能力。他们有个核心指标叫“50%成功率时间线”——简单说,就是看一个模型,有多大几率能独立完成一个人类需要干X小时才能搞定的任务。

过去的顶尖模型,成绩大概是几分钟到几小时不等。但当Claude Mythos走进考场,数据直接“爆表”了:它在人类需要16个小时才能完成的、极其复杂的长线任务上,轻松达到了50%的成功率!2

你可能会想,那测测32小时、64小时的任务呗?METR给出的答案让人倒吸一口凉气:“我们测不了了。”

为什么?因为在他们精心构建的228个“魔鬼级”测试任务中,只有区区5个任务被归类为“16小时及以上”。样本量太小,数据一算就“不稳定且失去意义”。

这就像用一把只有1米长的卷尺去量一栋摩天大楼,除了知道它“爆表”了,我们对其真实的深度一无所知。人类引以为傲的难题库,被AI彻底掏空了。

超指数级“狂飙”:AI的发展,正在加速加速再加速

别急,更刺激的还在后头。把METR那张趋势图拉出来细看,你会发现一个更惊人的事实。

纵轴是AI能自主完成任务的时长,从8秒到5年,对数刻度。横轴是模型发布时间,从2021到2028。把每个模型版本的点连起来,画出的不是一条直线,也不是一条平缓的指数曲线,而是一条比指数还陡的弧线——AI的发展本身就在加速。

我们回顾一下这条“进化之路”:

  • 2021年:最好的模型能自主完成8秒级别的任务,比如写一行代码,修个拼写错误。
  • 2023年初:推进到1分钟量级,能搞定一个小函数、一段简单调试。
  • 2024年中:冲到大约1小时,能实现一个完整功能,完成一次多文件重构。
  • 2026年4月:Claude Mythos直接把标尺干到了16小时——能独立完成一个完整的工程子项目,读代码、理解架构、制定方案、编写实现、调试测试,一气呵成,全程不需要人类盯着。2

每一代的跃升幅度都比上一代更大,间隔时间都比上一代更短。OpenAI超级对齐团队前成员Leopold Aschenbrenner曾预测,2027年是AGI的奇点。但现在,Claude Mythos的表现已经略高于2027年情景的趋势线。3

换句话说,“奇点”还没到时间,能力值已经提前超标了。AI从业者和硅谷观察家们都在惊呼:整个行业对AI发展速度的预估,都偏保守了。

“盾”与“矛”:AI既是超级黑客,也是超级保镖

能力越大,“破坏力”也越大。如果说METR的烦恼还是学术性的,那么安全巨头Palo Alto Networks的预警,则是一份带血的实战报告。4

Palo Alto获得了Mythos等前沿模型的早期无限制访问权限,测试结论让所有防御者脊背发凉:AI已经跨过了那道名为“自主”的门槛。

结果有多恐怖?时间坍缩。使用Mythos辅助进行漏洞分析,仅仅3周时间,完成的工作深度和覆盖广度,就等同于一整个顶级渗透测试团队整整1年的工作量。

它能识别出上万行代码中那些零散、低危的小漏洞,更可怕的是,它能像顶级黑客一样,将这些不起眼的漏洞串联成一条致命的攻击链。从初步入侵到数据拖库,在AI辅助下,整个过程被压缩到了25分钟。而在过去,这种级别的攻击可能需要一个团队潜伏数周才能完成。

不过,也并非全是坏消息。Mozilla已经开始行动,他们利用Mythos扫描Firefox浏览器,仅在2026年4月一个月内,就修复了破纪录的423个安全问题。5

这说明,AI也是最强的盾,但前提是你必须比攻击者跑得更快。 这是一场“用AI对抗AI”的自动化博弈,旧时代的防御节奏已经彻底失效。

奇点倒计时:资本已经All In,我们能做什么?

面对这场“外星文明”般的降临,资本市场的反应最诚实。在过去5个月里,英伟达向自己的客户注资约400亿美金,其中300亿给了OpenAI。6 这些钱转了一圈,最终全部变成了英伟达芯片的订单。

黄仁勋正在用真金白银,强行拉拽全产业链加速撞向奇点。这套“永动机”在奇点坠落前根本无法停下。

2027年,这个原本需要辩论的预测,如今更像一个需要准备的倒计时。当“考官”已经出不起题,当AI的能力增长曲线开始脱离我们的理解范围,我们除了惊叹,是否也应该思考:在AGI真正到来之前,我们准备好迎接它了吗?

参考资料:


  1. 刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速·新智元(2026/5/11)·检索日期2026/5/11 ↩︎

  2. METR Time Horizons·METR(2026/5/11)·检索日期2026/5/11 ↩︎ ↩︎

  3. Leopold Aschenbrenner's 2027 AGI prediction·Twitter/X·Chase Brower(2026/5/11)·检索日期2026/5/11 ↩︎

  4. Frontier AI Defense·Palo Alto Networks Blog(2026/5/11)·检索日期2026/5/11 ↩︎

  5. 同[1] ↩︎

  6. 同[1] ↩︎