Claude Mythos把AI考卷撕了：评测机构惊喊“测不准”，2027奇点已提前撞线？

TL;DR：

国际权威评测机构METR发现，自家用来衡量AI能力的“温度计”被Claude Mythos直接撑爆了——它能独立完成人类需要干16个小时的复杂任务，而评测题库里，超过16小时的任务总共只有5道。这意味着，我们可能已经失去了丈量AI真实能力的尺子。2027年的AGI奇点，似乎比预想中来得更早、更猛。

你有没有过这种体验？考试时发现题目太简单，提前交卷，结果老师一脸尴尬地说：“同学，这个卷子可能测不出你的真实水平……”

现在，AI界的“顶级考生”Claude Mythos，让全球最权威的AI评测机构之一METR体验到了同样的窘迫感。¹

事情的起因是一张在网上刷屏的趋势图。METR设计了一套名为“Time Horizons”的考试，专门用来衡量AI完成长周期复杂任务的能力。他们有个核心指标叫“50%成功率时间线”——简单说，就是看一个模型，有多大几率能独立完成一个人类需要干X小时才能搞定的任务。

过去的顶尖模型，成绩大概是几分钟到几小时不等。但当Claude Mythos走进考场，数据直接“爆表”了：它在人类需要16个小时才能完成的、极其复杂的长线任务上，轻松达到了50%的成功率！²

你可能会想，那测测32小时、64小时的任务呗？METR给出的答案让人倒吸一口凉气：“我们测不了了。”

为什么？因为在他们精心构建的228个“魔鬼级”测试任务中，只有区区5个任务被归类为“16小时及以上”。样本量太小，数据一算就“不稳定且失去意义”。

这就像用一把只有1米长的卷尺去量一栋摩天大楼，除了知道它“爆表”了，我们对其真实的深度一无所知。人类引以为傲的难题库，被AI彻底掏空了。

别急，更刺激的还在后头。把METR那张趋势图拉出来细看，你会发现一个更惊人的事实。

纵轴是AI能自主完成任务的时长，从8秒到5年，对数刻度。横轴是模型发布时间，从2021到2028。把每个模型版本的点连起来，画出的不是一条直线，也不是一条平缓的指数曲线，而是一条比指数还陡的弧线——AI的发展本身就在加速。

我们回顾一下这条“进化之路”：

2021年：最好的模型能自主完成8秒级别的任务，比如写一行代码，修个拼写错误。
2023年初：推进到1分钟量级，能搞定一个小函数、一段简单调试。
2024年中：冲到大约1小时，能实现一个完整功能，完成一次多文件重构。
2026年4月：Claude Mythos直接把标尺干到了16小时——能独立完成一个完整的工程子项目，读代码、理解架构、制定方案、编写实现、调试测试，一气呵成，全程不需要人类盯着。²

每一代的跃升幅度都比上一代更大，间隔时间都比上一代更短。OpenAI超级对齐团队前成员Leopold Aschenbrenner曾预测，2027年是AGI的奇点。但现在，Claude Mythos的表现已经略高于2027年情景的趋势线。³

换句话说，“奇点”还没到时间，能力值已经提前超标了。AI从业者和硅谷观察家们都在惊呼：整个行业对AI发展速度的预估，都偏保守了。

能力越大，“破坏力”也越大。如果说METR的烦恼还是学术性的，那么安全巨头Palo Alto Networks的预警，则是一份带血的实战报告。⁴

Palo Alto获得了Mythos等前沿模型的早期无限制访问权限，测试结论让所有防御者脊背发凉：AI已经跨过了那道名为“自主”的门槛。

结果有多恐怖？时间坍缩。使用Mythos辅助进行漏洞分析，仅仅3周时间，完成的工作深度和覆盖广度，就等同于一整个顶级渗透测试团队整整1年的工作量。

它能识别出上万行代码中那些零散、低危的小漏洞，更可怕的是，它能像顶级黑客一样，将这些不起眼的漏洞串联成一条致命的攻击链。从初步入侵到数据拖库，在AI辅助下，整个过程被压缩到了25分钟。而在过去，这种级别的攻击可能需要一个团队潜伏数周才能完成。

不过，也并非全是坏消息。Mozilla已经开始行动，他们利用Mythos扫描Firefox浏览器，仅在2026年4月一个月内，就修复了破纪录的423个安全问题。⁵

这说明，AI也是最强的盾，但前提是你必须比攻击者跑得更快。 这是一场“用AI对抗AI”的自动化博弈，旧时代的防御节奏已经彻底失效。

面对这场“外星文明”般的降临，资本市场的反应最诚实。在过去5个月里，英伟达向自己的客户注资约400亿美金，其中300亿给了OpenAI。⁶ 这些钱转了一圈，最终全部变成了英伟达芯片的订单。

黄仁勋正在用真金白银，强行拉拽全产业链加速撞向奇点。这套“永动机”在奇点坠落前根本无法停下。

2027年，这个原本需要辩论的预测，如今更像一个需要准备的倒计时。当“考官”已经出不起题，当AI的能力增长曲线开始脱离我们的理解范围，我们除了惊叹，是否也应该思考：在AGI真正到来之前，我们准备好迎接它了吗？

参考资料：

刚刚，Claude Mythos打爆AI评测天花板！超指数狂飙，2027奇点加速·新智元（2026/5/11）·检索日期2026/5/11 ↩︎
METR Time Horizons·METR（2026/5/11）·检索日期2026/5/11 ↩︎ ↩︎
Leopold Aschenbrenner's 2027 AGI prediction·Twitter/X·Chase Brower（2026/5/11）·检索日期2026/5/11 ↩︎
Frontier AI Defense·Palo Alto Networks Blog（2026/5/11）·检索日期2026/5/11 ↩︎
同[1] ↩︎
同[1] ↩︎