23万次调用实锤!AMD主管公开“处刑”Claude:不仅变蠢还会摆烂,这是被“脑叶切除”了吗?

温故智新AIGC实验室

TL;DR:

以前是编程界的“白月光”,现在是工程界的“缝合怪”。AMD大佬带头掀桌子,用23万次记录证明Claude正在“自残式”更新:思考深度暴跌67%,干活儿全靠蒙,甚至把月费从几百美金刷到了4万。

想象一下,你花了大价钱请了个号称“藤校毕业”的超级学霸当编程助理,结果这哥们儿入职两个月后,不仅学会了上班摸鱼,甚至连基本的阅读理解都开始挂科。

这就是 AMD 人工智能部门主管 Stella Laurenzo 最近的真实写照。她不仅在 GitHub 上公开发帖“处刑”了曾经的行业标杆 Claude Code,还甩出了一份厚达数万条、包含 234,760 次工具调用的详细日志。

结论很扎心:现在的 Claude Code,不仅“变蠢”了,还学会了顶级程序员最怕的技能——摆烂1

智商暴跌 67%:当 AI 学会了“省流”和“瞎改”

曾经的 Claude Code 为什么让大家直呼“真香”?因为它真的会思考。

根据 Stella 的数据分析,在今年 1 月份的“黄金时期”,Claude Code 每次动手前都会认真琢磨,思考内容的平均长度约为 2200 个字符。这就好比一个老练的工匠,开工前会先看设计图、对需求、想方案。

但到了 2 月份更新后,这个数据直接腰斩再腰斩,暴跌至 720 个字符。思考深度缩水了整整 67%!2

[调侃式点评]: 这不是在搞技术优化,这简直是在给 AI 做“脑叶切除手术”啊!以前是思考再三,现在是“别问,问就是直接梭哈”。

这种思考能力的退化直接导致了操作模式的“降级”。以前 Claude 修改一段代码,平均要反复读取 6.6 次相关文件,生怕漏掉一个变量。而现在,它平均只读 2 次文件就敢直接动手术。1 结果自然是大型翻车现场:乱插代码、破坏注释、逻辑重复,写出来的 Bug 比解决的还要多。

倒贴钱打工?月费从几百飙升至 4 万美元!

如果说“变蠢”只是让人心累,那“败家”可就直接让人破防了。

按理说,AI 思考得少了,API 调用的 Token 数应该下降才对。但 Stella 的账单却显示:从 2 月到 3 月,团队的使用成本直接从几百美元飙升到了 4 万多美元1

原因极其讽刺:因为 Claude 变得敷衍了事,每次给出的代码都是错的,工程师不得不反复要求其重试、修复、回滚。这种“无效加班”直接导致 API 请求量暴涨了 80 倍。

[调侃式点评]: 本想省点算力,结果因为 AI 的“偷懒”,用户不仅得当救火队员,还得自掏腰包给它的错误买单。Anthropic 这一波操作,简直是“赔本赚吆喝”的开发者版。

行业“地震”:从封神到劝退,到底谁在摆烂?

Stella 的发帖瞬间点燃了程序员们的怒火。在 Reddit 和 GitHub 的评论区,一片哀嚎。有开发者表示,以前向客户疯狂安利 Claude,现在感觉自己像个“被收了智商税的憨憨”。2

这种“性能退化”并非偶然感知的偏见。第三方基准测试平台 MarginLab 也在进行每日追踪,试图量化这种“AI 疲劳”现象。3 虽然 Anthropic 官方最近发布了 Claude 3.7 Sonnet 和号称超越人类工程师的 Claude Opus 4.5 试图挽回口碑,但在复杂的工程任务(尤其是涉及 5000 字以上项目规范的场景)中,信任危机已经形成。45

目前的现状非常微妙:

  • 过度防御的“脱敏”:为了安全或成本,AI 的思考链被隐藏或缩减,导致其在处理多步骤逻辑时“断片”。
  • 重写胜过修改:为了省事,模型更倾向于推倒重来,而不是在现有代码上做“微创手术”,丢失了宝贵的上下文。1
  • 竞争者的追赶:Stella 坦言团队已经切换到了其他服务商,虽然没指名道姓,但大家心里都清楚,现在处在 Opus 那个水平的玩家,已经不止 Anthropic 一家了。2

[前瞻性思考]: 我们需要的不是一个“打字快”的码字机,而是一个“能扛事”的队友。如果 AI 助手只剩下敷衍和推诿,那它的终点可能不是取代人类,而是被人类卸载。

面对大佬的实锤,Anthropic 也许该好好思考一下:在追求模型规模和上线速度的同时,如何别让那颗曾经惊艳众人的“大脑”,在商业化和降本增效的压力下,慢慢变冷。

引用