春节档“小马”马甲掉了!智谱 GLM-5 炸场:大模型不卷代码,开始卷“系统工程”了?

温故智新AIGC实验室

TL;DR:

智谱正式揭晓了此前横扫开源界的神秘模型“Pony Alpha”真身——旗舰基座 GLM-5。它不再满足于当个写代码的“电子帕鲁”,而是进化成了能处理复杂工程、甚至能独立做生意赚美金的“数字架构师”。

在这个大模型卷出天际的春节档,当大家还在讨论谁的文生图更好看时,智谱默默甩出了一张王炸:GLM-5 正式发布。

还记得前几周在开源社区深藏功与名、被各路大神疯狂猜测的神秘模型“Pony Alpha”吗?没错,那就是智谱的匿名测试版。如今马甲一掉,大家发现这匹“小马”不仅跑得快,还想直接抢了资深系统架构师的饭碗1

过去一年,咱们对 AI 的要求是“帮我写这段代码”;而 GLM-5 的出现预示着一个新时代的开启——开发者正从“写代码”转向“编排 AI Agent”。简单来说,以前你是搬砖的,现在你成了指挥一群高智商帕鲁盖大楼的项目经理。

技术大揭秘:这匹“马”到底吃了什么草?

为了撑起这份野心,智谱在 GLM-5 的配置上也是下了血本。参数量直接从 GLM-4.7 的 355B 暴力拉升到了 744B,预训练数据更是堆到了惊人的 28.5T token1

但参数多不代表脑子好,真正的“黑科技”在于智谱自研的两个大招:

  1. “Slime”强化学习框架:别看名字像史莱姆一样软萌,它其实是个狠角色。这套系统支持异步智能体强化学习,让模型能在长达数十步甚至上百步的操作中保持“脑回路”一致。这意味着它处理工程任务时不会“走着走着就忘了家在哪”2
  2. 集成 DeepSeek 的稀疏注意力机制:这波属于是“强强联手”。通过精准狙击高相关性 Token,它在处理大型代码仓库时既能保持过目不忘,又能把计算成本打下来。对于开发者来说,这就是典型的“既要马儿跑,又要马儿少吃草”1

在 Benchmark 这种“期末考试”中,GLM-5 也是直接对标顶尖选手。在编程能力上硬刚 Claude Opus 4.5,甚至在多个 Agent 评测中拿下了开源 SOTA(目前最佳)1

实战演习:是骡子是马,拉出来遛遛

光看分数没意思,我们得看看这届 AI 的“系统工程能力”到底能不能打。

在**“一键克隆网页”**的测试中,GLM-5 表现出了惊人的视觉理解力。给它一张 Claude 的交互界面截图,它就能反手甩出一个包含 CSS 到 Tailwind 语义映射的工程文件。虽然在字体气质、留白比例等“玄学细节”上还有进步空间,但 80 分的完成度已经足以让初级前端工程师感受到一丝凉意2

更离谱的是一个叫 Vending Bench 2 的测试。官方把模型丢进一个模拟环境,让它经营一家自动售货机公司,周期长达一年。GLM-5 需要自己决定定价、管理现金流和优化库存。最终结果是,这位“AI 经理”账户余额剩了 4432 美元,表现直逼顶级闭源模型 Claude Opus 4.52

当然,大模型有时候也会“脑回路清奇”。比如那个经典的**“50 米洗车梗”**:

问:我家离洗车店只有 50 米,建议开车还是走路?

强如 GPT-5.2 曾一度建议“走路去”(那车呢?推着去吗?),而 GLM-5 显然已经补齐了这种物理世界的常识短板,成功识破了陷阱2

行业“地震”:谁笑了谁哭了?

智谱这次的发布,实际上是在向外界传递一个信号:大模型已经从“玩具”进化成了真正的“生产力工具”。

对于专业程序员来说,GLM-5 是极佳的提效神器。它擅长的是处理需要极少人工干预的长程规划、后端重构和深度调试。但对于小白用户,如果你只用一句话 Prompt 敷衍它,生成的案例可能还是差点意思。这说明,顶尖的工具只有在“行家”手里才能发挥出那种令人战栗的效果2

而在商业层面,开源+性价比的组合拳确实打得很准。毕竟,Claude 的会员费贵到让人心碎,还要限流。而 GLM-5 作为一个能在性能上与顶尖闭源模型掰手腕的开源选手,无疑给了广大开发者一个更香的选择12

引用