DeepSeek:这集我见过!智谱GLM-5架构“偷跑”,股价两天暴涨60%

温故智新AIGC实验室

TL;DR:

智谱GLM-5还没发布就被网友从GitHub代码里“扒”个精光,竟然还是DeepSeek的“异父异母亲兄弟”?靠着这波“复用架构”的阳谋和神秘模型Pony Alpha的强势助攻,智谱股价直接原地起飞,AI圈的“春节档”混战已经提前拉开序幕。

这届AI圈的大佬们,似乎都商量好了不让大家安稳过年。就在大家还在复盘DeepSeek为何能凭一己之力搅动全球大模型池水时,国产大模型的老大哥“智谱AI”也坐不住了。

虽然官方还没正式敲锣打鼓,但下一代旗舰大模型GLM-5的架构底裤,已经被开源社区的“列文虎克”们在GitHub上挖了个干净。消息一出,智谱AI在港股市场的表现简直比过年放烟花还灿烂,短短两天内暴涨60% 1

技术大揭秘:这玩意儿到底怎么工作的?

根据vLLM推理框架的最新代码提交显示,GLM-5这次走的是一条“走别人的路,让别人无路可走”的路线。它几乎是“像素级”地复用了DeepSeek-V3/V3.2的核心架构,包括那两个让硅谷都要看两眼的杀手锏:稀疏注意力机制(DSA)多Token预测(MTP) 1

  • DSA(DeepSeek Sparse Attention): 简单来说,这就像是给模型装了个“自动降噪耳机”。它能先用一个轻量级的组件扫描历史信息,只挑出最关键的重点进行计算。这种“抓大放小”的策略,让长文本处理效率直接起飞,而质量几乎不掉线 2
  • MTP(Multi-Token Prediction): 以前的模型是“挤牙膏”,一个字一个字蹦;MTP则是“吐珠子”,一次预测多个Token。这不仅提升了生成效率,还让模型更有“全局观”。

从泄露的参数来看,GLM-5是个拥有745B(7450亿)参数的庞然大物,是上一代GLM-4.7的两倍 1。它采用了MoE(混合专家)架构,总共256个专家,每次干活只激活其中8个。最绝的是,它的稀疏度只有5.9%,与DeepSeek-V3.2的5.4%几乎持平。这种“既要参数多,又要跑得快”的既视感,懂行的朋友估计已经开始会心一笑了。

调侃点评: 智谱:DeepSeek这作业写得不错,借我参考下。DeepSeek:你这参考得连标点符号都挺像啊!

匿名测试:谁是那个编程逆天的“Pony Alpha”?

除了架构泄露,最近OpenRouter平台上出现的一个代号为**「Pony Alpha」**的神秘匿名模型也让开发者们吵翻了天 3

这个模型不仅支持200K的超长上下文,其编程和推理能力更是强到离谱,能根据一条指令直接写出完整的App。社区里91%的用户都认为,这马甲下面藏着的肯定就是GLM-5的测试版 1

证据链其实已经很闭合了:

  1. 时间点精准: 出现的窗口正好撞上智谱首席科学家唐杰暗示的发布期。
  2. 排版“DNA”: 有网友发现,Pony Alpha的输出排版风格、对特定Token的反应,和智谱家族的模型简直是一模一样 4
  3. 开发者证言: “这编程能力,除了智谱我也想不出国内谁家能在这个节点拿出这种狠货了。”

行业“地震”:谁笑了谁哭了?

智谱这波操作,最直接的影响就是——股价。截至2月9日,智谱在港股的涨幅已经让不少老股民看呆了,股价再创历史新高 3

为什么资本市场这么嗨? 首先,复用DeepSeek架构意味着“部署门槛极低”。开发者可以直接白嫖vLLM、SGLang等现成的优化方案,不用再为适配新架构掉头发。 其次,智谱这种“务实”的风格,在2026年春节这个特殊的节点显得极具侵略性。毕竟,届时Qwen 3.5、DeepSeek新模型、MiniMax M2.2都挤在一起发布,谁能抢占第一波“开发者心智”,谁就能在接下来的竞争中占据高地。

不过,也有技术流提出了担忧:既然复用的是DeepSeek-V3那种以纯文本为主的架构,那GLM-5首发版本的多模态能力会不会缺位?毕竟,现在的AI圈,光会写代码和聊天已经不够卷了,还得会看、会听、会剪视频 1

无论如何,2026年的“AI春节档”已经比电影院还要热闹了。当智谱穿上DeepSeek的“战袍”,这场国产大模型的巅峰对决,才真正进入到了白热化阶段。

引用


  1. GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力 · 量子位 · 梦晨 (2026/02/10) · 检索日期2026/2/10 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. GLM-5架构曝光!智谱AI两天暴涨60%,采用DeepSeek同款稀疏注意力 · ClawdChat (2026/02/10) · 检索日期2026/2/10 ↩︎

  3. GLM-5新模型发布在即?智谱股价创新高 · 第一财经 · 第一财经 (2026/02/09) · 检索日期2026/2/10 ↩︎ ↩︎

  4. 股价已涨200% 海外神秘大模型几乎确定为GLM-5:复用DS架构 · 新浪科技 (2026/02/10) · 检索日期2026/2/10 ↩︎