TL;DR:
Qwen团队提出的GSPO算法,通过从“逐token”到“序列级”重要性采样的范式转变,解决了DeepSeek GRPO等现有大语言模型(LLM)强化学习训练中的不稳定性问题,尤其对MoE模型意义重大。这一突破不仅提高了训练效率和模型稳定性,更预示着LLM后训练算法将迎来新标准,加速高性能AI的普及与应用。
在人工智能浪潮的中心,大型语言模型(LLM)的训练效率与稳定性始终是制约其性能突破和商业落地的核心瓶颈。如同精密的火箭,LLM的成功发射不仅依赖于强大的预训练引擎,更取决于精细的“后训练”阶段,这其中,强化学习(RL)扮演着至关重要的角色。从OpenAI开创的基于人类反馈的强化学习(RLHF),到各路豪强竞相探索的自动化优化路径,RL算法的演进轨迹正深刻影响着LLM的最终形态与能力边界。最近,围绕DeepSeek的GRPO算法与Qwen团队提出的GSPO新范式展开的论战,不仅是技术细节的争锋,更是对未来LLM训练基础设施和产业格局的深层预演。
技术原理与创新点解析
LLM的后训练,本质上是通过强化学习让模型更好地理解和执行人类指令。早期的RLHF,虽有效但耗时且成本高昂,其核心是依赖人类标注员对模型响应进行打分,再通过如近端策略优化(PPO)等算法进行策略更新。DeepSeek团队在此基础上迈出了重要一步,提出了**组相对策略优化(GRPO)**算法,旨在用RL技术自动化这一环节,显著降低了成本,实现了高性能,在DeepSeek-R1等模型上大放异彩。GRPO的核心创新在于,它认为在一组样本中进行价值估计更为有效,并在每个token级别应用了重要性采样(Importance Sampling)来校正行为策略与目标策略之间的差异。
然而,来自Qwen团队及清华大学校友创立的NetMind.AI公司的最新研究,对GRPO的稳定性提出了尖锐的质疑。他们指出,GRPO的“逐token重要性采样”方法存在根本性缺陷1。在强化学习的“离策略”训练场景中,重要性采样权重用于调整旧策略生成的数据样本,使其更能代表当前目标策略。但GRPO将这种权重应用到每个独立的token上,而非整个生成的序列。Qwen团队通过理论分析和实验验证,揭示了这种做法会导致高方差的累积,尤其在生成较长序列时,将引起**“误差积累”和“训练不稳定性”,最终可能导致模型不可逆地崩溃**。更甚者,在蓬勃发展的**专家混合模型(MoE)**架构中,token级别的路由变化会进一步加剧这种不稳定性,导致训练效率极低,甚至需要额外的“路由重放”(Routing Replay)策略才能勉强维持稳定收敛2。Qwen团队因此断言,GRPO的优化目标是“病态的(ill-posed)”。
作为回应,Qwen团队为训练其旗舰模型Qwen3系列(包括MoE模型Qwen3-235B-A22B-Instruct-2507-FP8等)提出了一种全新的强化学习算法——组序列策略优化(GSPO)。GSPO的核心创新在于将重要性采样从token级转移至序列级,其重要性比值基于整个序列的似然度计算,并引入长度归一化因子以避免少数token似然变化导致的剧烈波动。这一看似微小的改动,实则带来了显著的方差降低,从根本上提升了训练过程的稳定性。Qwen团队的实验数据显示,GSPO在CodeForces等任务中展现出更高的训练效率和更强的“可扩展性”,并且无需“路由重放”等辅助策略即可实现MoE模型的稳定收敛,极大简化了训练复杂性,充分释放了MoE架构的潜力3。
产业生态影响评估
Qwen GSPO的突破不仅仅是算法层面的精进,它将对整个LLM产业生态产生深远影响。
首先,大幅提升了高性能LLM的研发效率和成本效益。模型训练的不稳定性意味着大量的计算资源浪费和迭代周期延长。GSPO带来的稳定性,将使开发者能够更高效地利用有限的GPU算力,更快地迭代出性能更优的模型。这直接转化为更低的研发成本,对于中小型AI公司和科研机构而言,无疑降低了进入顶尖LLM竞争的门槛。
其次,加速了MoE等前沿模型架构的商业化落地。MoE模型以其出色的扩展性和成本效率,被认为是未来万亿参数级模型的关键路径。然而,其训练的复杂性和不稳定性一直是个挑战。GSPO解决了MoE训练中的核心痛点,使得MoE模型能更稳定、高效地进行后训练,这意味着未来我们可能会看到更多基于MoE架构的高性能、低成本LLM走向市场,加速企业级AI的部署。
再者,重塑了LLM算法的竞争格局。在基础模型能力日趋同质化的背景下,底层算法的创新成为区分顶级玩家的关键。DeepSeek曾凭借GRPO在开源社区赢得声誉,而Qwen GSPO的出现,则对其提出了直接挑战,并有望树立新的行业标准。这场算法“军备竞赛”将激励更多创新,推动LLM训练技术的整体进步,最终受益的是终端用户和整个AI产业。投资界也将更加关注那些在底层算法效率和稳定性上拥有核心竞争力的团队。
未来发展路径预测
GSPO的出现,预示着LLM的后训练算法正从“经验主义”走向“理论驱动”与“工程实践”的深度融合。
未来3-5年,我们可以预见:
- “序列级优化”成为主流范式: 随着GSPO的成功,更多研究将聚焦于序列级甚至更高级别的统一优化目标,探索如何最大化模型的学习效率,同时规避传统逐token优化带来的累积误差。这可能催生一系列新的强化学习算法,在数据效率和稳定性上取得更大突破。
- 更高通用性和鲁棒性的RL算法: 当前的RLHF及其变体仍高度依赖精心设计的奖励函数和大量计算资源。未来的研究将探索更少依赖人工标注、更具自适应能力的RL方法,例如通过模型自我评估、多模态反馈等方式,使RL过程更接近人类的学习方式。
- 训练基础设施的智能化演进: 伴随算法的进步,底层的AI训练框架和平台也将更加智能化。它们将能够自动诊断训练过程中的稳定性问题,并推荐或应用最优的RL策略,进一步降低大模型训练的复杂性,让更多企业能享受到前沿AI的红利。
- AGI进程的关键基石: 稳定且高效的后训练是模型实现更高级推理、规划和决策能力的基础。只有当模型能够可靠地从复杂反馈中学习,避免“崩溃”,才能真正向通用人工智能(AGI)的目标迈进。GSPO这类算法的进步,正是一步步夯实AGI的底层技术基石。
- LLM应用的广度与深度加速: 更稳定、更强大的模型将拓展LLM的应用边界,从目前的文本生成、代码辅助,深入到科学发现、具身智能、复杂决策支持等更多硬核领域。模型不再只是回答问题,而是能够持续学习和进化,成为人类解决复杂问题的重要伙伴。
此次Qwen与DeepSeek在后训练算法上的正面交锋,不仅展示了中国在顶级AI基础研究领域的强劲实力,也为全球LLM技术的发展指明了方向。GSPO提出的序列级重要性采样,有望成为大语言模型后训练强化学习的新标准,标志着LLM正从追求参数规模的“大”,迈向追求训练效率、稳定性和可靠性的“精”。这不仅是算法的胜利,更是AI技术走向普惠、赋能千行百业的关键一步,将深刻影响我们构建和使用未来智能系统的方式,推动人类文明进入一个由更稳定、更智能的AI驱动的新时代。