洞察 Insights

解密RL的“黑箱”：田渊栋团队三门理论重塑大模型优化范式

田渊栋团队在NeurIPS 2025发表的论文，通过“三门理论”深入解析了强化学习（RLVR）与监督微调（SFT）在大模型参数空间中截然不同的优化机制，揭示了RL倾向于规避主权重、保持模型几何结构的“优化偏置”。这项突破性研究将重塑未来RL算法与参数高效微调（PEFT）方法的设计，对提升AI效率、可解释性及推动通用人工智能发展具有战略性意义。

阅读全文