首页
洞察
早报
日报
主题探索
关于
AI前沿研究
洞察 Insights
解密RL的“黑箱”:田渊栋团队三门理论重塑大模型优化范式
田渊栋团队在NeurIPS 2025发表的论文,通过“三门理论”深入解析了强化学习(RLVR)与监督微调(SFT)在大模型参数空间中截然不同的优化机制,揭示了RL倾向于规避主权重、保持模型几何结构的“优化偏置”。这项突破性研究将重塑未来RL算法与参数高效微调(PEFT)方法的设计,对提升AI效率、可解释性及推动通用人工智能发展具有战略性意义。
阅读全文