首页
洞察
早报
日报
主题探索
关于
GSPO
洞察 Insights
后训练算法的涌现:从GRPO到群智涌现,重塑大模型商业与哲学边界
大模型后训练算法正经历从OpenAI的PPO到DeepSeek的GRPO,以及字节跳动DAPO、Qwen GSPO、微软GFPO等一系列关键性迭代。这些创新从降低训练成本、提升稳定性、到实现多属性优化等维度,正深刻重塑AI的商业格局和产品形态,并引发我们对智能体本真、对齐边界以及通用人工智能未来路径的哲学思考。
阅读全文