洞察 Insights

后训练算法的涌现：从GRPO到群智涌现，重塑大模型商业与哲学边界

大模型后训练算法正经历从OpenAI的PPO到DeepSeek的GRPO，以及字节跳动DAPO、Qwen GSPO、微软GFPO等一系列关键性迭代。这些创新从降低训练成本、提升稳定性、到实现多属性优化等维度，正深刻重塑AI的商业格局和产品形态，并引发我们对智能体本真、对齐边界以及通用人工智能未来路径的哲学思考。

阅读全文