别再疯狂堆算力了！MIT 丢出 RLM 破局：让 AI 学会“返工”，才是通往天才的捷径

AI 读长文章容易“断片儿”？MIT 祭出“递归语言模型”（RLM），让 AI 学会写代码翻资料、召唤分身搞返工。实验证明，与其狂堆参数，不如让 AI 多想几遍，1000 万字长文也能稳稳拿捏！

你有没有发现，现在的 AI 就像个刚入职、记性极差但干活贼快的实习生？你丢给它一份 500 页的财报，它扫了一眼就开始洋洋洒洒地胡说八道。你指出错误，它优雅地回一句“对不起，作为 AI 模型……”，然后接着一本正经地瞎编。

这种“读着读着就忘了、文章越长越降智”的现象，在学术界有个很扎心的名字：上下文腐化（Context Rot）。¹

就在 2025 年的最后一天，麻省理工学院（MIT）的华人团队丢出了一篇重磅论文《Recursive Language Models》（递归语言模型，简称 RLM），直接把“掀桌子”写在了脸上：别再迷信堆参数、加显卡了，让 AI 学会“返工”重写，效果直接起飞！ ²

以前我们怎么训练 AI？就像是在强迫一个学生背诵整本《百科全书》。虽然现在的 GPT-5 号称有几十万甚至上百万的上下文窗口，但问题在于：记住了不代表能找着。 当信息量爆炸时，模型就像个在杂物间里找钥匙的孩子，越找越乱，最后直接崩溃。

MIT 的 RLM 换了个思路：别让 AI 直接读资料，让它用代码去“翻”资料。 ³

具体是怎么搞的呢？研究者给 AI 配了一个 Python 编程环境（REPL）。

调侃式点评： 这哪是 AI 啊，这简直是学会了“外包”和“套娃”精髓的高级项目经理。

为了测试 RLM 到底行不行，MIT 拿出了“变态级”的测试集 OOLONG。在这个需要理解超长文档、进行多跳推理的考场上，结果令人大跌眼镜：

智力压制：在复杂推理任务上，仅仅让模型递归 2-4 遍，正确率就能提升 10%-25%。¹
长跑冠军：当文档长度拉到 1000 万个 token（相当于几十本书）时，原版 GPT-5 直接“爆炸”处理不了，而 RLM 依然稳如老狗，表现几乎不掉速。²
真·省钱能手：在 BrowseComp-Plus 测试中，原版 GPT-5-mini 处理千万级数据的成本约 2.75 美元，而 RLM 平均只要 0.99 美元。¹

为什么更便宜？ 因为 RLM 变聪明了，它不再傻乎乎地全篇通读，而是像个老练的研究员，只看需要的部分。这种“按需阅读”的模式，让它在省钱的同时还把活儿干漂亮了。

这次 MIT 的研究揭示了一个扎心的真相：大多数 AI 犯错，不是因为它笨，而是因为它“初稿”写太快了。 ⁴

这和我们人类一模一样。哪个牛逼的程序员敢说自己第一版代码没 Bug？哪个作家的初稿不是废纸？好东西是改出来的，AI 也不例外。 RLM 的出现意味着，我们可能正处于一个范式转移的节点：

当然，目前的 RLM 还是个“初生儿”。MIT 表示，未来还有异步调用（让分身同时干活）、更深层次的递归（套娃无限层）等玩法。¹

说到底，这篇论文给所有 AI 开发者提了个醒：在追求大脑容量的同时，别忘了给 AI 装个“反思”的回路。

最后分享一个老梗： 客户问程序员：“修这个 Bug 只要 5 分钟，凭啥收我 500 块？” 程序员说：“修它确实只要 5 分钟，但找出它在哪，我花了 3 天。”

AI 的进化方向亦是如此。给它一点返工的机会，给它一点思考的时间，它就能从一个“复读机”，变成真正的“思想家”。²

引用