TL;DR:
AI 读长文章容易“断片儿”?MIT 祭出“递归语言模型”(RLM),让 AI 学会写代码翻资料、召唤分身搞返工。实验证明,与其狂堆参数,不如让 AI 多想几遍,1000 万字长文也能稳稳拿捏!
你有没有发现,现在的 AI 就像个刚入职、记性极差但干活贼快的实习生?你丢给它一份 500 页的财报,它扫了一眼就开始洋洋洒洒地胡说八道。你指出错误,它优雅地回一句“对不起,作为 AI 模型……”,然后接着一本正经地瞎编。
这种“读着读着就忘了、文章越长越降智”的现象,在学术界有个很扎心的名字:上下文腐化(Context Rot)。1
就在 2025 年的最后一天,麻省理工学院(MIT)的华人团队丢出了一篇重磅论文《Recursive Language Models》(递归语言模型,简称 RLM),直接把“掀桌子”写在了脸上:别再迷信堆参数、加显卡了,让 AI 学会“返工”重写,效果直接起飞! 2
技术大揭秘:把资料塞进脑子,不如放进“抽屉”
以前我们怎么训练 AI?就像是在强迫一个学生背诵整本《百科全书》。虽然现在的 GPT-5 号称有几十万甚至上百万的上下文窗口,但问题在于:记住了不代表能找着。 当信息量爆炸时,模型就像个在杂物间里找钥匙的孩子,越找越乱,最后直接崩溃。
MIT 的 RLM 换了个思路:别让 AI 直接读资料,让它用代码去“翻”资料。 3
具体是怎么搞的呢?研究者给 AI 配了一个 Python 编程环境(REPL)。
- 资料变量化:把超长文档存成一个 Python 变量,放进一个外置的“抽屉”里。
- 写代码查资料:AI 不再需要硬背全文。它想看第一章?写行代码
input_text[:1000];想搜关键词?写个正则表达式。 - 召唤“分身”:这就是最灵性的“递归”部分——当问题太复杂时,AI 会调用一个“子 AI”(其实就是它自己或更小的模型),把任务拆解,让分身去处理。2
调侃式点评: 这哪是 AI 啊,这简直是学会了“外包”和“套娃”精髓的高级项目经理。
效果有多猛?GPT-5 崩了它还稳着
为了测试 RLM 到底行不行,MIT 拿出了“变态级”的测试集 OOLONG。在这个需要理解超长文档、进行多跳推理的考场上,结果令人大跌眼镜:
- 智力压制:在复杂推理任务上,仅仅让模型递归 2-4 遍,正确率就能提升 10%-25%。1
- 长跑冠军:当文档长度拉到 1000 万个 token(相当于几十本书)时,原版 GPT-5 直接“爆炸”处理不了,而 RLM 依然稳如老狗,表现几乎不掉速。2
- 真·省钱能手:在 BrowseComp-Plus 测试中,原版 GPT-5-mini 处理千万级数据的成本约 2.75 美元,而 RLM 平均只要 0.99 美元。1
为什么更便宜? 因为 RLM 变聪明了,它不再傻乎乎地全篇通读,而是像个老练的研究员,只看需要的部分。这种“按需阅读”的模式,让它在省钱的同时还把活儿干漂亮了。
行业“地震”:AI 的能力边界要重写了?
这次 MIT 的研究揭示了一个扎心的真相:大多数 AI 犯错,不是因为它笨,而是因为它“初稿”写太快了。 4
这和我们人类一模一样。哪个牛逼的程序员敢说自己第一版代码没 Bug?哪个作家的初稿不是废纸?好东西是改出来的,AI 也不例外。 RLM 的出现意味着,我们可能正处于一个范式转移的节点:
- 从“更大”到“更深”:未来的竞争可能不再是谁的模型参数多,而是谁的模型更擅长“思考”和“自我迭代”。
- 监工模式开启:以后用 AI,别指望它一遍过。多让它输出几次,多让它“想想再回答”,效果可能比升级模型还好用。1
未来展望:AI 也会“套娃”了
当然,目前的 RLM 还是个“初生儿”。MIT 表示,未来还有异步调用(让分身同时干活)、更深层次的递归(套娃无限层)等玩法。1
说到底,这篇论文给所有 AI 开发者提了个醒:在追求大脑容量的同时,别忘了给 AI 装个“反思”的回路。
最后分享一个老梗: 客户问程序员:“修这个 Bug 只要 5 分钟,凭啥收我 500 块?” 程序员说:“修它确实只要 5 分钟,但找出它在哪,我花了 3 天。”
AI 的进化方向亦是如此。给它一点返工的机会,给它一点思考的时间,它就能从一个“复读机”,变成真正的“思想家”。2
引用
-
MIT华人团队提出递归语言模型(RLM):巧妙突破大模型上下文限制 · Xinfinite · 2026/1/4 ↩︎ ↩︎ ↩︎ ↩︎
-
递归语言模型登场!MIT华人新作爆火,扩展模型上下文便宜又好用 · 新浪科技 · 2025/10/16 ↩︎
-
MIT发现让AI变聪明的秘密,竟然和人类一模一样 · 36氪 · 2026/1/4 ↩︎