TL;DR:
在Meta十载,AI研究员田渊栋在一次部门调整后选择重新出发,以一篇关于“AI顿悟(Grokking)”的开创性论文回应行业质疑。他不仅深入揭示了大模型从记忆到泛化的底层数学机制,更身体力行地展示了人机协作在科研领域开辟的新范式。
在数字时代的洪流中,每一次科技巨头的组织变动,都可能成为某个时代见证者的转折点。对于田渊栋而言,Meta今年在AI领域规模最大的一次裁员计划,以及随之而来的离开,恰如一场意料之外的序幕,将他推向了更广阔的舞台,去阐释那些深藏于AI智能深处的“顿悟”之谜。
这位曾在Meta FAIR团队深耕十年的AI研究员,以一种低调而坚定的方式,在社交媒体X上证实了自己的新身份——一个更自由、可以做任何想做的事情的研究者。然而,他的离职并非无声,业界对于Meta AI核心研发机构调整背后的原因,以及像田渊栋这样资深研究员的去向,都投以了关注和猜测。在此消息公布后,田渊栋首次公开露面,接受了腾讯科技的独家深度访谈,选择以他最新的研究成果,为自己和团队“正名”,也为AI的未来洞开一扇新的窗。
告别Meta,为信念正名
十年前,田渊栋加入Meta时,公司规模不过万人;如今,它已是拥有近八万员工的科技巨擘。这十年间,他在AI领域投入了无数心血,尤其在Meta的AI核心研发机构——超智能实验室(MSL)的关键支柱FAIR团队中扮演着重要角色。然而,面对裁员带来的外界质疑,即是否因“没有做出公司预期成果”而离开,他选择了直面并澄清。
“我之所以近期会在 X平台(原Twitter)上发声,是因为看到有人站出来猜测和质疑,是否是因为没有做出公司预期的成果。对此我必须要为我的团队澄清一下:我们团队做了很多非常重要的工作,不能把责任推到我们身上。这一点必须说清楚。”1
这段话语中,既有对不公质疑的坚定反驳,也流露出对团队辛勤付出的深切维护。他详细阐述了团队在大模型开发中的关键贡献,包括率先发现并推动解决预训练模型设计中的chunk attention等问题,有效提升long-context RL的稳定性,以及在数据集生成、评测、RL基础设施构建与优化方面的诸多努力。
田渊栋指出,他们面临的挑战并非技术本身,而是如何说服内部的产品团队。
“对于大模型架构中存在的一些设计问题,我们也和公司侧的多个团队进行了深入沟通。一开始沟通很困难,因为他们认为这些问题不严重,甚至觉得根本不是问题。……我们只能通过大量的实验去验证,用数据和结果来证明我们的判断和洞察是正确的。最终,事实也确实证明这些问题是存在的,他们才真正接受我们的结论。”1
这段经历,勾勒出一位研究者在庞大企业内部推动创新的不易。它不仅需要深厚的专业积累和敏锐的技术洞察,更需要以数据和事实为武器,反复论证,方能跨越部门壁垒与观念差异。他的团队更像是“幕后英雄”,其价值在于承上启下,夯实底层基础,而非追求聚光灯下的显赫。
洞察力:连接“稀疏数据点”的艺术
在田渊栋看来,作为研究员,其核心价值并非盲目地“跑实验、调参数”,而是在于具备“洞察力”(insight)。
“即便在‘数据点稀疏’的情况下,也能推断出关键结论,并将其迁移应用到更复杂的问题上。……一个真正高质量的‘洞察(insight)’,可能就能节省上百、上千甚至上万张 GPU 卡的试错成本。”1
他将“洞察力”比作一种能力,使得经验丰富的研究者,仅凭数十个数据点,甚至只需观察训练曲线的一部分,就能判断研究方向的潜力与风险,从而及时止损,避免资源浪费。这种能力,区别于大模型在海量数据中进行模式匹配,它强调的是在有限信息中识别结构性问题,形成可迁移的心理模型(mental model)。他认为,当前的大语言模型普遍缺乏这种在“极少数据”条件下进行稳健外推的能力,而这正是人类在某些认知任务中仍占据优势的关键所在。
顿悟之谜:AI如何“压缩”世界
此次访谈的重心,很快便转向了田渊栋近期最重要的研究成果之一——对AI大模型“顿悟(Grokking)”机制的深入解读。这个词最初由科幻作家罗伯特·海因莱因创造,意指对事物本质的深刻理解。AI的“顿悟”,并非神秘涌现,而是一系列可计算的能量景观动力学。
他今年9月发表的独立论文《Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking》1指出,在大模型学习的群运算任务中,传统观点认为模型需要穷举M²种组合才能学会规律,数据需求随M平方增长。然而,田渊栋以严格的数学证明揭示,模型仅需O(M log M)个样本即可实现泛化——这几乎是线性增长。以M=1000为例,以往需要百万级样本,而新理论仅约7000个。
“Grokking 提供了一条观察‘从不可压缩到可压缩表示’的动力学路径。理解这条路径,有助于我们在数据与算力受限的环境中,用更少的样本与更可靠的训练信号,获得可泛化的表示与更强的模型。”1
这意味着,AI无需“看遍世界”式的暴力学习,也能像人类一样,从极少样本中顿悟深层结构,为数据受限时代的高效训练提供了理论依据。这种“顿悟”的本质,是他所说的“表征学习”(representation learning),即模型如何“表示”与“理解”世界。无论是思维链推理,还是直觉判断,其根本都取决于高质量的表征。就像数学归纳法取代穷举,真正的飞跃源于表征方式的根本性改变。
黑盒与机制:通往AI上限的艰难选择
田渊栋描绘了当前AI研究的两条主要路径:一是将系统视为黑盒,依靠“规模定律”(scaling law)堆叠参数、调整配置;二是“打开机器”,理解其内部机制,然后带着直觉去调整参数。尽管黑盒方法短期内更为主流且见效快,但他坚定地选择了后者,一条“更艰难的路”。
“短期来看,黑盒路线依然高效;但从长期来看,理解机制的那条路天花板更高。”1
他强调,当数据触顶、样本稀缺时,Scaling Law将失效。届时,唯有机理导向的改进才能突破局限。泛化的本质是让模型学会“压缩”世界:从冗余的记忆中提炼出可重复使用的结构。真正的理解,一是能在新情形下给出正确答案;二是能将复杂问题还原为简洁、通用的逻辑。当证据与归纳偏置(Inductive Bias)相互强化到临界点时,模型就会“跨峰”,进入泛化状态。这不仅是效率的提升,更是模型能力上限的根本性拓展。
人机共创:未来科研的新范式
在这次访谈中,田渊栋还透露了一个引人深思的细节:他这篇关于Grokking的论文,一些思考竟然是与GPT-5对话后产生的。
“这听起来有点像self-play(自娱自乐)。不过在对话的过程中,需要给它一些insight(洞察)和思考,它才会有不一样的输出。”1
尽管会议投稿不允许将大语言模型列为作者,他仍在文中注明了AI的大量使用,将AI视为一个“共创者”,而非仅仅是工具。AI可以协助论证、推导,甚至发现问题,但最关键的洞察和对“讲清楚”美感的判断,仍需人类来提供。他将AI比作一个“新来的博士生”,话多却抓不住核心,需要研究者的总结、提炼与引导。这不仅改变了科研范式,也让我们重新思考人类与AI如何共同进化,以及“什么是理解、什么是清晰表达”的深层科学问题。
隐式偏置与优雅:AI泛化的深层逻辑
田渊栋进一步解释,我们定义的损失函数(loss function)并非真正想优化的目标,而是一个“代理函数”(surrogate objective)。
“损失函数的核心作用,是生成合适的梯度流(gradient flow),以推动表示朝‘正确方向’更新。不同的损失函数可以诱导出相似的梯度结构,从而学到相似的表征。……目标函数本身并非‘终极目的’,而是为可学习的优化路径提供一种可计算的代理信号。”1
他将“梯度”比作等高线图上最陡的下降方向,而这些等高线最终勾勒出的,正是对世界规律的刻画。训练过程中存在的隐式偏置(implicit bias),会引导模型自然地发现更优美、更具压缩性的解释,从而学到更好的表征和更强的泛化能力。这种“优雅/压缩”的倾向,并非显式目标,而是优化过程和归纳偏置共同诱导出的学习方向。
从Meta到独立研究,从“幕后英雄”到理论先驱,田渊栋的轨迹勾勒出一位AI研究者在时代浪潮中的坚守与突破。他不仅以严谨的数学证明揭示了AI“顿悟”的真相,更以自身的实践预示了人机共创的未来。他的故事,是对“何为智能”的深度追问,也是对“人类在AI时代何去何从”的深刻启示。在数据稀疏、算力昂贵的未来世界,理解机制、挖掘洞察,或许才是通往AI更高上限的唯一道路。