TL;DR:
朱哲清,作为Pokee.ai的创始人兼前Meta AI应用强化学习团队负责人,正以前瞻性的视野和务实的创业精神,在AI Agent和强化学习领域开辟新径。他不仅深入探讨了强化学习在AGI演进中的关键作用与技术挑战,更致力于在产品落地上兼顾前沿模型能力与真实用户体验,展现出一位行业先锋的独特魅力。
在硅谷,每一次技术浪潮的涌动,都伴随着少数先行者的洞察与坚守。当强化学习(Reinforcement Learning, RL)在经历AlphaGo时代的喧嚣与大模型浪潮中的沉寂后,再度强势回归,成为AI Agent和模型预训练的主流趋势时,一股对RL顶级人才的渴求也随之蔓延。在这股新的潮汐中,朱哲清——Pokee.ai的创始人、前Meta AI应用强化学习团队负责人——以其深邃的思考和独特的实践,成为了这股力量中的关键一员。他不仅是一位技术布道者,更是一位在风口浪尖上保持清醒的创业者,试图在技术的前沿与商业的现实之间,找到那条通往通用人工智能(AGI)的稳健路径。
深入Agent架构的底层哲学
朱哲清对强化学习的理解,并非停留在表层。他指出,当前RL架构存在两种主要路径:一是以大型语言模型(LLM)为核心的令牌(token)驱动型,二是以具体行为(action)为决策元素的强化学习。在他看来,这两种方式没有优劣之分,只是用例不同。然而,为何在当前的大模型浪潮中,RL的框架愈发重要?
“总体来说,为什么要用RL的framework去完成Agent训练是因为有目标在,”朱哲清解释道。1 他认为,与通过海量监督学习数据完成的LLM训练不同,AI Agent系统往往是目标驱动的,且许多专业场景下,如城市规划、供应链优化,根本没有足够的标注数据可供监督学习。在这些领域,Agent需要生成从未出现过的“反事实”(counter factual)输出,并通过一个“真实标签验证器”(ground truth validator)进行自我训练和优化。这正是强化学习最闪光之处,也是其区别于监督学习微调(SFT)的核心优势:在没有标注数据的情况下,RL能够通过目标驱动的方式进行学习和迭代。
然而,这种高效的学习方式也带来了新的挑战。强化学习预训练(RL pretraining)虽然前景广阔,但其“反事实学习”的本质意味着,它可能会生成人类难以理解、甚至看起来是“乱码”但功能正常的解决方案。朱哲清警示道:“它的reward definition(奖励定义)会非常重要,比如说human readability(人类可读性)要怎么样?但是human readability你没有办法用一个rule(规则)来解决,所以就变成unverifiable(不可验证的)。”1 这也引发了对于AI伦理与监管的深层思考,因为Agent的激励设计,将直接决定其最终的行为模式。
从数据瓶颈到超级智能的远见
朱哲清的视野,超越了单一技术范畴,直抵AI产业的宏观格局。他将Meta收购Scale AI的举动解读为一种“多模态焦虑”的体现。尽管数据的重要性在文字和代码领域有所下降,但在多模态(特别是视频和图片)以及机器人学习的标注上,数据仍是不可逾越的瓶颈。他指出,图像和视频的“好坏”标准难以统一,机器人执行任务的意图人类也未必能完全理解,这些都构成了Alignment(对齐)的技术难题。
对于OpenAI提出的AGI五个层次划分,朱哲清展现了其批判性思维和深刻洞察。他认为,OpenAI的定义更多偏向产品能力而非技术能力,其中第三层级(AI Agent)到第四层级(创新型AI)之间存在一道“巨大的鸿沟”。他以人类学习为例,强调验证泛化能力是跨越这一鸿沟的关键。“最难的两个地方是:1. 如何通过一个人类给定的简单描述,比如减法跟加法的关系是什么,就能够(得到)从a推理到b的验证是什么,如果可以做到这一点,那Agent的验证泛化性就会上到下一个台阶。2. 它能不能通过自我探索,基于现有知识的 grounding(锚定),去完成对于未来知识验证的延伸,这个也很难。”1 这种对验证能力极限的思考,揭示了迈向“超级智能”的核心挑战:AI能否创造出人类自身都无法验证的新知识?
更令人深思的是他提出的“模型可塑性”(model plasticity)问题。模型并非可以无限训练,在RL领域,一个长期存在的现象是“灾难性遗忘”(catastrophic forgetting),即模型在训练到一定程度后,会开始遗忘过往学到的知识,导致整个体系崩溃。他将其比作一个被过度注水而开始流失原有知识的海绵,直指当前模型规模化训练的潜在危机。
传承与坚守:导师Sutton的影响
朱哲清的学术血脉与思想底色,深深烙印着强化学习奠基人、图灵奖得主Richard S. Sutton教授的影响。他与Sutton的渊源颇深,不仅亲身见证了这位大师在导师家中的烧烤派对,更从Sutton身上汲取了宝贵的精神财富。
Richard S. Sutton的人生轨迹本身就是一种坚韧的写照——即便罹患癌症、经历艰难,他从未放弃对强化学习的探索,即便彼时许多人视其为“玄学”。朱哲清回忆道:“他整个人身体的状态一直都不是很好,即便很多人都说强化学习是一个玄学,那时候也没有放弃过。”1 这种对“第一性原理”的坚守,深刻影响了朱哲清。“如果你自己觉得第一性原理是对的,就不要放弃。有很多东西,中期、短期、长期所看到的结果都很不一样。”1
Sutton还多次向朱哲清提及“模型可塑性”和“奖励设计”的深层问题。后者尤其重要,在未来RL成为核心优化机制的时代,如何设计一个道德且能平衡多目标的奖励函数,将成为决定AI走向的关键。“强化学习是一个sequential decision making(序列决策)的问题,它的激励是相加的。你可以定义一个单步的激励是合理的。当它被加起来变成很多步以后,它就变得不是一个你可预测的东西,因为它的总体激励如果是跟着策略(Agent policy)或者它的决策机制所改变,它的设计就可能跟你原来的想法已经背道而驰了。”1 这些超前的思考,构成了朱哲清技术理念的基石,也塑造了他作为行业先锋的独特站位。他深知,强化学习的顶级人才圈层并不大,而他身处其中,肩负着将这些深奥理论转化为实际生产力的使命。
创业者的双重身份与行业抉择
在Pokee.ai的创业实践中,朱哲清完美诠释了“研究者”与“产品人”的双重身份。作为研究者,他深信“越是通用的环境能训练出越强的模型”;但作为CEO,他必须优先考虑用户体验。“用户的体验跟模型的能力是不成正比的,我们模型能力肯定很强,但是最后用户的体验可以是非常糟糕的。”1
他以Pokee.ai的实践为例,力求让AI Agent的使用像ChatGPT一样简单,通过将更多能力集成到Agent模型本身,而非过度依赖复杂的底层基础设施。这种开发逻辑的核心在于:尽可能避免复杂的Infra架构,而是通过大量的集成将更多的能力全都压在Agent本身的模型里面。通过训练自己的模型,Pokee.ai能够大幅降低成本、提升泛化性,并拓宽适用的工作流类型,解决通用浏览器或沙盒环境无法处理的专业场景问题。他认为:“模型能力是决定你的产品下限的,而产品的上限是由你的产品细节决定的。”1
在谈及与投资人沟通“超共识”想法的策略时,朱哲清展现了其务实的一面。他建议创业者应利用市场共识作为切入点,再在此基础上,通过独特的实现方式和“不公平的优势”来吸引投资。“你的唯一的那个吸引人的点是说你怎么能够实现它?同时你实现它的时候你有什么优势?”1
对于AI Agent领域的未来格局,他预见了一个区分化和多样化的过程。然而,技术路径的选择将是公司能否存活的核心。他一针见血地指出,许多AI公司面临“增长越快,死得越快”的困境,因为高昂的成本导致“入不敷出”的增长模式。只有技术上的突破才能使毛利润转正,从而赢得资本的青睐。他预测,未来一到两年,AI市场将迎来一场“大鱼吃小鱼”的疯狂整合,这背后是对技术实力和商业模式的终极考验。
朱哲清不仅是强化学习领域的深度思考者,更是将前沿理论转化为实际应用的设计师。他游刃于深邃的技术哲学与严酷的商业现实之间,以其清晰的洞察力、对“第一性原理”的执着,以及对用户体验的极致追求,正一步步构建着他心中的AI Agent未来。在RL潮汐的再次涌动中,他犹如一座灯塔,既指引着技术探索的方向,也锚定了通往AGI的务实路径。