TL;DR:
Transformer共同发明人Llion Jones创立Sakana AI,以“连续思维机器”(CTM)挑战当前AI行业过度依赖大规模Transformer模型并陷入“局部最优解”的现状。CTM借鉴生物神经元机制,通过内部思维序列、神经元级模型和同步化表征,旨在实现更接近人类的自适应计算与深层推理,预示着AI架构范式的潜在巨变。
当整个科技界正沉浸于大语言模型(LLM)的规模化狂欢时,一声清醒的警钟从东方响起。Transformer架构的共同发明者之一Llion Jones,在离开Google后创立Sakana AI,并推出了名为“连续思维机器”(Continuous Thought Machine, CTM)的新架构。他的核心观点振聋发聩:“Transformer架构可能正把整个行业困在一个局部的瓶颈中,阻碍我们找到真正的智能推理方法。” 这不仅仅是对现有技术路线的批判,更是对AI未来发展路径的深刻反思,呼唤一场从架构本源出发的智能重塑。
技术原理与创新点解析
Llion Jones及其团队认为,当前AI领域普遍存在的“技术俘获”现象,即Transformer模型过于成功,导致所有人都专注于在其基础上进行微调和规模化,从而忽略了对下一代颠覆性架构的探索。这与RNN时代后期的“琐碎改进”如出一辙,最终被Transformer的“碾压式”性能提升所取代。他们担忧,“我们现在是不是卡在一个‘局部最优解’里出不来了,我们得想办法跳出去。” 这种“规模化效果太好也是一种不幸”的观点,直指现有大模型的“锯齿状智能”缺陷——上一秒解决博士难题,下一秒却一本正经地胡说八道。这并非因为模型“想”这么做,而是我们用蛮力逼迫它们拟合一切,本质上是一种分段线性的暴力逼近,而非真正的理解1。
Sakana AI的CTM架构正是为了突破这一瓶颈,从根本上解决深度学习模型缺乏自适应计算和对世界深层结构理解的问题。CTM的核心创新点体现在以下三个维度:
-
内部思维维度(Internal Thought Dimension):CTM引入了一个连续的“思维序列维度”,将复杂问题拆解为一系列序列化步骤。例如,在迷宫求解任务中,CTM不再是试图一次性识别完整路径,而是像人类一样,一步步规划路径。这种内部的、序列化的推理过程,显著提升了模型解决复杂问题的能力,使其能够像人类学习一样,通过“自动课程学习”逐步构建复杂能力2。
-
神经元级模型(Neuron-Level Models, NLM):传统深度学习中的神经元被简化为抽象的开关(如ReLU)。CTM重新定义了神经元,使其本身就是一个“小模型”,能够访问自身的行为历史记录并利用这些时序信息计算输出。这种设计使得系统中能够自然形成更丰富的动态结构和更复杂的内部行为,从而在生物学合理性和深度学习效率之间找到了一个平衡点。
-
同步化作为表征手段:CTM的核心表示方式不再是单一时刻神经元的激活状态,而是测量神经元之间在时间上的_同步模式_,即成对神经元如何协同变化。这种“随时间变化的激活值”的向量点积,打开了一个全新的高维表征空间,使得模型能够捕获更深层次的动态关系。例如,它能以一个完整的螺旋来表示螺旋数据,而不是用大量细碎的分段线性边界去硬拼硬凑,从而展现出对数据结构_“真正的理解”_和卓越的外推能力。这种表征方式也被发现有助于梯度传播,增强了模型的学习稳定性。
最令人惊喜的是,CTM能够自然涌现出_自适应计算时间_的能力。模型在处理简单样本时,会快速完成推理;而面对复杂样本,则会自动“思考更久”,利用更多的内部时间来求解。更甚者,在极其有限的思考步数约束下,CTM甚至能自主发展出“跳跃式反向填补路径”的高效算法,不再沿迷宫路径慢慢走,而是直接跳到大致正确的位置再倒推路径,这种能力深刻揭示了模型在不同条件下学习算法的差异。此外,CTM还展现出近乎完美的模型校准度,解决了现有神经网络普遍存在的校准不良问题。
产业生态影响评估
Llion Jones和Sakana AI的尝试,是对当前AI产业生态的一次有力挑战。
-
商业敏锐度与投资逻辑:Sakana AI近期完成了200亿日元(1.35亿美元)的B轮融资,估值达4000亿日元(26.35亿美元)3。这笔投资不仅是对Llion Jones个人愿景的认可,更是资本市场对突破当前“局部最优解”的潜在颠覆性技术的押注。Sakana AI的策略也颇具远见:作为后来者,日本在计算资源投入规模上难以与美中两国直接竞争,因此公司致力于开发不依赖庞大算力的高效AI技术,这是一种_“非对称竞争”_策略,旨在以创新架构和效率取胜,而非纯粹的规模堆叠。这预示着未来AI领域的竞争将不仅限于算力军备竞赛,更会回归到基础模型架构的创新赛道。
-
产业生态重塑:如果CTM或其他类似架构能够实现“碾压式的好”,它将改变AI技术的基石。这将意味着产业的重心可能从当前的“提示词工程”和“大规模微调”转向_更深层次的架构设计与核心算法创新_。这种转变不仅需要新的研究范式,也需要企业重新配置资源、培养人才。那些被“技术俘获”的巨头,将面临艰难的战略转型挑战。Llion Jones强调,当前的学术界和工业界环境未能给研究人员足够的自由去探索真正颠覆性的想法,而Sakana AI正是希望捍卫这种研究自由,通过这种“自下而上”的探索,孵化出下一个“Attention Is All You Need”4。
-
对“基座模型”神话的冲击:目前的“基座模型”被认为能够解决几乎所有问题,导致业界普遍认为“只要规模上去、算力管够,那是‘条条大路通罗马’”。CTM的出现,直接挑战了这一“硬件彩票”和“架构彩票”的乐观主义,揭示了“捷径学习”可能带来的隐患。它提醒我们,仅仅描摹螺旋的轨迹,和真正理解并延续这个模式,两者天差地别。未来的“基座”可能不仅仅是“通用函数近似器”,更要是能够“以人类方式”表征世界、具备内生理解力的智能体。
未来发展路径预测
CTM及其背后的理念,为未来3-5年AI的发展路径提供了多重前瞻性洞察:
-
AI推理能力质的飞跃:CTM通过其内部思维维度和同步化表征,有望实现AI推理能力的根本性突破。Sakana AI推出的_SudokuBench数据集_,旨在挑战当前模型在复杂、多变体数独上的推理极限。这个基准不仅要求强大的自然语言理解,更需要模型进行元推理,从第一原理出发,动态学习并发现解决问题的“乐高积木”,而非机械穷举。Llion Jones直言,如果模型能在此基准上取得突破,那将是AI推理能力_“真正意义上的进步”_,超越当前大模型在简单任务上的“伪推理”表现。
-
新型人机协作模式的兴起:Llion Jones预见,未来的AI将从“完全取代人类”的工具演变为_更强大的辅助研究伙伴_。他设想的“AI科学家”系统,能与人类研究者进行交互式协作:人类抛出想法,AI反馈更多点子、编写代码、运行实验,双方共同讨论结果。这与国际象棋领域“人机结合”最终被“纯AI引擎”超越的路径相似,但短期内,这种互动模式将大大加速科学发现的进程,尤其在探索那些“投机性质但面向长远”的科学方向上。
-
长时记忆与集体智能的融合:Sakana AI团队正在积极探索如何为CTM引入长期记忆机制,并将其与集体智能相结合。设想多个并行智能体共享同一个“文化记忆”结构,在同一迷宫中协作解决任务,能够让模型“记住上次在这里走错了,这次要换一条路”5。这种记忆和共享机制的结合,对于构建能持续学习、不断更新自身参数的自主智能体至关重要,也是通向真正AGI的关键一步。
-
下一代语言模型的架构变革:当前的语言模型在处理歧义性任务时仍显不足。CTM将语言视为一种“迷宫”,通过内部思维序列和探索多条路径、反复回溯的能力,有望构建出能处理多解或模糊语言任务的下一代语言模型。其在严重限制思考步数下,能自然涌现出“跳跃式反向填补路径”的策略,揭示了模型在不同思考约束下学习不同算法的能力,这对于理解和模拟人类在复杂语言环境中的推理方式具有深远意义。
-
哲学思辨的回归与智能本源的探索:CTM的探索,促使我们重新思考智能的本质——是追求“给出正确答案”的适应性,还是追求“理解给出答案的原因”的建设性学习。它挑战了机器学习中“损失函数”往往引导模型走向捷径的问题,鼓励模型通过探索开放空间中的不同轨迹,找到“最佳路径”,并真正构建出一种_“按自然关节划分世界”的理解方式_。这无疑将引发更深层的哲学层面、智能层面的追问,推动AI研究从工程优化回归到对智能本源的探索。
当然,CTM的道路并非坦途。要撼动Transformer作为行业标准的地位,CTM必须展现出“碾压式”的性能优势,不仅仅是“好一点”。这需要持续的研究投入、大量的实验验证以及克服技术栈迁移的巨大惯性。然而,Llion Jones和Sakana AI的努力,为身处“AI淘金热”中的我们,提供了一个宝贵的视角:在追求速度和规模的同时,我们更应警惕技术路径依赖的陷阱,保持对基础架构创新的渴望和对智能本质的深刻思考。 这场关于AI智能本源的探索,才刚刚开始。
引用
-
Machine Learning Street Talk: Llion Jones & Luke Darlow (Sakana AI) on Continuous Thought Machines · Machine Learning Street Talk · Llion Jones, Luke Darlow (2024/05/23) · 检索日期2024/05/23 ↩︎
-
与Transformer分道扬镳?Sakana AI提出“连续思维机”架构 · MIT Technology Review China · (2024/05/23)· 检索日期2024/05/23 ↩︎
-
Continuous Thought Machine, Explained · The Neuron · (2024/05/23)· 检索日期2024/05/23 ↩︎
-
Sakana AI 发布「连续思维机器」 · DeepSeek技术社区 · (2024/05/23)· 检索日期2024/05/23 ↩︎
-
Sakana AI发布连续思维机器CTM:模拟人脑神经元动态 · 冷月清谈 · (2024/05/23)· 检索日期2024/05/23 ↩︎