TL;DR:
Manus联合创始人季逸超揭示了构建高效AI Agent的核心在于“上下文工程”,而非盲目追求大模型训练,通过优化KV缓存、巧妙管理工具与外部记忆、以及从错误中学习,实现了代理的成本效率与鲁棒性飞跃。这不仅是技术优化,更是对AI未来发展路径,特别是自适应自主系统构建的战略性思考。
在大型语言模型(LLM)的浪潮席卷之下,AI Agent(智能体)正成为通往通用人工智能(AGI)的关键路径之一。然而,这条道路并非坦途,如何构建既强大又经济、可靠的Agent,是当前业界面临的重大挑战。Manus联合创始人季逸超通过其团队的实践经验,为我们揭示了一个深刻而富有前瞻性的答案:上下文工程(Context Engineering)。这不仅仅是一系列技术优化,更是一种哲学思辨,定义了Agent在瞬息万变的AI生态中如何“航行”。
技术内核:上下文工程的精妙艺术
Manus的战略决策——“押注于上下文工程”——并非偶然,而是对过往痛苦经验的深刻反思。在BERT时代,每次模型应用都需要耗时数周的微调和评估。当GPT-3和Flan-T5的上下文学习能力出现时,这种传统模式一夜之间变得效率低下。Manus团队深刻领悟到,如果“模型进步是潮水上涨,我们希望Manus是船,而不是固定在海底的柱子。”1 这意味着紧跟基础模型的能力迭代,并专注于如何高效地利用这些能力,而非重复造轮子。
上下文工程的核心在于通过精细化管理和利用大模型的上下文窗口,提升Agent的性能、降低成本并增强其鲁棒性。
-
KV缓存的极致优化:季逸超强调,KV缓存命中率是生产级AI Agent最重要的单一指标,直接关联延迟和成本。Agent的输入输出令牌比(如Manus的100:1)与聊天机器人截然不同,使得前缀相同的上下文利用KV缓存的价值巨大,可实现高达10倍的成本节约(例如Claude Sonnet缓存输入令牌成本为0.30美元/百万令牌,未缓存为3美元/百万令牌)2。为了最大化命中率,Manus提出关键实践:
- 保持提示前缀不变:即使一个令牌的差异也会使缓存失效。
- 仅追加上下文:避免修改历史动作或观察结果,确保序列化过程确定性。
- 明确标记缓存断点:在不支持增量前缀缓存的框架中,手动指定断点以优化缓存管理。 这不仅是技术层面的优化,更体现了对计算经济学和实时用户体验的深度考量。
-
“屏蔽,但不要移除”的动态工具管理:随着Agent能力的增强,其动作空间(工具数量)激增,容易导致模型“变笨”。Manus的实践表明,在迭代过程中动态添加或移除工具会破坏KV缓存并导致模型困惑。为此,他们创新性地采用上下文感知状态机来管理工具可用性,通过屏蔽令牌的logit来限制或强制选择特定动作,而非物理移除工具。这种方法在不牺牲KV缓存效率的前提下,确保了Agent在复杂任务中的聚焦和稳定。这是一种_巧妙平衡模型灵活性与系统稳定性的设计哲学_。
-
将文件系统作为“终极上下文”:尽管现代LLM上下文窗口巨大,但在真实Agent场景中仍显不足且成本高昂。Manus将文件系统视为一个**“大小无限、天生持久、可由代理直接操作”的外部记忆**。Agent学会按需读写文件,将文件系统作为结构化的外部记忆。更重要的是,其压缩策略总是可恢复的,如保留URL而非网页内容,避免了信息丢失的风险。这一设计引人深思:如果未来的状态空间模型(SSM)能够掌握这种基于文件的记忆,将其长期状态外部化而非保持在上下文中,那么它们的速度和效率可能会解锁一类全新的Agent——真正意义上的“神经图灵机”继承者1。
代理行为与韧性:从“错误”中学习
Manus的洞察远不止于技术优化,更深入到Agent行为的本质。
-
通过复述操纵注意力:在复杂的长任务中,Agent容易“中间迷失”或遗忘早期目标。Manus通过让Agent主动创建并更新
todo.md
文件,将全局计划复述到上下文的末尾,从而将目标推入模型的近期注意力范围。这种“自然语言引导焦点”的方法,无需特殊架构变化,却能有效提升Agent的连贯性和任务完成度,展现了对模型认知偏差的深刻理解与巧妙规避。 -
保留错误,拥抱现实:Agent犯错是常态,而非异常。与隐藏错误、重试或重置状态的常见做法不同,Manus选择保留上下文中的错误(包括失败的动作、观察结果或堆栈跟踪)。当模型看到失败信息时,它会“暗中更新其内部信念”,从而避免重复相同的错误。季逸超认为,错误恢复是衡量真正Agent行为的最清晰指标之一,这在当前侧重理想任务成功的学术基准中仍被低估。这是一种_对AI学习机制的深刻洞察_,认识到负反馈对于系统适应性的重要性。
-
不要陷入少样本困境:少样本提示虽然是提高LLM输出的常用技术,但在Agent系统中可能适得其反。模型是优秀的模仿者,若上下文中充斥着大量相似的动作-观察对,Agent可能会陷入重复模式,导致漂移、过度泛化甚至幻觉。Manus的解决方案是引入多样性,通过在动作和观察结果中引入少量结构变化(如不同的序列化模板、措辞交替、顺序或格式中的小噪声),帮助打破模式并调整模型的注意力。这提示我们,在追求效率和一致性时,适度的“噪音”或“随机性”反而能增强Agent的适应性和韧性。
商业价值与产业生态重塑
Manus的上下文工程实践,不仅是技术层面的创新,更是对AI商业化和产业生态的深刻洞察:
- 显著的成本效益:10倍的KV缓存成本节约,加上文件系统作为无限上下文的运用,极大地降低了Agent运行的推理成本,使得AI Agent在商业应用中更具可行性和竞争力。
- 加速产品迭代与上市:从数周到数小时的改进发布周期,使得Manus能够快速响应市场变化和用户需求,保持产品竞争力。
- 增强企业级应用落地能力:通过提升Agent的稳定性、抗错误能力和长任务处理能力,为企业在复杂业务场景中部署和信赖AI Agent奠定了基础,加速了企业数字化和AI转型进程。
- 重塑大模型应用范式:Manus的案例表明,大模型的核心价值不仅仅在于其“原始能力”,更在于如何通过巧妙的工程和设计,使其能力得以高效、可靠地释放。这标志着从单一模型智能到系统级Agent智能的范式转移。Agent不再是孤立的模型调用,而是与环境、记忆、工具紧密耦合的自主系统。
未来展望与哲学深思
上下文工程的崛起,不仅优化了当前的Agent,更为我们描绘了未来智能体的演进方向:
在短期(1-2年),我们将看到更多企业级Agent系统采纳KV缓存优化、动态工具管理和外部记忆策略,以应对日益复杂的业务需求和成本压力。Agent的鲁棒性将成为衡量其商业价值的关键指标。
在中长期(3-5年),随着SSM等新型模型架构的发展,如果它们能够有效集成基于文件的长期记忆机制,Agent的运行速度和效率将达到新的高度,可能催生出真正能长时间、多步骤、自主完成复杂任务的“全栈Agent”。这将模糊传统软件与AI的界限,Agent不仅是工具使用者,更可能是主动的学习者和开发者。届时,人机协作模式将被重新定义,Agent或将成为企业员工的“数字分身”或“智能副驾”,在更多领域承担决策和执行责任。
然而,随之而来的伦理挑战也不容忽视:当Agent从错误中学习,其内部信念和决策逻辑如何被人类理解和审计?当其能够自主操纵文件系统并执行复杂任务时,如何确保其行为符合人类价值观和安全边界?这要求我们在技术进步的同时,持续深入思考AI的责任、透明度与可控性。Manus的经验是宝贵的,它不仅告诉我们如何构建更强大的Agent,更启发我们思考,在潮水上涨的AI时代,我们如何才能造出更安全、更可靠,并最终服务于人类文明福祉的“船”。
引用
-
Context Engineering for AI Agents: Lessons from Building Manus·Manus Blog·Yichao 'Peak' Ji(2024/5/16)·检索日期2024/5/16 ↩︎ ↩︎
-
Manus联创亲述Agent“成功学”:如果模型进步是潮水上涨,我们希望是船·InfoQ(2024/5/16)·检索日期2024/5/16 ↩︎