潮汐涌动下的智能体航向：Manus上下文工程的深层洞察与未来启示

TL;DR：

Manus联合创始人季逸超揭示了构建高效AI Agent的核心在于“上下文工程”，而非盲目追求大模型训练，通过优化KV缓存、巧妙管理工具与外部记忆、以及从错误中学习，实现了代理的成本效率与鲁棒性飞跃。这不仅是技术优化，更是对AI未来发展路径，特别是自适应自主系统构建的战略性思考。

在大型语言模型（LLM）的浪潮席卷之下，AI Agent（智能体）正成为通往通用人工智能（AGI）的关键路径之一。然而，这条道路并非坦途，如何构建既强大又经济、可靠的Agent，是当前业界面临的重大挑战。Manus联合创始人季逸超通过其团队的实践经验，为我们揭示了一个深刻而富有前瞻性的答案：上下文工程（Context Engineering）。这不仅仅是一系列技术优化，更是一种哲学思辨，定义了Agent在瞬息万变的AI生态中如何“航行”。

技术内核：上下文工程的精妙艺术

Manus的战略决策——“押注于上下文工程”——并非偶然，而是对过往痛苦经验的深刻反思。在BERT时代，每次模型应用都需要耗时数周的微调和评估。当GPT-3和Flan-T5的上下文学习能力出现时，这种传统模式一夜之间变得效率低下。Manus团队深刻领悟到，如果“模型进步是潮水上涨，我们希望Manus是船，而不是固定在海底的柱子。”¹ 这意味着紧跟基础模型的能力迭代，并专注于如何高效地利用这些能力，而非重复造轮子。

上下文工程的核心在于通过精细化管理和利用大模型的上下文窗口，提升Agent的性能、降低成本并增强其鲁棒性。

KV缓存的极致优化：季逸超强调，KV缓存命中率是生产级AI Agent最重要的单一指标，直接关联延迟和成本。Agent的输入输出令牌比（如Manus的100:1）与聊天机器人截然不同，使得前缀相同的上下文利用KV缓存的价值巨大，可实现高达10倍的成本节约（例如Claude Sonnet缓存输入令牌成本为0.30美元/百万令牌，未缓存为3美元/百万令牌）²。为了最大化命中率，Manus提出关键实践：
- 保持提示前缀不变：即使一个令牌的差异也会使缓存失效。
- 仅追加上下文：避免修改历史动作或观察结果，确保序列化过程确定性。
- 明确标记缓存断点：在不支持增量前缀缓存的框架中，手动指定断点以优化缓存管理。这不仅是技术层面的优化，更体现了对计算经济学和实时用户体验的深度考量。
“屏蔽，但不要移除”的动态工具管理：随着Agent能力的增强，其动作空间（工具数量）激增，容易导致模型“变笨”。Manus的实践表明，在迭代过程中动态添加或移除工具会破坏KV缓存并导致模型困惑。为此，他们创新性地采用上下文感知状态机来管理工具可用性，通过屏蔽令牌的logit来限制或强制选择特定动作，而非物理移除工具。这种方法在不牺牲KV缓存效率的前提下，确保了Agent在复杂任务中的聚焦和稳定。这是一种_巧妙平衡模型灵活性与系统稳定性的设计哲学_。
将文件系统作为“终极上下文”：尽管现代LLM上下文窗口巨大，但在真实Agent场景中仍显不足且成本高昂。Manus将文件系统视为一个**“大小无限、天生持久、可由代理直接操作”的外部记忆**。Agent学会按需读写文件，将文件系统作为结构化的外部记忆。更重要的是，其压缩策略总是可恢复的，如保留URL而非网页内容，避免了信息丢失的风险。这一设计引人深思：如果未来的状态空间模型（SSM）能够掌握这种基于文件的记忆，将其长期状态外部化而非保持在上下文中，那么它们的速度和效率可能会解锁一类全新的Agent——真正意义上的“神经图灵机”继承者¹。

代理行为与韧性：从“错误”中学习

Manus的洞察远不止于技术优化，更深入到Agent行为的本质。

通过复述操纵注意力：在复杂的长任务中，Agent容易“中间迷失”或遗忘早期目标。Manus通过让Agent主动创建并更新todo.md文件，将全局计划复述到上下文的末尾，从而将目标推入模型的近期注意力范围。这种“自然语言引导焦点”的方法，无需特殊架构变化，却能有效提升Agent的连贯性和任务完成度，展现了对模型认知偏差的深刻理解与巧妙规避。
保留错误，拥抱现实：Agent犯错是常态，而非异常。与隐藏错误、重试或重置状态的常见做法不同，Manus选择保留上下文中的错误（包括失败的动作、观察结果或堆栈跟踪）。当模型看到失败信息时，它会“暗中更新其内部信念”，从而避免重复相同的错误。季逸超认为，错误恢复是衡量真正Agent行为的最清晰指标之一，这在当前侧重理想任务成功的学术基准中仍被低估。这是一种_对AI学习机制的深刻洞察_，认识到负反馈对于系统适应性的重要性。
不要陷入少样本困境：少样本提示虽然是提高LLM输出的常用技术，但在Agent系统中可能适得其反。模型是优秀的模仿者，若上下文中充斥着大量相似的动作-观察对，Agent可能会陷入重复模式，导致漂移、过度泛化甚至幻觉。Manus的解决方案是引入多样性，通过在动作和观察结果中引入少量结构变化（如不同的序列化模板、措辞交替、顺序或格式中的小噪声），帮助打破模式并调整模型的注意力。这提示我们，在追求效率和一致性时，适度的“噪音”或“随机性”反而能增强Agent的适应性和韧性。

商业价值与产业生态重塑

Manus的上下文工程实践，不仅是技术层面的创新，更是对AI商业化和产业生态的深刻洞察：

显著的成本效益：10倍的KV缓存成本节约，加上文件系统作为无限上下文的运用，极大地降低了Agent运行的推理成本，使得AI Agent在商业应用中更具可行性和竞争力。
加速产品迭代与上市：从数周到数小时的改进发布周期，使得Manus能够快速响应市场变化和用户需求，保持产品竞争力。
增强企业级应用落地能力：通过提升Agent的稳定性、抗错误能力和长任务处理能力，为企业在复杂业务场景中部署和信赖AI Agent奠定了基础，加速了企业数字化和AI转型进程。
重塑大模型应用范式：Manus的案例表明，大模型的核心价值不仅仅在于其“原始能力”，更在于如何通过巧妙的工程和设计，使其能力得以高效、可靠地释放。这标志着从单一模型智能到系统级Agent智能的范式转移。Agent不再是孤立的模型调用，而是与环境、记忆、工具紧密耦合的自主系统。

未来展望与哲学深思

上下文工程的崛起，不仅优化了当前的Agent，更为我们描绘了未来智能体的演进方向：

在短期（1-2年），我们将看到更多企业级Agent系统采纳KV缓存优化、动态工具管理和外部记忆策略，以应对日益复杂的业务需求和成本压力。Agent的鲁棒性将成为衡量其商业价值的关键指标。

在中长期（3-5年），随着SSM等新型模型架构的发展，如果它们能够有效集成基于文件的长期记忆机制，Agent的运行速度和效率将达到新的高度，可能催生出真正能长时间、多步骤、自主完成复杂任务的“全栈Agent”。这将模糊传统软件与AI的界限，Agent不仅是工具使用者，更可能是主动的学习者和开发者。届时，人机协作模式将被重新定义，Agent或将成为企业员工的“数字分身”或“智能副驾”，在更多领域承担决策和执行责任。

然而，随之而来的伦理挑战也不容忽视：当Agent从错误中学习，其内部信念和决策逻辑如何被人类理解和审计？当其能够自主操纵文件系统并执行复杂任务时，如何确保其行为符合人类价值观和安全边界？这要求我们在技术进步的同时，持续深入思考AI的责任、透明度与可控性。Manus的经验是宝贵的，它不仅告诉我们如何构建更强大的Agent，更启发我们思考，在潮水上涨的AI时代，我们如何才能造出更安全、更可靠，并最终服务于人类文明福祉的“船”。

引用

Context Engineering for AI Agents: Lessons from Building Manus·Manus Blog·Yichao 'Peak' Ji（2024/5/16）·检索日期2024/5/16 ↩︎ ↩︎
Manus联创亲述Agent“成功学”：如果模型进步是潮水上涨，我们希望是船·InfoQ（2024/5/16）·检索日期2024/5/16 ↩︎