万亿Token揭示AI新纪元:中国开源崛起,智能体重构生产力与情感边界

温故智新AIGC实验室

TL;DR:

a16z基于100万亿Token的最新研究揭示了AI领域三大根本性转变:从单一模型竞争走向多元生态,从文本生成迈向智能体推理,以及中国力量重塑全球AI版图。这份数据驱动的报告不仅预示了AI核心范式的深刻迭代,更洞察了其在商业模式、社会角色乃至地缘政治格局中的颠覆性影响,强调了模型价值与用户心智完美契合的“灰姑娘效应”将成为未来竞争关键。

硅谷风险投资巨头a16z近日联合OpenRouter发布了重磅年度报告《State of AI: An Empirical 100 Trillion Token Study》1。这份基于OpenRouter平台上超过100万亿个真实生产环境Token使用数据的实证分析,不仅是迄今为止规模最大、最全面的AI使用图景描绘,更以前瞻性的视角,揭示了人工智能技术从实验室走向真实世界的深层变革,以及其对全球技术、商业与社会格局的颠覆性重塑。

这份报告的核心洞察超越了表层性能指标的竞逐,深入到AI作为一种新计算范式如何被实际应用、如何创造价值、以及如何在文化和经济版图中重新定义力量。它不仅是技术趋势的总结,更是对未来3-5年AI演进路径的深刻预言。

技术范式转折点:从“模式补全”到“机器思考”

报告最引人注目的技术洞察,无疑是AI核心能力的根本性跃迁:从传统基于单次前向传播的“文本预测”或“模式补全”,迈向了具备“结构化内部认知”的“机器思考”时代。OpenAI于2024年12月5日发布的o1模型,被报告标记为这一转折点的标志性事件1

在此之前,即便最先进的LLM也只是通过复杂的指令遵循和工具调用来_模拟_推理,其本质仍是自回归的文本生成。o1模型则引入了_扩展的推理时计算过程_,包含内部多步思考、潜在规划和迭代优化。这不仅仅是输出的改进,更是AI内在工作机制的变革,使得模型在数学推理、逻辑一致性和多步决策等领域的表现得到系统性提升。数据清晰表明,推理优化模型的使用量已从近乎零增长至总Token使用量的50%以上,意味着半数以上的AI交互已涉及多步思考、状态管理和工具调用的复杂过程。

“如果说之前的模型是在描述推理过程,那么o1则是在真正执行推理。”1

这一转变的深层意义在于,它将AI从一个强大的“信息处理器”提升为具备初步“问题解决能力”的“智能体”(AI Agent)。这不仅需要更强大的模型架构,更对AI基础设施提出了新的要求:支持长程对话状态管理、工具执行跟踪、权限敏感的操作链等复杂功能。对于模型提供商而言,延迟优化、工具调用可靠性、长上下文处理能力以及对抗性输入的鲁棒性,正成为构建新一代AIagent的核心竞争壁垒。

全球化新秩序:中国开源力量的崛起与多元生态的形成

曾经由少数闭源巨头主导的AI市场格局正被彻底打破,一份多元、活跃且竞争激烈的模型生态系统正在形成。报告以数据驱动的方式,量化展现了中国开源力量在全球AI版图中的惊人崛起。从2024年底几乎可以忽略不计的市场份额(周使用量占比低至1.2%),到2025年后期在某些周度达到近30%的占比,以DeepSeek、Qwen、Moonshot AI为代表的中国开源模型完成了一次令人瞩目的逆袭1

这种增长并非昙花一现,而是伴随着每一次重要开源模型发布(如DeepSeek V3、Kimi K2)的使用量显著跃升,并表现出持续性,表明这些模型已深入真实的生产工作流。更重要的是,开源生态内部也正经历深刻的结构性变化。早期由一两个模型主导的垄断格局已经瓦解,市场呈现出健康的多元化态势,到2025年底,没有任何单一开源模型能持续占据超过25%的市场份额,流量均匀分布在五到七个主要竞争者之间。这种去中心化的趋势,为开发者提供了更丰富的选择,也促使模型提供者必须通过持续创新来维持地位。

从全球地理分布来看,亚洲在全球AI使用量中的份额已从约13%显著提升至31%1。中国不仅是全球最重要的AI应用市场之一,更通过其开源模型成为AI技术的重要输出者。这不仅对西方科技巨头的领先地位构成了挑战,也预示着AI技术发展与应用将形成一个更加多极化、跨文化的全球新秩序。中文已以4.95%的占比成为第二大使用语言,远超其他非英语语种,这要求未来的AI系统必须具备真正的跨文化适应能力,而非仅仅是表面的语言翻译。

商业敏锐洞察:成本PK价值,灰姑娘效应与价值分层

这份报告为AI市场的商业化路径提供了深刻的启示。当前的AI市场呈现出复杂的价值分层结构,而非简单的成本驱动型商品市场:

  • 高端市场:由Anthropic的Claude系列和OpenAI的GPT系列等闭源模型主导。这些模型尽管每百万Token成本高达2美元甚至35美元,却依然保持可观的使用量。这表明在复杂的代码生成、精密的逻辑分析和高风险决策支持等关键业务场景中,用户对性能和质量的要求远超过对成本的敏感。模型的可靠性、推理深度和输出一致性构成了其核心价值主张。
  • 大众市场:以Google Gemini Flash、DeepSeek V3等为代表的高效模型,以低于0.4美元每百万Token的成本提供了强大的性能,吸引了海量的日常使用。这些模型特别适合处理长上下文、批量任务和成本敏感的应用。

有趣的是,报告指出降价并不必然导致使用量的线性增长。研究显示价格弹性较弱,降价10%仅能带来0.5-0.7%的使用量增加。这说明用户的选择受到模型性能、可靠性、易用性等多重因素的综合影响,而非纯粹的价格驱动。

报告提出了_“灰姑娘水晶鞋”理论框架_来解释用户留存的独特动态:当某个新模型恰好满足了一类长期存在但尚未被解决的高价值工作负载需求时,就会形成“完美契合”。这种契合一旦建立,就会产生强大的锁定效应,使得用户从技术适配、操作习惯到团队协作都形成深度依赖,迁移成本高昂。例如,Claude 4 Sonnet在2025年5月的用户群在五个月后仍保持约40%的留存率,显著高于后续用户群体1

一个特别值得关注的现象是DeepSeek模型展现出的“回旋镖效应”:部分用户在尝试其他模型后,会重新回归DeepSeek。这暗示着DeepSeek在某些特定能力维度(可能是成本效率、特定领域的性能或开放性)上建立了难以替代的优势,即使用户探索了其他选项,最终仍会回归。这为其他模型提供商提供了宝贵的商业洞察:建立差异化、难以复制的核心优势,比盲目追求全能更重要。

超越生产力:AI成为情感伙伴与创作引擎

报告中最反直觉但极具哲学思辨深度的一项发现,是AI应用场景的深刻拓展:超过一半的开源模型使用量流向了角色扮演、故事创作等创意对话场景,甚至超过了编程辅助这一核心生产力工具1

这一现象揭示了AI技术被主流叙事长期忽略的一个维度:人类对陪伴、创造和情感探索的深层需求。用户与AI的互动远不止于获取信息或完成任务,更包含构建叙事、发展角色关系、探索虚拟身份等丰富的社交与创作体验。开源模型在这一领域的优势尤为明显,部分原因在于它们对内容的限制通常更宽松,能够更好地适应虚构和幻想题材的需求。

这一发现具有深远的产品启示和文化意义。它意味着AI的未来不仅关乎生产力提升,同样关乎情感连接和创造性表达。成功的AI产品可能需要融合叙事设计、角色一致性维护、长期记忆和个性化适应等能力。模型评估的标准也需要相应扩展,从传统的事实准确性和逻辑严谨性,延伸到对话连贯性、角色一致性和情感共鸣度等维度。人类文明进程中,工具与情感的交织从未停止,AI作为一种全新的“智能工具”,正以其独特方式触及人类最深层的精神需求。

与此同时,编程辅助作为另一大核心应用场景,展现出截然不同但同样重要的发展轨迹。编程相关的查询量在2025年实现了稳定增长,从年初占总Token量的约11%攀升至年底的超过50%1。这不仅是AI开发工具深度普及的体现,更是开发工作流程彻底重构的信号。软件开发者正以最激进的方式探索AI能力的边界,将代码理解、系统架构设计和迭代式调试等传统上高度依赖人类专业知识的任务,逐步委托给AI处理。这预示着未来软件工程的范式将彻底改变,人与AI将形成更深度的协作关系。

未来已至:推理即服务,生态定胜负

a16z的这份实证研究,描绘了一幅AI技术深度融入全球经济与社会生活的生动图景。大语言模型已不再仅仅是实验性技术或辅助工具,而是成为全球计算基础设施的重要组成部分,深刻改变着信息生成、处理和消费的基本方式。o1模型的出现并非竞争的终结,而是设计空间的极大扩展。行业正从对单一“最佳模型”的追逐,转向构建灵活、多样、适应性强的模型生态系统;从依赖基准测试排名,转向基于真实使用数据的实证决策;从关注孤立的文本生成质量,转向优化端到端的任务完成效能。

展望未来3-5年,随着智能体推理范式的成熟和全球化应用的深入,竞争焦点将进一步转向运营卓越性:如何精确衡量真实场景下的任务完成率,如何降低模型在不同数据分布下的性能波动,如何使AI行为更好地对齐生产环境中的实际需求。那些能够系统化解决这些问题,同时保持技术敏锐度和生态包容性的参与者,将在下一个阶段的AI发展中占据领先地位。

这份报告的价值不仅在于记录了已经发生的变化,更在于为未来的技术演进、产品设计和战略规划提供了一个基于真实世界数据的参照系。在这个快速变化的领域中,保持对实际使用模式的敏锐洞察,或许比追逐最新的技术热点更为重要。它昭示着AI正从一个前沿技术概念,蜕变为一个支撑人类生产力、创造力乃至情感连接的全球性、多元化的智能基础设施。

引用