TL;DR:
尽管大模型训练成本不断下降,但用户对最前沿AI模型无止境的需求及AI Agent爆炸式增长的推理消耗,正使固定订阅费模式陷入“成本挤压”的深渊。这一悖论迫使AI公司重新思考其商业模型,或转向高转换成本的企业级方案,或进行深度垂直整合,以规避“无限订阅亏死,按量计费饿死”的囚徒困境。
在AI浪潮席卷全球的当下,一个深层而普遍的经济悖论正在悄然浮现,并颠覆着无数AI初创公司的商业基石。一方面,我们欣喜地看到大模型的训练成本正以惊人的速度下降,从数百万美元降至更低,甚至有模型宣称能以不到350万美元的成本达到顶尖性能。这曾让许多创业者相信,通过“每月20美元”的低价无限订阅模式,可以复制传统互联网的“先圈用户、后降成本、终获高利润”的经典剧本。然而,现实却残酷地揭示了这是一个“注定会失败的陷阱”1。
被颠覆的“摩尔定律”:推理成本的空头挤压
传统技术领域常引用的“摩尔定律”似乎预示着计算成本的持续下降,这让许多AI公司误以为大模型的推理成本也会同步缩水。GPT-3.5的推理成本确实比早期便宜了10倍,这无疑是技术进步的体现。然而,这种成本下降往往仅限于“过时”的模型,正如你不会为了省钱而购买一辆1995年的老思域,因为你真正需要的是2025年的最新款。
问题症结在于:用户对AI的需求是永无止境的,他们只想要“最强大脑”。每当一个新模型被发布并成为SOTA(State-Of-The-Art),99%的需求会立即转向它。用户对AI质量的追求如同认知上的“贪婪动物”,驱动着他们不断追逐前沿模型。而这些“最强模型”的价格却始终居高不下,因为它们代表了当前AI推理能力的“边界”(edge of inference)的真实成本。这意味着,即使基础模型的token成本下降,实际运行前沿AI的成本并没有如期望般直线下降。
更糟糕的是,每一代前沿模型的能力提升,并未带来成本节省,反而导致了单次任务中token消耗量的爆炸式增长。从最初的简单问答到现在的“深度研究”模式,AI模型能完成的任务长度每六个月翻一倍。一次“深度研究”可能消耗1美元,而到2027年,能够24小时不间断运行的AI Agent单次调用成本可能高达72美元/天/用户。这种模式下,用户不再是发送一个指令等待回复,而是**“按批次调度”整个AI劳动力方阵异步并发运行**,疯狂燃烧token。这种从聊天到代理的“相变”意味着消耗量增长了1000倍,使得每月20美元的订阅费连用户每天进行一次1美元的深度调用都难以支撑。这好比建造了一个更节能的发动机,却用来驱动一辆消耗50倍汽油的“怪兽卡车”,最终导致了类似“空头挤压”(short squeeze)的商业困境。
订阅陷阱:从Claude Code的失利看商业模式困境
Anthropic对Claude Code的“无上限”套餐实验是AI行业试图穿越这场风暴的“高明尝试”,但最终以惨败告终,印证了固定费率订阅的不可持续性。Anthropic的策略可谓巧妙:将价格提高十倍(每月200美元),并根据负载智能切换模型(从昂贵的Opus到经济的Sonnet或Haiku),甚至尝试将部分任务卸载到用户本地机器。然而,即便有这些高超的工程设计,其token消耗量依然“如超新星爆发般激增”,达到惊人的一百亿个token。
这种爆炸式增长并非源于简单的人类互动,而是因为用户一旦将AI视为可编排的API,便能利用其进行连续、复杂的任务循环,例如让Claude检查、重构、优化代码并重复执行,将用户变成了“API编排者”,7x24小时不间断地运行着代码转换引擎。这种行为模式的根本转变,彻底击垮了其单位经济模型。Anthropic最终取消了无限使用套餐,证明了一个残酷的现实:在这个全新的AI世界里,不存在一个行得通的固定订阅价格。原有的定价数学模型已经从根本上失效。
囚徒困境:市场份额与单位经济效益的权衡
Claude Code的失利让所有AI公司陷入了典型的“囚徒困境”:每家公司都清楚按使用量计费是唯一可持续的出路,但若独自实行,便会在价格战中输给提供无限订阅服务的竞争对手。最终,所有人都选择了“背叛”——为了争夺市场份额,不得不选择补贴重度用户,发布看似高速增长的曲线,尽管这以负毛利为代价。
这种策略的背后,是风险投资的逻辑:在“圈地运动”中,市场份额比短期利润率更为重要。只要VC们愿意继续开出支票来填补单位经济模型的窟窿,公司就能继续“流血”运营。如Cursor和Replit这样的公司,它们选择的是“今天要增长,明天要利润,最终走向破产”——但那通常是下一任CEO才需要面对的问题。尽管这在某种程度上是当下市场竞争的无奈之举,但长远来看,这种负毛利模式是不可持续的,那些仍执着于此的公司,最终可能面临“昂贵葬礼”的结局。
突围之路:面向未来的三种商业范式
面对AI推理成本的“空头挤压”,AI公司并非束手无策。目前看来,有三条清晰的突围之路:
-
从第一天起就采用按使用量计费(Pay-as-You-Go): 这在理论上最为健康,摆脱了补贴,回归了扎实的经济模型。然而,消费者普遍厌恶按量计费带来的“意外账单”,更倾向于固定费用下的“无限使用”。Netflix、Spotify、ChatGPT等成功的消费级订阅服务无一不是固定费率。一旦开始计量收费,增长往往会停滞,这使得纯粹的按量计费模式难以在消费级市场取得爆发式增长。
-
极高的转换成本 ⇒ 高利润率(High Conversion Cost Enterprise SaaS): 这是Cognition(及其产品Devin)全力押注的策略。通过与花旗银行、高盛等大型企业建立合作,部署AI代理给数万名工程师。虽然获取这类客户需要长达六个月的实施、合规审查、安全审计和地狱般的采购流程,但一旦赢得,客户流失的可能性几乎为零。这些“记录系统公司”(如CRM、ERP)的利润率能达到80-90%,正是因为客户转换成本极高,对价格也越不敏感。他们的收入虽然难以赢得,但却极其稳定且利润丰厚,因为更换供应商的痛苦远大于价格本身。这解释了Cognition在ARR相对较低的情况下,能获得远高于Cursor的估值:它锁定的是高价值、高粘性、难以被取代的企业级客户。
-
垂直整合 ⇒ 从基础设施上赚钱(Vertical Integration for Infra Revenue): 以Replit为代表,这类公司将AI编码代理与应用托管、数据库管理、部署监控、日志记录等服务捆绑在一起。它们的策略是:将AI推理作为“亏本换流量”的产品,以推动其他能与AWS竞争的基础设施服务消费。Replit的深度垂直整合展示了这种模式的潜力:代码生成天然地创造了对托管、数据库和监控的需求。在这种模式下,AI推理本身只是一种营销开支,真正盈利点在于捕获新一代开发者的整个技术栈价值。这是一种巧妙的错位竞争,让OpenAI和Anthropic去进行推理服务的价格归零竞赛,而垂直整合者则掌控了其他一切。
未来之路
创始人们普遍期待着“明年模型成本会便宜十倍”这句话,仿佛抓住了救命稻草。但正如我们所见,即使如此,届时用户对模型的期望可能会提高二十倍,目标正在不断远离。Cursor给Windsurf带来的利润表压力,以及Anthropic作为拥有全球最深度垂直整合应用层的公司,都未能让固定订阅费下的无限使用模式跑通。
当前市场已不再是1999年互联网泡沫时期,Google会为负毛利业务开出24亿美元支票的时代已一去不复返。当“以后”意味着你的AWS账单超过了你的收入时,就不再有“我们以后再想办法”的空间。AI商业模式正经历一场深层次的结构性调整,那些未能及时适应新范式的公司,将面临严峻的生存挑战。未来的竞争,将不再仅仅是模型性能的较量,更是商业模式可持续性与生态布局深度的考验。
引用
-
tokens are getting more expensive · Ethan Ding · 丁一帆 (2025/8/6) · 检索日期2024/7/24 ↩︎