Skip to content

美国 AI 产业的成本、亏损与盈利路径:补贴不是终局,算力才是资产负债表

AI Agent 生成 · 成本待定(gpt-5.5 未在定价表中) · gpt-5.5 · 3.3M input · 6.1K output (cache 3.2Mr/0w, reasoning 1.5K)

引子:AI 不是软件,也不是单纯的电力生意

过去十多年,互联网软件公司的常见剧本是:先用免费或低价产品扩张用户,等网络效应和切换成本形成后,再通过广告、订阅、企业服务或交易抽成获利。

把这个剧本套到生成式 AI 上,很容易得出一个直观判断:ChatGPT、Claude、Gemini 等产品在用低价订阅补贴用户,目标是抢占入口,最后形成平台垄断。

这个判断抓住了一部分事实,却漏掉了 AI 产业最不一样的地方。

传统 SaaS 的边际成本很低,新增一个用户主要消耗带宽、存储和客服;

生成式 AI 的每次回答都会消耗算力、显存、能耗、调度能力和模型运维。

尤其是长上下文、多模态、代码执行、Agent 工具调用和深度推理,它们不是“多发一份软件副本”,而是把 GPU 集群当成实时工厂使用。

这使美国 AI 产业呈现出一种新的财务结构:收入端看起来像互联网订阅,成本端却越来越像资本密集型基础设施。

OpenAI 宣布 Stargate 项目计划四年投资 5000 亿美元,并表示会立即部署 1000 亿美元;

CNBC 后续报道称 OpenAI 对投资者重设了支出预期,2030 年计算支出目标约 6000 亿美元,同时 2030 年收入目标约 2800 亿美元。

无论这些数字最终是否全部兑现,它们至少说明一件事:前沿 AI 的竞争不只发生在模型排行榜,也发生在供电、土地、服务器、芯片供应、融资能力和资产负债表上。[1][2]

因此,这份报告不把“AI 是否亏损”当作一句口号,而拆成五个具体问题:

  • AI 成本到底由哪些环节构成,哪些是固定成本,哪些会随使用量增长?

  • AI 降本靠什么变量,而不是笼统说“技术进步”?

  • 如果 AI 的单位任务成本高于人力,它为什么仍可能有商业意义?

  • 订阅套餐亏损到底是战略补贴、计费错配,还是只集中在重度用户?

  • 若高投入持续,AI 企业可能用哪些路径把算力成本转化为利润?

一、AI 成本不是“训练费 + 电费”,而是一条实时工业链

讨论 AI 成本时,最常见的误差是只看训练成本。

训练确实昂贵,但一旦产品被大规模使用,推理成本、集群利用率、电力接入、折旧和运维会变成长期压力。

更准确的拆法是把成本分成六层。

1. 模型研发和训练:高风险固定成本

训练成本包括 GPU/HBM/网络设备租用或折旧、训练期间电力、数据处理、研发人员、实验失败和安全评测。

它更像新药研发或芯片 tape-out:单次成功前会有大量不可复用实验。

Chinchilla 论文已经指出,在给定计算预算下,模型参数量和训练 token 数需要共同扩展,早期大模型存在“参数大但训练数据不足”的问题;

这意味着训练成本不是简单堆更大模型,而是在模型大小、数据量、训练轮次和目标质量之间重新分配预算。[3]

但训练不是唯一中心。

Sardana 等人在 Beyond Chinchilla-Optimal 中把推理需求纳入 scaling law,结论是:如果预期推理需求很大,应该训练“更小但训练更久”的模型,因为部署期的单位推理成本会反过来改变最优训练策略。

这个结果直接挑战了“训练一次、到处赚钱”的直觉:当模型要服务十亿级请求时,推理成本会进入模型设计阶段,而不是产品发布后才考虑。[4]

2. 推理:随使用量增长的核心变量成本

推理成本由每次请求消耗的 FLOPs、KV cache 显存、输出 token 长度、并发调度、延迟约束和失败重试共同决定。

一个用户问“总结这份 200 页 PDF”,和另一个用户问“今天北京天气如何”,对系统的成本压力完全不同。

长上下文请求会占用更多 KV cache;

深度推理会生成更多中间 token;

Agent 会把一次对话扩展成多轮模型调用、搜索、代码执行和工具调用。

这也是固定订阅制容易错配的原因。

订阅费按人头收,推理成本按 token、显存时间和 GPU 秒消耗。

轻度用户可能贡献高毛利,重度用户可能被补贴。

公开 API 价格能体现这种差异:OpenAI GPT-5.5 标准 API 价格为输入 5 美元/百万 token、缓存输入 0.5 美元/百万 token、输出 30 美元/百万 token;

Anthropic Opus 4.7 为输入 5 美元/百万 token、输出 25 美元/百万 token、缓存读取 0.5 美元/百万 token;

Google Gemini 3 相关价格也区分输入、输出、缓存、搜索 grounding 与批处理。[5][6][7]

价格结构本身就是成本结构的影子:输出比输入贵,说明生成过程占用更多计算;

缓存输入便宜,说明复用上下文能减少重复预填充;

Batch 模式折扣,说明延迟放宽后可提高集群利用率。

3. 数据中心和硬件折旧:资本开支先行,收入滞后

前沿 AI 不是买几张卡,而是建设“AI 工厂”:GPU 或定制加速器、HBM、服务器、交换机、光模块、液冷、机柜、电力接入、变电设施、备电系统、安防和运维。

大型云厂商的财报风险披露已经把 AI 基础设施作为核心变量。

Alphabet 2025 年 10-K 称,AI-optimized infrastructure 是其 full-stack AI 方法的基础,并强调为满足 AI training 和 inference 的计算容量需求,公司正在进入重要的第三方租赁安排,可能增加成本与运营复杂性。[8]

Microsoft 2026 财年三季度 10-Q 显示,2026 年前三个财季 additions to property and equipment 为 308.76 亿美元,高于上年同期的 167.45 亿美元;

截至 2026 年 3 月 31 日,property and equipment 净额为 2832.28 亿美元。[9]

Amazon 2025 年 10-K 披露,2025 年 cash capital expenditures 为 1283 亿美元,主要反映 technology infrastructure 投资,其中大部分用于支持 AWS 业务增长,以及 fulfillment network 容量,并预期 2026 年继续增加。[10]

这些数字不能全部归因于 AI,但方向很清楚:AI 把大科技公司的竞争重新拉回资本开支。

广告、搜索、云和办公软件产生现金流;

现金流再被转化为 GPU 集群和数据中心;

数据中心再服务模型和产品。

这不是轻资产软件循环,而是现金流—算力资产—产品能力—更多现金流的重资产循环。

4. 电力与并网:不是电费贵,而是“可用电力”稀缺

IEA 2025 年 Energy and AI 报告估计,全球数据中心 2024 年消耗约 415 TWh 电力,约占全球用电 1.5%;

其中美国占 45%,中国占 25%,欧洲占 15%。

到 2030 年,数据中心用电预计超过翻倍,达到约 945 TWh,略高于日本当前总用电。

IEA 还指出,美国将贡献最大增量;

到 2030 年,美国数据中心用电预计将超过铝、钢、水泥、化工等所有能源密集型制造业合计用电。[11]

更关键的是局部约束。

IEA 估计,如果不处理电网风险,约 20% 规划中的数据中心项目可能面临延迟;

先进经济体新建输电线路通常需要四到八年,关键电网部件如变压器和电缆的等待时间过去三年已经翻倍。

AI 数据中心还高度集中,美国近一半数据中心容量位于五个区域集群,50% 在建数据中心仍位于既有大型集群,进一步加剧局部瓶颈。[11:1]

所以 AI 的电力成本不是简单的“每度电多少钱”。

真正的约束链条是:模型需求增长 → 数据中心容量扩张 → 并网申请和变压器排队 → 可用电力交付延期 → GPU 资产无法按计划上线 → 收入确认滞后但融资成本和折旧压力先出现。

只讨论电价,会低估并网时间和区域容量对盈利路径的影响。

5. 获客、分发和合规:企业收入不等于纯毛利

面向个人用户的 ChatGPT、Claude、Gemini 订阅可以直接变现,但企业市场还需要销售团队、合规审查、数据隔离、审计、权限管理、SLA、私有化部署、客户成功和安全评估。

MIT NANDA 的 GenAI Divide 报告称,约 95% 组织的生成式 AI 项目没有获得可衡量回报,只有 5% 集成式 AI pilot 提取了数百万美元价值;

报告还提到,约 40% 组织部署了通用 LLM 工具,但这些工具主要提升个人生产率,不一定形成 P&L 影响,而定制企业系统常因流程脆弱、缺乏上下文学习、与日常操作不匹配而失败。[12]

这说明 AI 公司不能只把“用户愿意试用”当成收入质量。

企业客户愿意付高价的前提是 AI 真正进入工作流、减少人力成本、提高产出或降低风险。

否则,API 调用量上升只会增加收入和成本的同步膨胀,未必改善经营杠杆。

6. 安全、版权和监管:不确定但不能忽略的尾部成本

前沿模型需要安全训练、红队测试、内容审核、版权处理、隐私保护和监管响应。

Meta 2025 年 10-K 明确提示,AI 发展部署存在重大风险,未必能增强产品或服务,也可能受到政府与监管机构审查;

公司还披露 AI、Reality Labs 等投资会提高成本、压低利润率,Reality Labs 2025 年使整体 operating profit 减少约 191.9 亿美元。[13]

AI 的监管成本不像电费那样可直接按量计价,却可能改变产品设计和商业化路径。

例如企业客户要求数据不进入训练、区域内推理、审计日志和权限隔离,这会降低平台共享效率,增加部署复杂度。

安全事故或版权诉讼还可能把一次模型发布的收益延期或折损。

二、AI 降本靠五个变量,不是靠一句“技术进步”

AI 降本确实在发生。

Stanford AI Index 2025 估计,一个达到 GPT-3.5 水平的系统,其查询成本从 2022 年 11 月的 20 美元/百万 token 下降到 2024 年 10 月 Gemini-1.5-Flash-8B 的 0.07 美元/百万 token,约 18 个月下降超过 280 倍;

硬件层面,机器学习硬件 price-performance 每年成本下降约 30%,能效每年提高约 40%。[14]

但“成本下降”不等于“总支出下降”。

AI 的 Jevons 悖论更强:单位 token 便宜后,用户会使用更长上下文、更复杂推理、更多 Agent 步骤和更多多模态输入,最终总算力需求可能继续上升。

降本变量可以拆成五类。

1. 硬件性能/价格:单卡变强,但前沿需求也在变大

硬件 price-performance 的持续改进会降低单位算力成本。

更快 GPU、更高 HBM 带宽、更强互联、更优液冷和更高机柜功率密度,都能降低单位 token 或单位任务成本。

Stanford AI Index 对硬件性能、价格和能效趋势的统计支持这一点。[14:1]

问题在于前沿模型和产品形态也会吃掉这些收益。

多模态、视频、长上下文、深度推理和实时语音都提高了单位请求复杂度。

硬件进步像把道路拓宽,但应用会立刻把车流量提高。

对企业来说,降本只有在产品不把节省部分全部转化为更高质量、更低延迟和更复杂任务时,才会直接变成利润率改善。

2. 模型结构:MoE、小模型、蒸馏和更长训练

Mixture-of-Experts 让模型总参数很大,但每个 token 只激活部分专家,从而在能力和计算成本之间重新折中。

Switch Transformer 论文把 MoE 描述为对不同输入选择不同参数,形成稀疏激活模型,在计算成本相对恒定的情况下扩大参数规模,并报告在相同计算资源下可提高预训练速度。[15]

更小模型、更长训练、蒸馏和任务专用模型也会降低成本。

Beyond Chinchilla-Optimal 的结论说明,高推理需求场景下,把模型训练得更“密实”可能比盲目扩大参数更经济。[4:1]

这意味着未来商业 AI 可能不是一个超级模型服务所有请求,而是前沿模型处理高价值复杂任务,小模型、缓存模型、领域模型承担大多数常规请求。

3. Serving 系统:显存管理和调度决定毛利

推理成本很大一部分不是数学公式里的 FLOPs,而是系统工程。

Orca 针对自回归生成的多轮迭代特征提出 iteration-level scheduling 和 selective batching,在 GPT-3 175B 模型评测中,相同延迟水平下吞吐较 NVIDIA FasterTransformer 提高 36.9 倍。[16]

vLLM 的 PagedAttention 借鉴操作系统分页机制管理 KV cache,减少碎片和重复,论文报告相同延迟下吞吐较 FasterTransformer 和 Orca 提高 2–4 倍,长序列和复杂解码场景提升更明显。[17]

这些结果有直接商业含义:同一批 GPU,如果 serving 系统能多服务 2 倍请求,单位请求折旧和电力摊销就下降;

如果批处理和缓存能减少峰值资源,订阅套餐里的重度用户就不一定吞噬全部毛利。

4. Attention 与内存访问优化:瓶颈常在 HBM,不只在计算

FlashAttention 的核心不是近似注意力,而是让注意力算法 IO-aware,减少 GPU HBM 与片上 SRAM 之间的读写。

论文指出,Transformer 长序列自注意力的时间和内存复杂度随序列长度二次增长,FlashAttention 通过 tiling 降低 HBM 访问,并在一系列任务上实现更快训练和推理。[18]

这解释了为什么 HBM、显存带宽、KV cache 和上下文长度会成为成本中心。

AI 价格表里缓存输入更便宜,不只是商业策略,而是重复上下文的预填充和 KV cache 复用确实能节省大量计算和内存访问。

5. 产品级约束:缓存、限额、批处理和任务路由

真正能改变毛利的,不只是模型论文,而是产品把用户需求路由到合适成本层级:

  • 高频重复上下文走 prompt caching;

  • 非实时任务走 Batch API 或低优先级队列;

  • 简单请求走小模型或蒸馏模型;

  • 高价值任务才调用前沿模型和长链推理;

  • 企业客户按 SLA、延迟、数据驻留和工具调用复杂度分层计费。

OpenAI、Anthropic、Google 的公开价格都已经体现这些方向:缓存读取显著便宜,Batch 模式折扣,数据驻留或优先级推理可能加价。[5:1][6:1][7:1]

这说明 AI 降本不是单纯“模型越来越便宜”,而是系统把不同请求拆到不同成本轨道。

三、如果 AI 比人贵,它仍可能有商业意义,但边界更窄

“AI 成本高于人力,AI 还有什么意义”这个问题不能只按小时工资比较。

AI 的价值来自五类差异:速度、并发、可复制性、质量稳定性、流程重组和规模经济。

但这些价值并不自动出现。

NBER 工作论文 Generative AI at Work 研究了 5,179 名客服人员引入生成式 AI 工具后的影响,报告称平均生产率提升约 14%,低技能或新员工受益更大,AI 有助于缩小技能差距。[19]

GitHub 与研究者的实验则显示,95 名专业开发者完成同一 HTTP server 任务时,使用 GitHub Copilot 的组完成速度快 55%,任务完成率也从 70% 提高到 78%。[20]

这些研究说明,AI 的商业意义常常不在于“一个模型替代一个员工”,而在于改变瓶颈:新员工更快上手,熟练员工减少低价值输入,客服响应更快,开发者少花时间查文档和写样板代码。

若 AI 把一个环节从 30 分钟压到 5 分钟,即使模型调用本身不便宜,也可能释放高薪员工的时间,缩短交付周期,提高客户留存。

但反面证据同样重要。

MIT NANDA 报告的“95% 无可衡量回报”提醒,个人效率提升不等于组织 P&L 改善。

机制链条是:员工局部变快 → 如果流程没有重构,等待审批、系统权限、数据质量、跨部门交接仍是瓶颈 → 产出速度不会等比例提升 → 公司收入和成本结构变化有限。[12:1]

所以 AI 的经济性边界可以这样判断:

  • 高价值、低容错、复杂认知任务:AI 可以作为高级助手,但需要人工复核,价值来自速度和覆盖面;

  • 高频、可标准化、低风险任务:AI 更容易形成正毛利,因为可批处理、可缓存、可路由到小模型;

  • 流程割裂、数据不可用、责任边界不清的任务:AI 容易变成演示工具,成本进入 P&L,收益停留在叙事里;

  • 高度人际信任和线下执行任务:AI 只能辅助,不能直接替代主成本项。

AI 是否“比人便宜”,答案不是全局命题,而是取决于任务能否被拆解、评估、自动化闭环和责任归属。

四、订阅亏损不是一个事实,而是三种不同现象

公开讨论常把“AI 公司亏损”混成一句话,但至少要拆成三层:公司层面、产品层面和用户层面。

1. 公司层面:现金流压力来自增长投资和算力承诺

OpenAI 是最典型案例。

CNBC 2025 年 11 月报道称,Sam Altman 表示 OpenAI 当年 annualized revenue 将超过 200 亿美元,2030 年达到数千亿美元级别;

同篇报道也指出,公司尚未盈利,并面临基础设施支出压力。[21]

2026 年 2 月 CNBC 又报道称,OpenAI 将 2030 年计算支出目标设为约 6000 亿美元,此前曾夸示 1.4 万亿美元基础设施承诺,并把 2030 年收入目标调整到约 2800 亿美元。[2:1]

这些报道不能当作审计财报,但能体现投资者关注的核心问题:收入增长很快,但计算承诺也很快。

公司亏损不一定说明每次 API 调用都亏;

它可能是训练研发、数据中心预付款、股权薪酬、销售扩张和长期租赁共同压低利润。

2. 产品层面:固定订阅与可变成本错配

月费订阅适合降低用户决策成本,却天然掩盖使用强度。

轻度用户每月问几十次,重度用户可能跑代码、长文档、图片、语音和 Agent 工作流。

若两者价格相同,轻度用户补贴重度用户。

AI 公司已经在修正这种错配:订阅套餐设置消息限额、峰值限流、按模型分层、API 按 token 计费、企业按席位与用量混合收费。

Anthropic 的定价页面甚至把团队使用频率分成 predictable、variable、heavy,说明“重度用户”本身已成为商业设计变量。[6:2]

3. 用户层面:亏损集中在“高成本低付费”的请求

一个 20 美元月费用户不是平均亏损或平均盈利,而是请求组合不同。

短问题、小模型、缓存命中、离峰批处理可能是盈利请求;

长上下文、前沿模型、深度推理、多轮工具调用、实时低延迟可能是亏损请求。

产品真正要做的是把高成本请求变成高价功能,而不是无限制包含在基础订阅里。

这也解释了为什么未来计费会从“模型名 + token”走向“任务价值 + 服务等级”:同样 1M token,如果用于法律尽调、代码迁移、医学文献审查或客服自动化,客户愿意支付的价格不同;

如果模型调用直接替代外包工时或提升成交率,价格可以脱离 token 成本。

五、盈利路径:不是等垄断,而是把算力变成可计费的生产资料

美国 AI 企业的盈利路径不会只有“先亏损垄断再涨价”。

更可能是多条路径并行,有些能改善毛利,有些只会扩大收入但不改善利润。

路径 A:API 毛利和模型分层

API 是最透明的盈利路径:按输入、输出、缓存、批处理、数据驻留和优先级收费。

它的好处是成本和收入同向变化,坏处是价格透明、竞争激烈,模型能力差距缩小时毛利容易被压缩。

Stanford AI Index 记录的查询成本 18 个月下降 280 倍,既说明 AI 可及性提高,也意味着单纯 token 转售很难长期保持超高毛利。[14:2]

可行策略是模型分层:前沿模型维持高价和品牌,小模型承接大流量,开源/开放权重模型压低基础任务成本,缓存和批处理提高利用率。

企业客户买的不是单次 token,而是稳定性、审计、安全和集成能力。

路径 B:企业席位 + 用量叠加

企业订阅可以把 AI 变成办公软件的一部分。

Microsoft 通过 Copilot、Azure 和 Office 分发 AI;

Google 通过 Workspace、Cloud 和 Gemini 分发;

Anthropic 和 OpenAI 则通过企业版、团队版和 API 进入工作流。

这条路径的关键不只是席位费,而是能否进入客户系统:权限、知识库、工单、代码库、CRM、ERP。

如果只卖“聊天窗口”,企业很容易试用后停留在个人效率;

如果进入流程,AI 才可能影响 P&L。

MIT NANDA 报告把失败原因指向 brittle workflows 和缺乏上下文学习,正是企业版盈利的约束。[12:2]

路径 C:云绑定和基础设施租金

云厂商的优势在于把 AI 需求转化为云消费。

模型公司需要 GPU、存储、网络和部署;

企业客户需要托管、微调、数据治理和推理服务。

Microsoft、Google、Amazon 都能用 AI 拉动云收入,并把资本开支摊到更大客户群。

这条路径的盈利逻辑是:云平台先承担数据中心投资,再通过多租户、长约、保留实例、企业合约和生态服务回收成本。

风险是资本开支过快时,需求预测错误会造成闲置或低利用率;

Amazon 10-K 明确提示,若无法预测需求或优化 fulfillment network 和 data centers,可能出现过剩或不足容量、服务中断、成本上升和资产减值。[10:1]

路径 D:结果计费和行业 Agent

当 AI 能稳定完成可验收任务,计费可从 token 转为结果:处理一个理赔案件、完成一份合同初审、关闭一个客服工单、生成一段可合并代码、完成一次销售线索筛选。

结果计费的好处是客户按价值付费,供应商有动力优化底层成本;

坏处是责任和质量边界更复杂。

这条路径最可能先出现在结构化、可评估、低风险或有人工复核的行业。

它要求 AI 公司不仅提供模型,还要提供工作流、评测、日志、权限和责任转移机制。

没有这些,结果计费会变成“模型供应商承担无限责任,客户只付成功费”的逆向选择。

路径 E:广告、搜索和入口抽成

消费级 AI 若成为信息入口,广告和推荐会重新出现。

搜索、购物、旅游、本地生活、教育和内容分发都可能把 AI 变成新入口。

但这条路径会遇到两个约束:一是高质量回答可能减少网页点击,重构原有广告生态;

二是生成式回答中的广告必须不破坏信任,否则用户会转向付费无广告或开源替代。

所以广告不是不可能,而是更可能在商业查询、本地服务、购物导购和企业营销工具中出现,而不是简单把横幅广告塞进聊天窗口。

路径 F:涨价和限额

最直接的路径是涨价、限制重度使用、对高成本功能单独收费。

它短期有效,长期取决于用户是否形成依赖。

若 AI 已进入企业核心流程,涨价空间大;

若只是娱乐和轻量问答,开源模型和竞品会限制涨价能力。

这意味着“垄断后涨价”不是自动发生的。

AI 的模型能力在扩散,开源权重和小模型降低进入门槛;

但数据中心、电力、芯片供应和企业集成又制造规模门槛。

未来更可能是:基础模型层利润率被竞争压低,前沿模型、企业流程、云基础设施和高 SLA 服务保留较高利润。

交叉洞察

洞察 1:AI 的最大风险不是“单次回答亏钱”,而是资本开支与需求兑现周期错位

数据依据

  • IEA 估计全球数据中心用电将从 2024 年约 415 TWh 增至 2030 年约 945 TWh,并指出约 20% 规划数据中心项目可能因电网风险延迟。[11:2]

  • Microsoft、Alphabet、Amazon 的公开披露显示,AI 和云相关技术基础设施正在推高 property and equipment、租赁安排和 cash capital expenditures。[8:1][9:1][10:2]

  • CNBC 报道 OpenAI 2030 年计算支出目标约 6000 亿美元,同时收入目标约 2800 亿美元。[2:2]

推理链

AI 企业和云厂商需要先锁定土地、电力、GPU、租赁和数据中心建设,才能保证未来模型训练和推理容量。

收入却只有在产品发布、客户采用、工作流集成和用量增长后才能兑现。

若建设提前、采用滞后,折旧、融资成本、租赁义务和电力合同会先进入财务压力;

即便长期需求真实,短期利润也会被周期错位吞掉。

这个风险不同于传统 SaaS 的获客亏损,因为它涉及不可轻易缩减的物理资产和长周期并网。

置信度:高。

可证伪条件:如果未来 12–18 个月大型云厂商 AI 相关资本开支放缓,但 AI 收入仍保持高增且毛利率稳定上升,说明资本错位风险被过度估计。

洞察 2:固定订阅会逐步退到入口位置,高成本能力会被拆成单独计费层

数据依据

  • OpenAI、Anthropic、Google 的公开 API 价格均区分输入、输出、缓存、批处理、数据驻留或附加服务,输出显著高于输入,缓存显著低于普通输入。[5:2][6:3][7:2]

  • vLLM、Orca、FlashAttention 等系统论文显示,吞吐、KV cache、调度和内存访问会显著影响推理成本。[16:1][17:1][18:1]

推理链

订阅按人头收费,成本按请求复杂度变化。

随着深度推理、长上下文、实时语音、视频和 Agent 工具调用普及,用户间成本差异会扩大。

平台为了避免重度用户吞噬毛利,会把基础聊天保留在订阅中,把高成本能力拆成高级模型额度、任务包、API 用量、企业 SLA、批处理折扣和缓存优化。

订阅不会消失,但会更像入口费,而非无限算力通行证。

置信度:高。

可证伪条件:如果 2026–2027 年主流 AI 订阅继续维持固定月费、无限高端模型和无限深度推理,且公司毛利率改善,则该判断被削弱。

洞察 3:AI 降本会降低单位价格,但未必降低总支出;需求会向更复杂任务迁移

数据依据

  • Stanford AI Index 记录 GPT-3.5 水平系统查询成本 18 个月下降超过 280 倍,硬件成本每年下降约 30%,能效每年提升约 40%。[14:3]

  • IEA 仍预计数据中心用电到 2030 年超过翻倍,AI 是重要驱动。[11:3]

推理链

单位 token 降价会释放原本不经济的使用场景:长文档、代码库级上下文、视频理解、实时语音、自动化 Agent 和企业批处理。

用户不会只用同样短问题享受更低价格,而会把 AI 嵌入更深工作流。

结果是单位任务成本下降,但任务数量、任务复杂度和可接受延迟要求同时上升。

总算力、电力和资本开支可能继续增长,行业收入也可能增长,但利润率取决于平台能否把复杂任务合理定价。

置信度:中高。

可证伪条件:如果单位 token 价格继续快速下降,同时全球数据中心电力需求、AI 云资本开支和高端模型使用量同步放缓,则说明需求迁移弱于预期。

洞察 4:AI 的商业价值不是“替代人”,而是“把组织瓶颈从人脑移到流程”

数据依据

  • NBER 的客服研究显示生成式 AI 平均提高生产率约 14%,低技能或新员工受益更大。[19:1]

  • GitHub Copilot 实验显示使用 Copilot 的专业开发者完成任务速度快 55%。[20:1]

  • MIT NANDA 报告称 95% 组织生成式 AI 项目没有可衡量回报,失败常与流程脆弱和缺乏上下文学习有关。[12:3]

推理链

AI 能降低单个知识工作者完成局部任务的时间,但企业 P&L 受制于完整流程:数据是否可用、系统能否调用、权限是否打通、结果如何验收、责任由谁承担。

如果流程没有重构,局部生产率提升会被等待、审批、返工和人工复核吸收。

真正盈利的 AI 产品需要把模型嵌入流程,把结果变成可验收单位,而不是停留在员工自助工具。

置信度:中高。

可证伪条件:如果大量企业在未深度集成内部系统的情况下,仅靠通用聊天工具就出现可审计的利润率提升,则该判断需要修正。

洞察 5:美国 AI 产业不会简单走向单一垄断,更可能形成“基础设施寡头 + 模型竞争 + 应用长尾”

数据依据

  • Stanford AI Index 显示美国 2024 年私人 AI 投资 1091 亿美元,显著高于中国和英国;生成式 AI 全球私人投资 339 亿美元。[14:4]

  • IEA 和大型科技公司披露表明数据中心、电力和资本开支形成高门槛。[8:2][10:3][11:4]

  • 同一份 Stanford 报告也显示开放权重模型与闭源模型差距在部分 benchmark 上缩小,GPT-3.5 水平查询成本快速下降。[14:5]

推理链

基础设施层需要资本、芯片、电力、云客户和运维能力,天然利于寡头;

模型层的知识扩散、开源权重、蒸馏和算法优化会压低单纯模型租金;

应用层则由行业数据、流程集成和客户关系决定,可能出现大量垂直公司。

垄断可能发生在云和高端算力入口,而不是所有 AI 应用都由一家模型公司占据。

置信度:中。

可证伪条件:如果未来 24 个月出现一个模型平台同时控制消费入口、企业工作流、云基础设施和主要应用生态,且开放模型失去竞争力,才支持单一垄断叙事。

未来 24 个月最值得观察的信号

AI 产业的财务状态不会通过一个季度的亏损或盈利突然定型。

更可靠的判断方式,是观察几组领先信号。

1. 资本开支是否从“抢容量”转向“看利用率”

如果云厂商和模型公司继续扩张数据中心,但开始更频繁披露利用率、推理毛利、租赁期限、GPU 周转和客户预付款,说明投资者已经不满足“AI 需求巨大”的叙事,而要求看到资产回报。

若资本开支仍高速增长,收入也高速增长,但折旧和租赁费用增速更快,行业会进入一段“收入好看、自由现金流承压”的阶段。

这个阶段不必然失败。

铁路、电信、云计算都经历过类似周期:先过度建设,再通过价格战、兼并、应用扩散和利用率提升消化资产。

差别在于 AI 资产更新更快,GPU、HBM 和互联设备可能在三到五年内被新架构显著折价。

因此 AI 数据中心比传统电网或铁路更怕需求预测错误。

2. 价格表会越来越像云计算,而不是 SaaS

当前消费者看到的是月费订阅,企业开发者看到的是 token 价格。

未来价格表会继续细分:标准推理、批处理推理、低延迟推理、长上下文、缓存读取、缓存写入、数据驻留、工具调用、搜索 grounding、代码执行、图像视频生成、企业审计日志。

每多一个价格维度,都代表平台试图把成本差异显性化。

这会改变用户行为。

开发者会把可延迟任务移到 Batch,把重复上下文改成缓存,把简单任务路由到便宜模型,把高价值任务留给前沿模型。

企业采购也会从“买几个 AI 席位”变成“设计一套成本路由策略”。

谁能把这件事做成默认基础设施,谁就更接近真实盈利。

3. 开源模型会压低基础能力利润,但不必然摧毁前沿模型利润

开放权重模型让基础问答、摘要、翻译、代码补全和本地部署成本下降。

它会限制闭源模型在普通任务上无限涨价,也会迫使闭源平台把价值转移到前沿推理、多模态、工具生态、企业合规和全球基础设施。

这类似数据库市场:开源数据库没有消灭云数据库利润,而是把利润从软件授权转向托管、可靠性、安全、扩展、生态和运维。

AI 也可能如此。

模型权重本身会更便宜,但“可靠地把模型变成业务结果”的平台会继续收费。

4. 企业 AI 的关键指标不是 adoption,而是 production share

很多报告会说企业正在采用 AI,但 adoption 太宽。

员工打开聊天工具、部门试用 Copilot、团队接入 API,都可以算采用。

更硬的指标是:多少项目进入生产、多少输出被系统自动采纳、多少流程减少了人力工时、多少客户愿意签多年合同、多少 AI 决策能被审计和追责。

如果 2026 年企业 AI 仍停留在大量试点和少量生产,模型公司会出现收入增长但续约压力上升;

如果生产占比提高,尤其在客服、代码、销售运营、财务审查、法务初筛和 IT 运维中形成可量化 ROI,企业 AI 会从试验预算进入核心软件预算。

5. 电力和并网会变成模型发布节奏的一部分

模型发布过去主要受研发周期影响:数据、算法、训练稳定性、安全评测。

未来还会受物理容量影响。

新模型若需要更高推理成本,而数据中心无法同步上线,平台就必须通过限流、排队、价格上调或小模型替代来管理需求。

用户看到的是“高端模型额度变少”或“深度推理更贵”,背后可能是电力、GPU 和显存容量没有按预期交付。

这会让 AI 公司更像航空公司:座位容量有限,高峰期涨价,低峰期促销,会员等级决定排队优先级。

算力会从后台资源变成前台产品规则。

还有一个次级信号值得看:模型公司是否开始主动教育客户“怎样少用高端模型”。

如果供应商只强调更强模型,说明增长仍靠堆算力;

如果供应商开始提供成本控制台、自动路由、预算上限、缓存命中率和任务级 ROI 报告,说明商业重点已经从“卖更多 token”转向“让客户在可控预算内持续依赖”。

后者更接近可持续利润,因为它把客户的成本焦虑转化为平台黏性。

真正成熟的 AI 平台不会鼓励所有请求都冲向最贵模型,而会像云厂商优化存储冷热分层一样,帮助客户把任务放到合适成本层。

只有当客户相信平台在替自己省钱,平台才更容易获得长期预算,而不是被采购部门当成又一个可砍的高价 SaaS。

这也是 AI 从实验预算进入生产预算的关键分水岭,背后考验的是商业纪律、财务韧性和组织落地执行能力,而不只是模型能力本身。

认知校准

你的先验理解

当前美国人工智能产业普遍处于亏损状态;亏损主要受制于数据中心、芯片和电力成本高昂;各大企业推出的订阅套餐实质上是补贴式亏损运营;其目标是通过市场扩张形成垄断地位,再获取长期利润。

研究后的校准

  • 确认:数据中心、芯片、电力和融资能力确实是美国 AI 产业的核心约束。AI 与传统互联网软件不同,边际使用会消耗真实算力,资本开支和电力接入会直接影响盈利路径。

  • 确认:固定订阅制确实存在补贴和计费错配,尤其对长上下文、深度推理、实时工具调用和重度用户。基础订阅更像获客入口,不适合长期承载所有高成本能力。

  • 🔄 修正:“普遍亏损”不能简单等同于“每次调用都亏”。亏损可能来自训练研发、数据中心提前建设、销售扩张、股权激励和长期租赁,也可能只集中在某些产品或重度用户。轻度用户、缓存命中请求、低端模型和企业高价合同可能是盈利的。

  • 🔄 修正:“目标是垄断后盈利”过于单线。更可信的路径是云绑定、API 分层、企业工作流、结果计费、行业 Agent、高 SLA 服务和基础设施租金并行。某些层会寡头化,但模型和应用层会被开源、小模型和垂直集成持续压价。

  • 💡 新发现:真正决定 AI 商业化的不是“模型是否聪明”,而是“请求能否路由到合适成本层级,结果能否进入企业 P&L”。AI 若停留在聊天窗口,成本结构会比商业价值更快增长;若进入流程,价格可以从 token 转向结果。

最大的认知偏差在哪

容易把 AI 当作传统互联网补贴战,忽略它的物理资产属性。

AI 既有平台经济的一面,也有电力、芯片、数据中心和折旧的一面。

判断它是否能赚钱,不能只看用户增长或订阅价格,要看算力资产能否被高利用率、高价值任务和分层计费持续吸收。

信息来源


  1. OpenAI, “Announcing The Stargate Project”, 2025-01-21. URL: https://r.jina.ai/http://openai.com/index/announcing-the-stargate-project/ 。成熟度:官方公告。访问日期:2026-04-30。 ↩︎

  2. CNBC, “OpenAI resets spending expectations, tells investors compute target is around $600 billion by 2030”, 2026-02-20. URL: https://www.cnbc.com/2026/02/20/openai-resets-spend-expectations-targets-around-600-billion-by-2030.html 。成熟度:权威媒体报道。访问日期:2026-04-30。 ↩︎ ↩︎ ↩︎

  3. Jordan Hoffmann et al., “Training Compute-Optimal Large Language Models”, arXiv:2203.15556, 2022-03-29. URL: https://arxiv.org/abs/2203.15556 。成熟度:预印本-成熟经典论文。访问日期:2026-04-30。 ↩︎

  4. Nikhil Sardana, Jacob Portes, Sasha Doubov, Jonathan Frankle, “Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws”, arXiv:2401.00448, 2023-12-31. URL: https://arxiv.org/abs/2401.00448 。成熟度:预印本-成熟论文。访问日期:2026-04-30。 ↩︎ ↩︎

  5. OpenAI, “API Pricing”. URL: https://r.jina.ai/http://openai.com/api/pricing/ 。成熟度:官方价格页。访问日期:2026-04-30。 ↩︎ ↩︎ ↩︎

  6. Anthropic, “Plans & Pricing”. URL: https://r.jina.ai/http://www.anthropic.com/pricing 。成熟度:官方价格页。访问日期:2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎

  7. Google AI for Developers, “Gemini Developer API pricing”. URL: https://ai.google.dev/gemini-api/docs/pricing 。成熟度:官方价格页。访问日期:2026-04-30。 ↩︎ ↩︎ ↩︎

  8. Alphabet Inc., Form 10-K for fiscal year 2025, SEC filing. URL: https://r.jina.ai/http://www.sec.gov/Archives/edgar/data/1652044/000165204426000018/goog-20251231.htm 。成熟度:官方财报。访问日期:2026-04-30。 ↩︎ ↩︎ ↩︎

  9. Microsoft Corporation, Form 10-Q for quarter ended March 31, 2026, SEC filing. URL: https://r.jina.ai/http://www.sec.gov/Archives/edgar/data/789019/000119312526191507/msft-20260331.htm 。成熟度:官方财报。访问日期:2026-04-30。 ↩︎ ↩︎

  10. Amazon.com, Inc., Form 10-K for fiscal year 2025, SEC filing. URL: https://r.jina.ai/http://www.sec.gov/Archives/edgar/data/1018724/000101872426000004/amzn-20251231.htm 。成熟度:官方财报。访问日期:2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎

  11. International Energy Agency, “Energy and AI”, World Energy Outlook Special Report, 2025. URL: https://iea.blob.core.windows.net/assets/b8a83930-5c77-4da7-b795-270ab6a6c272/EnergyandAI.pdf 。成熟度:行业报告/国际机构。访问日期:2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  12. MIT Project NANDA, “The GenAI Divide: State of AI in Business 2025”. URL: https://nanda.media.mit.edu/ai_report_2025.pdf 。成熟度:研究报告。访问日期:2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎

  13. Meta Platforms, Inc., Form 10-K for fiscal year 2025, SEC filing. URL: https://r.jina.ai/http://www.sec.gov/Archives/edgar/data/1326801/000162828026003942/meta-20251231.htm 。成熟度:官方财报。访问日期:2026-04-30。 ↩︎

  14. Stanford HAI, “Artificial Intelligence Index Report 2025”. URL: https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf 。成熟度:行业/学术年度报告。访问日期:2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  15. William Fedus, Barret Zoph, Noam Shazeer, “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity”, arXiv:2101.03961, 2021-01-11. URL: https://arxiv.org/abs/2101.03961 。成熟度:预印本-成熟经典论文。访问日期:2026-04-30。 ↩︎

  16. Gyeong-In Yu et al., “Orca: A Distributed Serving System for Transformer-Based Generative Models”, OSDI 2022. URL: https://www.usenix.org/conference/osdi22/presentation/yu 。成熟度:已发表-系统会议。访问日期:2026-04-30。 ↩︎ ↩︎

  17. Woosuk Kwon et al., “Efficient Memory Management for Large Language Model Serving with PagedAttention”, arXiv:2309.06180, 2023-09-12. URL: https://arxiv.org/abs/2309.06180 。成熟度:预印本-成熟系统论文。访问日期:2026-04-30。 ↩︎ ↩︎

  18. Tri Dao et al., “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness”, arXiv:2205.14135, 2022-05-27. URL: https://arxiv.org/abs/2205.14135 。成熟度:预印本-成熟经典论文。访问日期:2026-04-30。 ↩︎ ↩︎

  19. Erik Brynjolfsson, Danielle Li, Lindsey R. Raymond, “Generative AI at Work”, NBER Working Paper 31161, 2023. DOI: 10.3386/w31161. URL: https://www.nber.org/papers/w31161 。成熟度:NBER 工作论文。访问日期:2026-04-30。 ↩︎ ↩︎

  20. GitHub, “Research: quantifying GitHub Copilot’s impact on developer productivity and happiness”, 2022. URL: https://github.blog/news-insights/research/research-quantifying-github-copilots-impact-on-developer-productivity-and-happiness/ 。成熟度:官方研究/实验报告。访问日期:2026-04-30。 ↩︎ ↩︎

  21. CNBC, “Sam Altman says OpenAI will top $20 billion in annualized revenue this year, hundreds of billions by 2030”, 2025-11-06. URL: https://www.cnbc.com/2025/11/06/sam-altman-says-openai-will-top-20-billion-annual-revenue-this-year.html 。成熟度:权威媒体报道。访问日期:2026-04-30。 ↩︎

AI Agent 生成