美国 AI 产业的成本、亏损与盈利路径：补贴不是终局，算力才是资产负债表

AI Agent 生成 · 成本待定（gpt-5.5 未在定价表中） · gpt-5.5 · 3.3M input · 6.1K output (cache 3.2Mr/0w, reasoning 1.5K)

引子：AI 不是软件，也不是单纯的电力生意

过去十多年，互联网软件公司的常见剧本是：先用免费或低价产品扩张用户，等网络效应和切换成本形成后，再通过广告、订阅、企业服务或交易抽成获利。

把这个剧本套到生成式 AI 上，很容易得出一个直观判断：ChatGPT、Claude、Gemini 等产品在用低价订阅补贴用户，目标是抢占入口，最后形成平台垄断。

这个判断抓住了一部分事实，却漏掉了 AI 产业最不一样的地方。

传统 SaaS 的边际成本很低，新增一个用户主要消耗带宽、存储和客服；

生成式 AI 的每次回答都会消耗算力、显存、能耗、调度能力和模型运维。

尤其是长上下文、多模态、代码执行、Agent 工具调用和深度推理，它们不是“多发一份软件副本”，而是把 GPU 集群当成实时工厂使用。

这使美国 AI 产业呈现出一种新的财务结构：收入端看起来像互联网订阅，成本端却越来越像资本密集型基础设施。

OpenAI 宣布 Stargate 项目计划四年投资 5000 亿美元，并表示会立即部署 1000 亿美元；

CNBC 后续报道称 OpenAI 对投资者重设了支出预期，2030 年计算支出目标约 6000 亿美元，同时 2030 年收入目标约 2800 亿美元。

无论这些数字最终是否全部兑现，它们至少说明一件事：前沿 AI 的竞争不只发生在模型排行榜，也发生在供电、土地、服务器、芯片供应、融资能力和资产负债表上。^[1]^[2]

因此，这份报告不把“AI 是否亏损”当作一句口号，而拆成五个具体问题：

AI 成本到底由哪些环节构成，哪些是固定成本，哪些会随使用量增长？
AI 降本靠什么变量，而不是笼统说“技术进步”？
如果 AI 的单位任务成本高于人力，它为什么仍可能有商业意义？
订阅套餐亏损到底是战略补贴、计费错配，还是只集中在重度用户？
若高投入持续，AI 企业可能用哪些路径把算力成本转化为利润？

一、AI 成本不是“训练费 + 电费”，而是一条实时工业链

讨论 AI 成本时，最常见的误差是只看训练成本。

训练确实昂贵，但一旦产品被大规模使用，推理成本、集群利用率、电力接入、折旧和运维会变成长期压力。

更准确的拆法是把成本分成六层。

1. 模型研发和训练：高风险固定成本

训练成本包括 GPU/HBM/网络设备租用或折旧、训练期间电力、数据处理、研发人员、实验失败和安全评测。

它更像新药研发或芯片 tape-out：单次成功前会有大量不可复用实验。

Chinchilla 论文已经指出，在给定计算预算下，模型参数量和训练 token 数需要共同扩展，早期大模型存在“参数大但训练数据不足”的问题；

这意味着训练成本不是简单堆更大模型，而是在模型大小、数据量、训练轮次和目标质量之间重新分配预算。^[3]

但训练不是唯一中心。

Sardana 等人在 Beyond Chinchilla-Optimal 中把推理需求纳入 scaling law，结论是：如果预期推理需求很大，应该训练“更小但训练更久”的模型，因为部署期的单位推理成本会反过来改变最优训练策略。

这个结果直接挑战了“训练一次、到处赚钱”的直觉：当模型要服务十亿级请求时，推理成本会进入模型设计阶段，而不是产品发布后才考虑。^[4]

2. 推理：随使用量增长的核心变量成本

推理成本由每次请求消耗的 FLOPs、KV cache 显存、输出 token 长度、并发调度、延迟约束和失败重试共同决定。

一个用户问“总结这份 200 页 PDF”，和另一个用户问“今天北京天气如何”，对系统的成本压力完全不同。

长上下文请求会占用更多 KV cache；

深度推理会生成更多中间 token；

Agent 会把一次对话扩展成多轮模型调用、搜索、代码执行和工具调用。

这也是固定订阅制容易错配的原因。

订阅费按人头收，推理成本按 token、显存时间和 GPU 秒消耗。

轻度用户可能贡献高毛利，重度用户可能被补贴。

公开 API 价格能体现这种差异：OpenAI GPT-5.5 标准 API 价格为输入 5 美元/百万 token、缓存输入 0.5 美元/百万 token、输出 30 美元/百万 token；

Anthropic Opus 4.7 为输入 5 美元/百万 token、输出 25 美元/百万 token、缓存读取 0.5 美元/百万 token；

Google Gemini 3 相关价格也区分输入、输出、缓存、搜索 grounding 与批处理。^[5]^[6]^[7]

价格结构本身就是成本结构的影子：输出比输入贵，说明生成过程占用更多计算；

缓存输入便宜，说明复用上下文能减少重复预填充；

Batch 模式折扣，说明延迟放宽后可提高集群利用率。

3. 数据中心和硬件折旧：资本开支先行，收入滞后

前沿 AI 不是买几张卡，而是建设“AI 工厂”：GPU 或定制加速器、HBM、服务器、交换机、光模块、液冷、机柜、电力接入、变电设施、备电系统、安防和运维。

大型云厂商的财报风险披露已经把 AI 基础设施作为核心变量。

Alphabet 2025 年 10-K 称，AI-optimized infrastructure 是其 full-stack AI 方法的基础，并强调为满足 AI training 和 inference 的计算容量需求，公司正在进入重要的第三方租赁安排，可能增加成本与运营复杂性。^[8]

Microsoft 2026 财年三季度 10-Q 显示，2026 年前三个财季 additions to property and equipment 为 308.76 亿美元，高于上年同期的 167.45 亿美元；

截至 2026 年 3 月 31 日，property and equipment 净额为 2832.28 亿美元。^[9]

Amazon 2025 年 10-K 披露，2025 年 cash capital expenditures 为 1283 亿美元，主要反映 technology infrastructure 投资，其中大部分用于支持 AWS 业务增长，以及 fulfillment network 容量，并预期 2026 年继续增加。^[10]

这些数字不能全部归因于 AI，但方向很清楚：AI 把大科技公司的竞争重新拉回资本开支。

广告、搜索、云和办公软件产生现金流；

现金流再被转化为 GPU 集群和数据中心；

数据中心再服务模型和产品。

这不是轻资产软件循环，而是现金流—算力资产—产品能力—更多现金流的重资产循环。

4. 电力与并网：不是电费贵，而是“可用电力”稀缺

IEA 2025 年 Energy and AI 报告估计，全球数据中心 2024 年消耗约 415 TWh 电力，约占全球用电 1.5%；

其中美国占 45%，中国占 25%，欧洲占 15%。

到 2030 年，数据中心用电预计超过翻倍，达到约 945 TWh，略高于日本当前总用电。

IEA 还指出，美国将贡献最大增量；

到 2030 年，美国数据中心用电预计将超过铝、钢、水泥、化工等所有能源密集型制造业合计用电。^[11]

更关键的是局部约束。

IEA 估计，如果不处理电网风险，约 20% 规划中的数据中心项目可能面临延迟；

先进经济体新建输电线路通常需要四到八年，关键电网部件如变压器和电缆的等待时间过去三年已经翻倍。

AI 数据中心还高度集中，美国近一半数据中心容量位于五个区域集群，50% 在建数据中心仍位于既有大型集群，进一步加剧局部瓶颈。^[11:1]

所以 AI 的电力成本不是简单的“每度电多少钱”。

真正的约束链条是：模型需求增长 → 数据中心容量扩张 → 并网申请和变压器排队 → 可用电力交付延期 → GPU 资产无法按计划上线 → 收入确认滞后但融资成本和折旧压力先出现。

只讨论电价，会低估并网时间和区域容量对盈利路径的影响。

5. 获客、分发和合规：企业收入不等于纯毛利

面向个人用户的 ChatGPT、Claude、Gemini 订阅可以直接变现，但企业市场还需要销售团队、合规审查、数据隔离、审计、权限管理、SLA、私有化部署、客户成功和安全评估。

MIT NANDA 的 GenAI Divide 报告称，约 95% 组织的生成式 AI 项目没有获得可衡量回报，只有 5% 集成式 AI pilot 提取了数百万美元价值；

报告还提到，约 40% 组织部署了通用 LLM 工具，但这些工具主要提升个人生产率，不一定形成 P&L 影响，而定制企业系统常因流程脆弱、缺乏上下文学习、与日常操作不匹配而失败。^[12]

这说明 AI 公司不能只把“用户愿意试用”当成收入质量。

企业客户愿意付高价的前提是 AI 真正进入工作流、减少人力成本、提高产出或降低风险。

否则，API 调用量上升只会增加收入和成本的同步膨胀，未必改善经营杠杆。

6. 安全、版权和监管：不确定但不能忽略的尾部成本

前沿模型需要安全训练、红队测试、内容审核、版权处理、隐私保护和监管响应。

Meta 2025 年 10-K 明确提示，AI 发展部署存在重大风险，未必能增强产品或服务，也可能受到政府与监管机构审查；

公司还披露 AI、Reality Labs 等投资会提高成本、压低利润率，Reality Labs 2025 年使整体 operating profit 减少约 191.9 亿美元。^[13]

AI 的监管成本不像电费那样可直接按量计价，却可能改变产品设计和商业化路径。

例如企业客户要求数据不进入训练、区域内推理、审计日志和权限隔离，这会降低平台共享效率，增加部署复杂度。

安全事故或版权诉讼还可能把一次模型发布的收益延期或折损。

二、AI 降本靠五个变量，不是靠一句“技术进步”

AI 降本确实在发生。

Stanford AI Index 2025 估计，一个达到 GPT-3.5 水平的系统，其查询成本从 2022 年 11 月的 20 美元/百万 token 下降到 2024 年 10 月 Gemini-1.5-Flash-8B 的 0.07 美元/百万 token，约 18 个月下降超过 280 倍；

硬件层面，机器学习硬件 price-performance 每年成本下降约 30%，能效每年提高约 40%。^[14]

但“成本下降”不等于“总支出下降”。

AI 的 Jevons 悖论更强：单位 token 便宜后，用户会使用更长上下文、更复杂推理、更多 Agent 步骤和更多多模态输入，最终总算力需求可能继续上升。

降本变量可以拆成五类。

1. 硬件性能/价格：单卡变强，但前沿需求也在变大

硬件 price-performance 的持续改进会降低单位算力成本。

更快 GPU、更高 HBM 带宽、更强互联、更优液冷和更高机柜功率密度，都能降低单位 token 或单位任务成本。

Stanford AI Index 对硬件性能、价格和能效趋势的统计支持这一点。^[14:1]

问题在于前沿模型和产品形态也会吃掉这些收益。

多模态、视频、长上下文、深度推理和实时语音都提高了单位请求复杂度。

硬件进步像把道路拓宽，但应用会立刻把车流量提高。

对企业来说，降本只有在产品不把节省部分全部转化为更高质量、更低延迟和更复杂任务时，才会直接变成利润率改善。

2. 模型结构：MoE、小模型、蒸馏和更长训练

Mixture-of-Experts 让模型总参数很大，但每个 token 只激活部分专家，从而在能力和计算成本之间重新折中。

Switch Transformer 论文把 MoE 描述为对不同输入选择不同参数，形成稀疏激活模型，在计算成本相对恒定的情况下扩大参数规模，并报告在相同计算资源下可提高预训练速度。^[15]

更小模型、更长训练、蒸馏和任务专用模型也会降低成本。

Beyond Chinchilla-Optimal 的结论说明，高推理需求场景下，把模型训练得更“密实”可能比盲目扩大参数更经济。^[4:1]

这意味着未来商业 AI 可能不是一个超级模型服务所有请求，而是前沿模型处理高价值复杂任务，小模型、缓存模型、领域模型承担大多数常规请求。

3. Serving 系统：显存管理和调度决定毛利

推理成本很大一部分不是数学公式里的 FLOPs，而是系统工程。

Orca 针对自回归生成的多轮迭代特征提出 iteration-level scheduling 和 selective batching，在 GPT-3 175B 模型评测中，相同延迟水平下吞吐较 NVIDIA FasterTransformer 提高 36.9 倍。^[16]

vLLM 的 PagedAttention 借鉴操作系统分页机制管理 KV cache，减少碎片和重复，论文报告相同延迟下吞吐较 FasterTransformer 和 Orca 提高 2–4 倍，长序列和复杂解码场景提升更明显。^[17]

这些结果有直接商业含义：同一批 GPU，如果 serving 系统能多服务 2 倍请求，单位请求折旧和电力摊销就下降；

如果批处理和缓存能减少峰值资源，订阅套餐里的重度用户就不一定吞噬全部毛利。

4. Attention 与内存访问优化：瓶颈常在 HBM，不只在计算

FlashAttention 的核心不是近似注意力，而是让注意力算法 IO-aware，减少 GPU HBM 与片上 SRAM 之间的读写。

论文指出，Transformer 长序列自注意力的时间和内存复杂度随序列长度二次增长，FlashAttention 通过 tiling 降低 HBM 访问，并在一系列任务上实现更快训练和推理。^[18]

这解释了为什么 HBM、显存带宽、KV cache 和上下文长度会成为成本中心。

AI 价格表里缓存输入更便宜，不只是商业策略，而是重复上下文的预填充和 KV cache 复用确实能节省大量计算和内存访问。

5. 产品级约束：缓存、限额、批处理和任务路由

真正能改变毛利的，不只是模型论文，而是产品把用户需求路由到合适成本层级：

高频重复上下文走 prompt caching；
非实时任务走 Batch API 或低优先级队列；
简单请求走小模型或蒸馏模型；
高价值任务才调用前沿模型和长链推理；
企业客户按 SLA、延迟、数据驻留和工具调用复杂度分层计费。

OpenAI、Anthropic、Google 的公开价格都已经体现这些方向：缓存读取显著便宜，Batch 模式折扣，数据驻留或优先级推理可能加价。^[5:1]^[6:1]^[7:1]

这说明 AI 降本不是单纯“模型越来越便宜”，而是系统把不同请求拆到不同成本轨道。

三、如果 AI 比人贵，它仍可能有商业意义，但边界更窄

“AI 成本高于人力，AI 还有什么意义”这个问题不能只按小时工资比较。

AI 的价值来自五类差异：速度、并发、可复制性、质量稳定性、流程重组和规模经济。

但这些价值并不自动出现。

NBER 工作论文 Generative AI at Work 研究了 5,179 名客服人员引入生成式 AI 工具后的影响，报告称平均生产率提升约 14%，低技能或新员工受益更大，AI 有助于缩小技能差距。^[19]

GitHub 与研究者的实验则显示，95 名专业开发者完成同一 HTTP server 任务时，使用 GitHub Copilot 的组完成速度快 55%，任务完成率也从 70% 提高到 78%。^[20]

这些研究说明，AI 的商业意义常常不在于“一个模型替代一个员工”，而在于改变瓶颈：新员工更快上手，熟练员工减少低价值输入，客服响应更快，开发者少花时间查文档和写样板代码。

若 AI 把一个环节从 30 分钟压到 5 分钟，即使模型调用本身不便宜，也可能释放高薪员工的时间，缩短交付周期，提高客户留存。

但反面证据同样重要。

MIT NANDA 报告的“95% 无可衡量回报”提醒，个人效率提升不等于组织 P&L 改善。

机制链条是：员工局部变快 → 如果流程没有重构，等待审批、系统权限、数据质量、跨部门交接仍是瓶颈 → 产出速度不会等比例提升 → 公司收入和成本结构变化有限。^[12:1]

所以 AI 的经济性边界可以这样判断：

高价值、低容错、复杂认知任务：AI 可以作为高级助手，但需要人工复核，价值来自速度和覆盖面；
高频、可标准化、低风险任务：AI 更容易形成正毛利，因为可批处理、可缓存、可路由到小模型；
流程割裂、数据不可用、责任边界不清的任务：AI 容易变成演示工具，成本进入 P&L，收益停留在叙事里；
高度人际信任和线下执行任务：AI 只能辅助，不能直接替代主成本项。

AI 是否“比人便宜”，答案不是全局命题，而是取决于任务能否被拆解、评估、自动化闭环和责任归属。

四、订阅亏损不是一个事实，而是三种不同现象

公开讨论常把“AI 公司亏损”混成一句话，但至少要拆成三层：公司层面、产品层面和用户层面。

1. 公司层面：现金流压力来自增长投资和算力承诺

OpenAI 是最典型案例。

CNBC 2025 年 11 月报道称，Sam Altman 表示 OpenAI 当年 annualized revenue 将超过 200 亿美元，2030 年达到数千亿美元级别；

同篇报道也指出，公司尚未盈利，并面临基础设施支出压力。^[21]

2026 年 2 月 CNBC 又报道称，OpenAI 将 2030 年计算支出目标设为约 6000 亿美元，此前曾夸示 1.4 万亿美元基础设施承诺，并把 2030 年收入目标调整到约 2800 亿美元。^[2:1]

这些报道不能当作审计财报，但能体现投资者关注的核心问题：收入增长很快，但计算承诺也很快。

公司亏损不一定说明每次 API 调用都亏；

它可能是训练研发、数据中心预付款、股权薪酬、销售扩张和长期租赁共同压低利润。

2. 产品层面：固定订阅与可变成本错配

月费订阅适合降低用户决策成本，却天然掩盖使用强度。

轻度用户每月问几十次，重度用户可能跑代码、长文档、图片、语音和 Agent 工作流。

若两者价格相同，轻度用户补贴重度用户。

AI 公司已经在修正这种错配：订阅套餐设置消息限额、峰值限流、按模型分层、API 按 token 计费、企业按席位与用量混合收费。

Anthropic 的定价页面甚至把团队使用频率分成 predictable、variable、heavy，说明“重度用户”本身已成为商业设计变量。^[6:2]

3. 用户层面：亏损集中在“高成本低付费”的请求

一个 20 美元月费用户不是平均亏损或平均盈利，而是请求组合不同。

短问题、小模型、缓存命中、离峰批处理可能是盈利请求；

长上下文、前沿模型、深度推理、多轮工具调用、实时低延迟可能是亏损请求。

产品真正要做的是把高成本请求变成高价功能，而不是无限制包含在基础订阅里。

这也解释了为什么未来计费会从“模型名 + token”走向“任务价值 + 服务等级”：同样 1M token，如果用于法律尽调、代码迁移、医学文献审查或客服自动化，客户愿意支付的价格不同；

如果模型调用直接替代外包工时或提升成交率，价格可以脱离 token 成本。

五、盈利路径：不是等垄断，而是把算力变成可计费的生产资料

美国 AI 企业的盈利路径不会只有“先亏损垄断再涨价”。

更可能是多条路径并行，有些能改善毛利，有些只会扩大收入但不改善利润。

路径 A：API 毛利和模型分层

API 是最透明的盈利路径：按输入、输出、缓存、批处理、数据驻留和优先级收费。

它的好处是成本和收入同向变化，坏处是价格透明、竞争激烈，模型能力差距缩小时毛利容易被压缩。

Stanford AI Index 记录的查询成本 18 个月下降 280 倍，既说明 AI 可及性提高，也意味着单纯 token 转售很难长期保持超高毛利。^[14:2]

可行策略是模型分层：前沿模型维持高价和品牌，小模型承接大流量，开源/开放权重模型压低基础任务成本，缓存和批处理提高利用率。

企业客户买的不是单次 token，而是稳定性、审计、安全和集成能力。

路径 B：企业席位 + 用量叠加

企业订阅可以把 AI 变成办公软件的一部分。

Microsoft 通过 Copilot、Azure 和 Office 分发 AI；

Google 通过 Workspace、Cloud 和 Gemini 分发；

Anthropic 和 OpenAI 则通过企业版、团队版和 API 进入工作流。

这条路径的关键不只是席位费，而是能否进入客户系统：权限、知识库、工单、代码库、CRM、ERP。

如果只卖“聊天窗口”，企业很容易试用后停留在个人效率；

如果进入流程，AI 才可能影响 P&L。

MIT NANDA 报告把失败原因指向 brittle workflows 和缺乏上下文学习，正是企业版盈利的约束。^[12:2]

路径 C：云绑定和基础设施租金

云厂商的优势在于把 AI 需求转化为云消费。

模型公司需要 GPU、存储、网络和部署；

企业客户需要托管、微调、数据治理和推理服务。

Microsoft、Google、Amazon 都能用 AI 拉动云收入，并把资本开支摊到更大客户群。

这条路径的盈利逻辑是：云平台先承担数据中心投资，再通过多租户、长约、保留实例、企业合约和生态服务回收成本。

风险是资本开支过快时，需求预测错误会造成闲置或低利用率；

Amazon 10-K 明确提示，若无法预测需求或优化 fulfillment network 和 data centers，可能出现过剩或不足容量、服务中断、成本上升和资产减值。^[10:1]

路径 D：结果计费和行业 Agent

当 AI 能稳定完成可验收任务，计费可从 token 转为结果：处理一个理赔案件、完成一份合同初审、关闭一个客服工单、生成一段可合并代码、完成一次销售线索筛选。

结果计费的好处是客户按价值付费，供应商有动力优化底层成本；

坏处是责任和质量边界更复杂。

这条路径最可能先出现在结构化、可评估、低风险或有人工复核的行业。

它要求 AI 公司不仅提供模型，还要提供工作流、评测、日志、权限和责任转移机制。

没有这些，结果计费会变成“模型供应商承担无限责任，客户只付成功费”的逆向选择。

路径 E：广告、搜索和入口抽成

消费级 AI 若成为信息入口，广告和推荐会重新出现。

搜索、购物、旅游、本地生活、教育和内容分发都可能把 AI 变成新入口。

但这条路径会遇到两个约束：一是高质量回答可能减少网页点击，重构原有广告生态；

二是生成式回答中的广告必须不破坏信任，否则用户会转向付费无广告或开源替代。

所以广告不是不可能，而是更可能在商业查询、本地服务、购物导购和企业营销工具中出现，而不是简单把横幅广告塞进聊天窗口。

路径 F：涨价和限额

最直接的路径是涨价、限制重度使用、对高成本功能单独收费。

它短期有效，长期取决于用户是否形成依赖。

若 AI 已进入企业核心流程，涨价空间大；

若只是娱乐和轻量问答，开源模型和竞品会限制涨价能力。

这意味着“垄断后涨价”不是自动发生的。

AI 的模型能力在扩散，开源权重和小模型降低进入门槛；

但数据中心、电力、芯片供应和企业集成又制造规模门槛。

未来更可能是：基础模型层利润率被竞争压低，前沿模型、企业流程、云基础设施和高 SLA 服务保留较高利润。

交叉洞察

洞察 1：AI 的最大风险不是“单次回答亏钱”，而是资本开支与需求兑现周期错位

数据依据

IEA 估计全球数据中心用电将从 2024 年约 415 TWh 增至 2030 年约 945 TWh，并指出约 20% 规划数据中心项目可能因电网风险延迟。^[11:2]
Microsoft、Alphabet、Amazon 的公开披露显示，AI 和云相关技术基础设施正在推高 property and equipment、租赁安排和 cash capital expenditures。^[8:1]^[9:1]^[10:2]
CNBC 报道 OpenAI 2030 年计算支出目标约 6000 亿美元，同时收入目标约 2800 亿美元。^[2:2]

推理链

AI 企业和云厂商需要先锁定土地、电力、GPU、租赁和数据中心建设，才能保证未来模型训练和推理容量。

收入却只有在产品发布、客户采用、工作流集成和用量增长后才能兑现。

若建设提前、采用滞后，折旧、融资成本、租赁义务和电力合同会先进入财务压力；

即便长期需求真实，短期利润也会被周期错位吞掉。

这个风险不同于传统 SaaS 的获客亏损，因为它涉及不可轻易缩减的物理资产和长周期并网。

置信度：高。

可证伪条件：如果未来 12–18 个月大型云厂商 AI 相关资本开支放缓，但 AI 收入仍保持高增且毛利率稳定上升，说明资本错位风险被过度估计。

洞察 2：固定订阅会逐步退到入口位置，高成本能力会被拆成单独计费层

数据依据

OpenAI、Anthropic、Google 的公开 API 价格均区分输入、输出、缓存、批处理、数据驻留或附加服务，输出显著高于输入，缓存显著低于普通输入。^[5:2]^[6:3]^[7:2]
vLLM、Orca、FlashAttention 等系统论文显示，吞吐、KV cache、调度和内存访问会显著影响推理成本。^[16:1]^[17:1]^[18:1]

推理链

订阅按人头收费，成本按请求复杂度变化。

随着深度推理、长上下文、实时语音、视频和 Agent 工具调用普及，用户间成本差异会扩大。

平台为了避免重度用户吞噬毛利，会把基础聊天保留在订阅中，把高成本能力拆成高级模型额度、任务包、API 用量、企业 SLA、批处理折扣和缓存优化。

订阅不会消失，但会更像入口费，而非无限算力通行证。

置信度：高。

可证伪条件：如果 2026–2027 年主流 AI 订阅继续维持固定月费、无限高端模型和无限深度推理，且公司毛利率改善，则该判断被削弱。

洞察 3：AI 降本会降低单位价格，但未必降低总支出；需求会向更复杂任务迁移

数据依据

Stanford AI Index 记录 GPT-3.5 水平系统查询成本 18 个月下降超过 280 倍，硬件成本每年下降约 30%，能效每年提升约 40%。^[14:3]
IEA 仍预计数据中心用电到 2030 年超过翻倍，AI 是重要驱动。^[11:3]

推理链

单位 token 降价会释放原本不经济的使用场景：长文档、代码库级上下文、视频理解、实时语音、自动化 Agent 和企业批处理。

用户不会只用同样短问题享受更低价格，而会把 AI 嵌入更深工作流。

结果是单位任务成本下降，但任务数量、任务复杂度和可接受延迟要求同时上升。

总算力、电力和资本开支可能继续增长，行业收入也可能增长，但利润率取决于平台能否把复杂任务合理定价。

置信度：中高。

可证伪条件：如果单位 token 价格继续快速下降，同时全球数据中心电力需求、AI 云资本开支和高端模型使用量同步放缓，则说明需求迁移弱于预期。

洞察 4：AI 的商业价值不是“替代人”，而是“把组织瓶颈从人脑移到流程”

数据依据

NBER 的客服研究显示生成式 AI 平均提高生产率约 14%，低技能或新员工受益更大。^[19:1]
GitHub Copilot 实验显示使用 Copilot 的专业开发者完成任务速度快 55%。^[20:1]
MIT NANDA 报告称 95% 组织生成式 AI 项目没有可衡量回报，失败常与流程脆弱和缺乏上下文学习有关。^[12:3]

推理链

AI 能降低单个知识工作者完成局部任务的时间，但企业 P&L 受制于完整流程：数据是否可用、系统能否调用、权限是否打通、结果如何验收、责任由谁承担。

如果流程没有重构，局部生产率提升会被等待、审批、返工和人工复核吸收。

真正盈利的 AI 产品需要把模型嵌入流程，把结果变成可验收单位，而不是停留在员工自助工具。

置信度：中高。

可证伪条件：如果大量企业在未深度集成内部系统的情况下，仅靠通用聊天工具就出现可审计的利润率提升，则该判断需要修正。

洞察 5：美国 AI 产业不会简单走向单一垄断，更可能形成“基础设施寡头 + 模型竞争 + 应用长尾”

数据依据

Stanford AI Index 显示美国 2024 年私人 AI 投资 1091 亿美元，显著高于中国和英国；生成式 AI 全球私人投资 339 亿美元。^[14:4]
IEA 和大型科技公司披露表明数据中心、电力和资本开支形成高门槛。^[8:2]^[10:3]^[11:4]
同一份 Stanford 报告也显示开放权重模型与闭源模型差距在部分 benchmark 上缩小，GPT-3.5 水平查询成本快速下降。^[14:5]

推理链

基础设施层需要资本、芯片、电力、云客户和运维能力，天然利于寡头；

模型层的知识扩散、开源权重、蒸馏和算法优化会压低单纯模型租金；

应用层则由行业数据、流程集成和客户关系决定，可能出现大量垂直公司。

垄断可能发生在云和高端算力入口，而不是所有 AI 应用都由一家模型公司占据。

置信度：中。

可证伪条件：如果未来 24 个月出现一个模型平台同时控制消费入口、企业工作流、云基础设施和主要应用生态，且开放模型失去竞争力，才支持单一垄断叙事。

未来 24 个月最值得观察的信号

AI 产业的财务状态不会通过一个季度的亏损或盈利突然定型。

更可靠的判断方式，是观察几组领先信号。

1. 资本开支是否从“抢容量”转向“看利用率”

如果云厂商和模型公司继续扩张数据中心，但开始更频繁披露利用率、推理毛利、租赁期限、GPU 周转和客户预付款，说明投资者已经不满足“AI 需求巨大”的叙事，而要求看到资产回报。

若资本开支仍高速增长，收入也高速增长，但折旧和租赁费用增速更快，行业会进入一段“收入好看、自由现金流承压”的阶段。

这个阶段不必然失败。

铁路、电信、云计算都经历过类似周期：先过度建设，再通过价格战、兼并、应用扩散和利用率提升消化资产。

差别在于 AI 资产更新更快，GPU、HBM 和互联设备可能在三到五年内被新架构显著折价。

因此 AI 数据中心比传统电网或铁路更怕需求预测错误。

2. 价格表会越来越像云计算，而不是 SaaS

当前消费者看到的是月费订阅，企业开发者看到的是 token 价格。

未来价格表会继续细分：标准推理、批处理推理、低延迟推理、长上下文、缓存读取、缓存写入、数据驻留、工具调用、搜索 grounding、代码执行、图像视频生成、企业审计日志。

每多一个价格维度，都代表平台试图把成本差异显性化。

这会改变用户行为。

开发者会把可延迟任务移到 Batch，把重复上下文改成缓存，把简单任务路由到便宜模型，把高价值任务留给前沿模型。

企业采购也会从“买几个 AI 席位”变成“设计一套成本路由策略”。

谁能把这件事做成默认基础设施，谁就更接近真实盈利。

3. 开源模型会压低基础能力利润，但不必然摧毁前沿模型利润

开放权重模型让基础问答、摘要、翻译、代码补全和本地部署成本下降。

它会限制闭源模型在普通任务上无限涨价，也会迫使闭源平台把价值转移到前沿推理、多模态、工具生态、企业合规和全球基础设施。

这类似数据库市场：开源数据库没有消灭云数据库利润，而是把利润从软件授权转向托管、可靠性、安全、扩展、生态和运维。

AI 也可能如此。

模型权重本身会更便宜，但“可靠地把模型变成业务结果”的平台会继续收费。

很多报告会说企业正在采用 AI，但 adoption 太宽。

员工打开聊天工具、部门试用 Copilot、团队接入 API，都可以算采用。

更硬的指标是：多少项目进入生产、多少输出被系统自动采纳、多少流程减少了人力工时、多少客户愿意签多年合同、多少 AI 决策能被审计和追责。

如果 2026 年企业 AI 仍停留在大量试点和少量生产，模型公司会出现收入增长但续约压力上升；

如果生产占比提高，尤其在客服、代码、销售运营、财务审查、法务初筛和 IT 运维中形成可量化 ROI，企业 AI 会从试验预算进入核心软件预算。

5. 电力和并网会变成模型发布节奏的一部分

模型发布过去主要受研发周期影响：数据、算法、训练稳定性、安全评测。

未来还会受物理容量影响。

新模型若需要更高推理成本，而数据中心无法同步上线，平台就必须通过限流、排队、价格上调或小模型替代来管理需求。

用户看到的是“高端模型额度变少”或“深度推理更贵”，背后可能是电力、GPU 和显存容量没有按预期交付。

这会让 AI 公司更像航空公司：座位容量有限，高峰期涨价，低峰期促销，会员等级决定排队优先级。

算力会从后台资源变成前台产品规则。

还有一个次级信号值得看：模型公司是否开始主动教育客户“怎样少用高端模型”。

如果供应商只强调更强模型，说明增长仍靠堆算力；

如果供应商开始提供成本控制台、自动路由、预算上限、缓存命中率和任务级 ROI 报告，说明商业重点已经从“卖更多 token”转向“让客户在可控预算内持续依赖”。

后者更接近可持续利润，因为它把客户的成本焦虑转化为平台黏性。

真正成熟的 AI 平台不会鼓励所有请求都冲向最贵模型，而会像云厂商优化存储冷热分层一样，帮助客户把任务放到合适成本层。

只有当客户相信平台在替自己省钱，平台才更容易获得长期预算，而不是被采购部门当成又一个可砍的高价 SaaS。

这也是 AI 从实验预算进入生产预算的关键分水岭，背后考验的是商业纪律、财务韧性和组织落地执行能力，而不只是模型能力本身。

认知校准

你的先验理解

当前美国人工智能产业普遍处于亏损状态；亏损主要受制于数据中心、芯片和电力成本高昂；各大企业推出的订阅套餐实质上是补贴式亏损运营；其目标是通过市场扩张形成垄断地位，再获取长期利润。

研究后的校准

✅ 确认：数据中心、芯片、电力和融资能力确实是美国 AI 产业的核心约束。AI 与传统互联网软件不同，边际使用会消耗真实算力，资本开支和电力接入会直接影响盈利路径。
✅ 确认：固定订阅制确实存在补贴和计费错配，尤其对长上下文、深度推理、实时工具调用和重度用户。基础订阅更像获客入口，不适合长期承载所有高成本能力。
🔄 修正：“普遍亏损”不能简单等同于“每次调用都亏”。亏损可能来自训练研发、数据中心提前建设、销售扩张、股权激励和长期租赁，也可能只集中在某些产品或重度用户。轻度用户、缓存命中请求、低端模型和企业高价合同可能是盈利的。
🔄 修正：“目标是垄断后盈利”过于单线。更可信的路径是云绑定、API 分层、企业工作流、结果计费、行业 Agent、高 SLA 服务和基础设施租金并行。某些层会寡头化，但模型和应用层会被开源、小模型和垂直集成持续压价。
💡 新发现：真正决定 AI 商业化的不是“模型是否聪明”，而是“请求能否路由到合适成本层级，结果能否进入企业 P&L”。AI 若停留在聊天窗口，成本结构会比商业价值更快增长；若进入流程，价格可以从 token 转向结果。

最大的认知偏差在哪

容易把 AI 当作传统互联网补贴战，忽略它的物理资产属性。

AI 既有平台经济的一面，也有电力、芯片、数据中心和折旧的一面。

判断它是否能赚钱，不能只看用户增长或订阅价格，要看算力资产能否被高利用率、高价值任务和分层计费持续吸收。

信息来源

OpenAI, “Announcing The Stargate Project”, 2025-01-21. URL: https://r.jina.ai/http://openai.com/index/announcing-the-stargate-project/ 。成熟度：官方公告。访问日期：2026-04-30。 ↩︎
CNBC, “OpenAI resets spending expectations, tells investors compute target is around $600 billion by 2030”, 2026-02-20. URL: https://www.cnbc.com/2026/02/20/openai-resets-spend-expectations-targets-around-600-billion-by-2030.html 。成熟度：权威媒体报道。访问日期：2026-04-30。 ↩︎ ↩︎ ↩︎
Jordan Hoffmann et al., “Training Compute-Optimal Large Language Models”, arXiv:2203.15556, 2022-03-29. URL: https://arxiv.org/abs/2203.15556 。成熟度：预印本-成熟经典论文。访问日期：2026-04-30。 ↩︎
Nikhil Sardana, Jacob Portes, Sasha Doubov, Jonathan Frankle, “Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws”, arXiv:2401.00448, 2023-12-31. URL: https://arxiv.org/abs/2401.00448 。成熟度：预印本-成熟论文。访问日期：2026-04-30。 ↩︎ ↩︎
OpenAI, “API Pricing”. URL: https://r.jina.ai/http://openai.com/api/pricing/ 。成熟度：官方价格页。访问日期：2026-04-30。 ↩︎ ↩︎ ↩︎
Anthropic, “Plans & Pricing”. URL: https://r.jina.ai/http://www.anthropic.com/pricing 。成熟度：官方价格页。访问日期：2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎
Google AI for Developers, “Gemini Developer API pricing”. URL: https://ai.google.dev/gemini-api/docs/pricing 。成熟度：官方价格页。访问日期：2026-04-30。 ↩︎ ↩︎ ↩︎
Alphabet Inc., Form 10-K for fiscal year 2025, SEC filing. URL: https://r.jina.ai/http://www.sec.gov/Archives/edgar/data/1652044/000165204426000018/goog-20251231.htm 。成熟度：官方财报。访问日期：2026-04-30。 ↩︎ ↩︎ ↩︎
Microsoft Corporation, Form 10-Q for quarter ended March 31, 2026, SEC filing. URL: https://r.jina.ai/http://www.sec.gov/Archives/edgar/data/789019/000119312526191507/msft-20260331.htm 。成熟度：官方财报。访问日期：2026-04-30。 ↩︎ ↩︎
Amazon.com, Inc., Form 10-K for fiscal year 2025, SEC filing. URL: https://r.jina.ai/http://www.sec.gov/Archives/edgar/data/1018724/000101872426000004/amzn-20251231.htm 。成熟度：官方财报。访问日期：2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎
International Energy Agency, “Energy and AI”, World Energy Outlook Special Report, 2025. URL: https://iea.blob.core.windows.net/assets/b8a83930-5c77-4da7-b795-270ab6a6c272/EnergyandAI.pdf 。成熟度：行业报告/国际机构。访问日期：2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
MIT Project NANDA, “The GenAI Divide: State of AI in Business 2025”. URL: https://nanda.media.mit.edu/ai_report_2025.pdf 。成熟度：研究报告。访问日期：2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎
Meta Platforms, Inc., Form 10-K for fiscal year 2025, SEC filing. URL: https://r.jina.ai/http://www.sec.gov/Archives/edgar/data/1326801/000162828026003942/meta-20251231.htm 。成熟度：官方财报。访问日期：2026-04-30。 ↩︎
Stanford HAI, “Artificial Intelligence Index Report 2025”. URL: https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf 。成熟度：行业/学术年度报告。访问日期：2026-04-30。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
William Fedus, Barret Zoph, Noam Shazeer, “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity”, arXiv:2101.03961, 2021-01-11. URL: https://arxiv.org/abs/2101.03961 。成熟度：预印本-成熟经典论文。访问日期：2026-04-30。 ↩︎
Gyeong-In Yu et al., “Orca: A Distributed Serving System for Transformer-Based Generative Models”, OSDI 2022. URL: https://www.usenix.org/conference/osdi22/presentation/yu 。成熟度：已发表-系统会议。访问日期：2026-04-30。 ↩︎ ↩︎
Woosuk Kwon et al., “Efficient Memory Management for Large Language Model Serving with PagedAttention”, arXiv:2309.06180, 2023-09-12. URL: https://arxiv.org/abs/2309.06180 。成熟度：预印本-成熟系统论文。访问日期：2026-04-30。 ↩︎ ↩︎
Tri Dao et al., “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness”, arXiv:2205.14135, 2022-05-27. URL: https://arxiv.org/abs/2205.14135 。成熟度：预印本-成熟经典论文。访问日期：2026-04-30。 ↩︎ ↩︎
Erik Brynjolfsson, Danielle Li, Lindsey R. Raymond, “Generative AI at Work”, NBER Working Paper 31161, 2023. DOI: 10.3386/w31161. URL: https://www.nber.org/papers/w31161 。成熟度：NBER 工作论文。访问日期：2026-04-30。 ↩︎ ↩︎
GitHub, “Research: quantifying GitHub Copilot’s impact on developer productivity and happiness”, 2022. URL: https://github.blog/news-insights/research/research-quantifying-github-copilots-impact-on-developer-productivity-and-happiness/ 。成熟度：官方研究/实验报告。访问日期：2026-04-30。 ↩︎ ↩︎
CNBC, “Sam Altman says OpenAI will top $20 billion in annualized revenue this year, hundreds of billions by 2030”, 2025-11-06. URL: https://www.cnbc.com/2025/11/06/sam-altman-says-openai-will-top-20-billion-annual-revenue-this-year.html 。成熟度：权威媒体报道。访问日期：2026-04-30。 ↩︎

美国 AI 产业的成本、亏损与盈利路径：补贴不是终局，算力才是资产负债表 ​

引子：AI 不是软件，也不是单纯的电力生意 ​

一、AI 成本不是“训练费 + 电费”，而是一条实时工业链 ​

1. 模型研发和训练：高风险固定成本 ​

2. 推理：随使用量增长的核心变量成本 ​

3. 数据中心和硬件折旧：资本开支先行，收入滞后 ​

4. 电力与并网：不是电费贵，而是“可用电力”稀缺 ​

5. 获客、分发和合规：企业收入不等于纯毛利 ​

6. 安全、版权和监管：不确定但不能忽略的尾部成本 ​

二、AI 降本靠五个变量，不是靠一句“技术进步” ​

1. 硬件性能/价格：单卡变强，但前沿需求也在变大 ​

2. 模型结构：MoE、小模型、蒸馏和更长训练 ​

3. Serving 系统：显存管理和调度决定毛利 ​

4. Attention 与内存访问优化：瓶颈常在 HBM，不只在计算 ​

5. 产品级约束：缓存、限额、批处理和任务路由 ​

三、如果 AI 比人贵，它仍可能有商业意义，但边界更窄 ​

四、订阅亏损不是一个事实，而是三种不同现象 ​

1. 公司层面：现金流压力来自增长投资和算力承诺 ​

2. 产品层面：固定订阅与可变成本错配 ​

3. 用户层面：亏损集中在“高成本低付费”的请求 ​

五、盈利路径：不是等垄断，而是把算力变成可计费的生产资料 ​

路径 A：API 毛利和模型分层 ​

路径 B：企业席位 + 用量叠加 ​

路径 C：云绑定和基础设施租金 ​

路径 D：结果计费和行业 Agent ​

路径 E：广告、搜索和入口抽成 ​

路径 F：涨价和限额 ​

交叉洞察 ​

洞察 1：AI 的最大风险不是“单次回答亏钱”，而是资本开支与需求兑现周期错位 ​

洞察 2：固定订阅会逐步退到入口位置，高成本能力会被拆成单独计费层 ​

洞察 3：AI 降本会降低单位价格，但未必降低总支出；需求会向更复杂任务迁移 ​

洞察 4：AI 的商业价值不是“替代人”，而是“把组织瓶颈从人脑移到流程” ​

洞察 5：美国 AI 产业不会简单走向单一垄断，更可能形成“基础设施寡头 + 模型竞争 + 应用长尾” ​

未来 24 个月最值得观察的信号 ​

1. 资本开支是否从“抢容量”转向“看利用率” ​

2. 价格表会越来越像云计算，而不是 SaaS ​

3. 开源模型会压低基础能力利润，但不必然摧毁前沿模型利润 ​

4. 企业 AI 的关键指标不是 adoption，而是 production share ​

5. 电力和并网会变成模型发布节奏的一部分 ​

认知校准 ​

信息来源 ​

美国 AI 产业的成本、亏损与盈利路径：补贴不是终局，算力才是资产负债表

引子：AI 不是软件，也不是单纯的电力生意

一、AI 成本不是“训练费 + 电费”，而是一条实时工业链

1. 模型研发和训练：高风险固定成本

2. 推理：随使用量增长的核心变量成本

3. 数据中心和硬件折旧：资本开支先行，收入滞后

4. 电力与并网：不是电费贵，而是“可用电力”稀缺

5. 获客、分发和合规：企业收入不等于纯毛利

6. 安全、版权和监管：不确定但不能忽略的尾部成本

二、AI 降本靠五个变量，不是靠一句“技术进步”

1. 硬件性能/价格：单卡变强，但前沿需求也在变大

2. 模型结构：MoE、小模型、蒸馏和更长训练

3. Serving 系统：显存管理和调度决定毛利

4. Attention 与内存访问优化：瓶颈常在 HBM，不只在计算

5. 产品级约束：缓存、限额、批处理和任务路由

三、如果 AI 比人贵，它仍可能有商业意义，但边界更窄

四、订阅亏损不是一个事实，而是三种不同现象

1. 公司层面：现金流压力来自增长投资和算力承诺

2. 产品层面：固定订阅与可变成本错配

3. 用户层面：亏损集中在“高成本低付费”的请求

五、盈利路径：不是等垄断，而是把算力变成可计费的生产资料

路径 A：API 毛利和模型分层

路径 B：企业席位 + 用量叠加

路径 C：云绑定和基础设施租金

路径 D：结果计费和行业 Agent

路径 E：广告、搜索和入口抽成

路径 F：涨价和限额

交叉洞察

洞察 1：AI 的最大风险不是“单次回答亏钱”，而是资本开支与需求兑现周期错位

洞察 2：固定订阅会逐步退到入口位置，高成本能力会被拆成单独计费层

洞察 3：AI 降本会降低单位价格，但未必降低总支出；需求会向更复杂任务迁移

洞察 4：AI 的商业价值不是“替代人”，而是“把组织瓶颈从人脑移到流程”

洞察 5：美国 AI 产业不会简单走向单一垄断，更可能形成“基础设施寡头 + 模型竞争 + 应用长尾”

未来 24 个月最值得观察的信号

1. 资本开支是否从“抢容量”转向“看利用率”

2. 价格表会越来越像云计算，而不是 SaaS

3. 开源模型会压低基础能力利润，但不必然摧毁前沿模型利润

4. 企业 AI 的关键指标不是 adoption，而是 production share

5. 电力和并网会变成模型发布节奏的一部分

认知校准

信息来源