过去两年,AI 产业的核心叙事是"更大"——更大的模型、更多的 GPU、更长的训练。但这个叙事正在逼近物理和经济上的双重天花板。问题不是 AI 会不会变得更好,而是"变得更好"的代价还能撑多久,以及谁最终为这一切买单。

一、硬件天花板:摩尔定律的终局

半导体的制程竞赛正在撞上物理墙壁。

从 5nm 到 3nm 再到 2nm,每一代制程的晶体管密度提升仍然成立,但成本曲线已经失控。台积电 2nm 晶圆的代工价格据报已超过 3 万美元/片,而良率爬坡周期越来越长。更关键的是,制程缩小的边际性能回报在递减——从 5nm 到 3nm,同功耗下性能提升约 15-20%;从 3nm 到 2nm,这个数字可能降到 10-15%。

GPU 层面的瓶颈更加直接。NVIDIA B200(Blackwell)单卡功耗已达 1000W,一个 DGX B200 机架的功耗超过 70kW。根据 IEA 2025 年的报告,全球数据中心 2024 年耗电 415 TWh,占全球总用电量的 1.5%,其中 AI 是增长最快的部分。美国数据中心电力需求预计从当前的 28GW 增长到 2035 年的 106GW——这相当于几十个核电站的发电量。

功耗和散热正在取代芯片设计本身,成为算力扩张的首要约束。

内存墙同样棘手。GPU 的算力增长速度远超内存带宽的提升速度。HBM3e 的带宽约 1TB/s,但 B200 的计算吞吐量已经让 HBM 带宽捉襟见肘。这就是为什么 NVIDIA 在 Rubin 架构中引入了"分解式推理"——把 prefill 和 decode 分开,用不同的芯片分别处理,本质上是在内存带宽不够时的架构妥协。

网络互联是第三个瓶颈。NVLink 5 提供 1.8TB/s 的 GPU 间带宽,但要扩展到数万卡规模的集群,光互联的成本和功耗急剧上升。

二、新架构的远水

业界并非坐以待毙。SRAM 存算一体(Compute-in-Memory)是一个被认真探索的方向。Cerebras 的 WSE-3 芯片集成了 4 万亿个晶体管和 900MB 片上 SRAM,Groq 的 LPU 用大容量 SRAM 实现超低延迟推理。

但问题在于:这些架构在特定推理场景下确实有优势,但要替代当前超大规模 GPU 集群的综合算力,还有很长的路要走。SRAM 的存储密度远低于 DRAM/HBM,一块 B200 有 192GB HBM3e,而当前最大的 SRAM 加速器片上内存也不过几 GB 到几十 GB。

更根本的问题是生态。CUDA 生态经过十几年积累,已经成为 AI 开发的"普通话"。新架构要替代 GPU,不仅需要硬件性能达标,还需要软件栈、编译器、框架支持、开发者社区的全面迁移——这个成本和时间周期是以年为单位的。

在未来 3-5 年的窗口内,AI 算力的天花板主要由当前半导体技术路线的物理极限决定。

三、软件天花板:语料穷尽与模型收敛

如果说硬件天花板是物理问题,软件天花板则是信息问题。

训练语料正在耗尽。Epoch AI 的研究估计,高质量、去重后的人类生成公开文本数据约 300 万亿 tokens。当前最大的模型训练数据量已经达到这个数量级的相当比例。互联网上新增的高质量文本内容增速远低于模型训练对数据量的渴求。

Scaling Laws 的边际回报在递减。OpenAI 2020 年的开创性论文表明,模型性能与参数量、数据量、计算量之间存在幂律关系。但这个关系并非无限的——当模型参数达到万亿级、训练数据达到万亿 tokens 后,同样的投入带来的性能提升越来越小。

更值得注意的现象是顶级模型之间的收敛。2026 年初的基准测试显示,在 SWE-bench Verified 上,Claude Opus 4.6 得分 80.8%,GPT-5.4 约 80%,Gemini 3.1 Pro 80.6%,第一梯队之间的差距在 0.2-0.8 个百分点——已经在误差范围内。

这意味着:当算力封顶、语料穷尽时,各家顶级 LLM 的能力将趋于收敛。未来竞争的关键不再是"谁的模型更聪明",而是谁的整体系统(模型 + 工具 + 数据 + 流程)能产生更大的经济价值。

四、真正的战场:从模型能力到经济利润

MIT 2025 年的一个报告(NANDA 项目)揭示了一个残酷的事实:95% 的企业生成式 AI 试点项目未能产生可衡量的商业价值。这不是因为模型不够好,而是因为把一个强大的语言模型"塞进"一个企业的业务流程,远比想象中困难。

AI 产业的利润闭环,目前来看有两条路径:

路径一:公域 Token 经济

面向知识工作者的云托管式 AI 服务——这是单市场体量最大的部分。这个领域的玩家是传统互联网大厂(Google、Microsoft、Amazon)和 AI 新贵(OpenAI、Anthropic、DeepSeek)。

这个路径的问题在于:Token 经济的利润率正在被压缩。随着模型推理成本的持续下降和竞争的加剧,API 单价越来越低。Gemini 3.1 Pro 的定价已经降到 $2/1M 输入 tokens,比一年前下降了 60% 以上。

路径二:行业深度渗透

这是更艰难但可能更有价值的方向:把 AI 嵌入到具体行业的业务流程中。企业内部应用(私域部署、知识管理、流程自动化)是一个方向。但 MIT 的报告已经说明,大多数企业 AI 项目卡在了"试点成功但无法规模化"的阶段——核心障碍不是技术,而是组织变革、流程重构和 ROI 量化。

制造业和硬核工业是另一个方向。这里 AI 面临的挑战更加根本:工业场景要求可靠性、可解释性、实时性和安全性,这些恰恰是当前 LLM 的弱项。把 AI 嵌入到制造流程管理和交付闭环中,不是"用一个更聪明的 ChatGPT"就能解决的,而是需要从第一性原理重新设计整个系统。

后者目前几乎还没有任何建树和气色——不管是中国还是美国。

五、一个判断

综合来看,我的判断是:

AI 的第一阶段(2022-2026)是"资本定价期"——市场根据技术潜力和未来预期给 AI 公司估值。这个阶段即将结束。

AI 的第二阶段(2026-2030)是"经济兑现期"——谁能让 AI 在真实业务流程中产生可衡量的经济利润,谁才能穿越这个阶段。

硬件天花板和软件天花板的双重逼近,意味着"更大的模型"这个叙事正在让位给"更深的行业渗透"。算力不会停止增长,但增长的边际收益在递减。语料不会真正"用完",但新增数据的信号密度在下降。模型能力不会停止提升,但顶级模型之间的差异在缩小。

AI 产业真正的分水岭,不是谁的模型最强,而是谁的商业模式最先完成从"资本输血"到"自我造血"的跨越。

接下来的五年,行业会很热闹,也会很残酷。会有大量公司被重估,也会有一批真正把 AI 变成产业能力、变成经营利润、变成基础设施组成部分的公司脱颖而出。

而现在,我们正站在这个转折点上。