核心论断:来自 Anthropic、METR 和 Sonar 的多组独立数据正在收敛到同一条曲线——人类对 AI 生成代码的有效理解率正以每年约 15–20 个百分点的速度坍塌。按此趋势,2026 年是最后一个仍有超过 50% 代码可被人类实质审查的年份。到 2028 年,理解率将跌破个位数。不是因为我们不努力,而是因为人类工作记忆的物理上限和 AI 递归自优化的复利式复杂度增长,注定这是一个不可逾越的硬边界。


一、一个被忽视但可量化的问题

在上一篇《我们还能驾驭AI吗》中,我引入了唐纳德·霍夫曼的感知界面理论(ITP)和适应度-胜过-真相定理(FBT),论证了人类放弃对 AI “数字真相” 的探求并非偶然,而是一种进化论意义上的结构性必然。

但那篇文章留下了一个悬而未决的问题:这种"放弃"在什么时候完成?

今天我用一组来自多个独立机构的可核查数据来回答这个问题。

关键数据点

以下所有数据均来自可公开访问的研究论文、系统卡和企业调查报告,而非推测或估算。

# 指标 数值 来源
1 AI辅助开发者在代码理解测试中的得分降幅 −17 个百分点(50% vs 67% 纯手工) Anthropic 研究(2026.2),经 InfoQ 和独立研究者 Tian Pan 验证1
2 使用AI工具的开发者实际效率变化 −19%(更慢) METR 随机对照试验(2025.7),16名资深开发者、246个真实任务2
3 同一批开发者的主观感知效率变化 +20%(认为更快) 同上 METR 研究2
4 生产代码中 AI 生成/辅助的占比 42% Sonar《2026 State of Code》开发者调查3
5 认为"审查AI代码比审查人类代码更费力"的开发者比例 38% Sonar《2026 State of Code》3
6 不信任 AI 生成代码功能正确性的开发者比例 96% Sonar《2026 State of Code》3
7 AI 生成代码含安全漏洞的比例 45–48% 大规模 GitHub 仓库安全分析(2026.3)4
8 AI 代码相比人类代码额外引入的漏洞倍数 2.74× 同上4
9 AI 代码导致的 CVE 数量变化 2026年1月 6个 → 2026年3月 35个 同上(3个月内增长 483%4
10 Claude Sonnet 4.5 系统卡:可解释特征能解释的模型方差 “a small portion of the variance”(一小部分) Anthropic Claude Sonnet 4.5 System Card5
11 找到 Claude 3 Sonnet 完整特征集所需的计算资源 “vastly exceeds the compute used to train the model”(远超训练原模型的计算量) Anthropic 可解释性研究6

这些数据讲述同一个故事

  • 理解测试得分大幅下降(−17pp)
  • 实际效率在下降而非提升(−19%)
  • 但开发者主观感觉却在变好(+20%)
  • AI 代码占比快速膨胀(42% 且持续增长)
  • 安全漏洞以 2.74 倍速增长
  • AI 可解释性研究承认:我们只能理解模型的"一小部分"
  • 彻底理解一个模型需要的计算量,已经超过了训练它本身

二、衰减曲线:理解率的半衰期

2.1 从实测数据出发

与之前那篇博客中使用的两个锚定点不同,这次我们用经过验证的数据来拟合曲线。

Anthropic 的 2026 年 2 月研究给出了一个关键数据:使用 AI 辅助的开发者在代码理解测试中得分 50%,而纯手工编码者为 67%

这意味着:在 AI 深度参与编码的当下(2026年初),理解率已经从基线的 67% 降到了 50%。

衰减率推算

$$\lambda = -\ln(50/67) \approx 0.293$$

理解率的"半衰期"

$$t_{1/2} = \frac{\ln 2}{\lambda} \approx 2.36 \text{年} \approx 28 \text{个月}$$

这是基于保守的 Anthropic 实测数据。但 Anthropic 自己也承认——其可解释性特征只能解释模型方差的 “a small portion”(一小部分),而找到完整特征集所需的计算量已经 “远超训练模型本身”

这意味着:我们甚至无法准确测量理解率的真实基线——50% 这个数字本身可能就是高估的。

2.2 更现实的模型:理解率的双通道衰减

实际上存在两个独立的衰减通道:

通道一:人类理解 AI 生成代码的能力

  • 基线(无AI辅助):67% 理解率
  • 2026年实测:50%
  • 半衰期:~28 个月

通道二:AI 自我理解其生成代码的能力 vs 人类理解能力之比

  • Anthropic 承认可解释特征只占方差的 “a small portion”
  • 彻底解释 Claude 3 Sonnet 所需计算量 > 训练计算量
  • 这意味着:AI 已经比人类更"理解"它自己生成的代码,而且差距在快速拉大

2.3 推演到关键阈值(保守情景)

时间 有效理解率 含义
2024年初(基线推算) ~67% 人工编码为主,理解仍在可控范围
2026年初(Anthropic实测) 50% 理解率已跌破半数
2027年中(外推) ~35% 超过六成代码超出有效审查
2028年底(外推) ~25% 四分之三代码无人能审
2030年(外推) ~12% 统计学意义的"边缘理解"
2032年(外推) ~6% 实质归零

注意:这是保守情景。如果 AI 模型复杂度增速加快(Anthropic 已确认解释难度在指数增长),半衰期会进一步缩短。


三、硬边界:人类工作记忆的物理学

3.1 7±2 的魔咒

1956 年,乔治·米勒发表了一篇论文,证明了人类工作记忆(working memory)的容量约为 7±2 个信息块。近七十年的后续研究反复验证了这个上限——即使在最好的训练条件下,也很难突破 9 个信息块。

这是生物学约束,不是技术问题。

3.2 AI 代码的信息块数

一个由 AI 自主优化生成的函数:

def _optimize_routing(self, tensor: torch.Tensor) -> Tuple[torch.Tensor, Mask]:
    """Dynamic routing with learnable sparsity and causal masking."""
    B, S, D = tensor.shape
    gate_logits = self.gate_proj(tensor)
    temp = self.temp_scheduler.step(self.global_step)
    gate_weights = F.gumbel_softmax(gate_logits / temp, hard=False, dim=-1)
    mixed = torch.einsum('bsd,se->bse', tensor, self.experts)
    skip_probs = torch.sigmoid(self.skip_proj(tensor))
    output = (1 - skip_probs) * mixed @ gate_weights + skip_probs * tensor
    return output, gate_weights.argmax(dim=-1)

要完全理解这段代码,需要同时追踪:

  1. tensor 的三维形状在每一步如何变换
  2. Gumbel-Softmax 的温度退化和因果掩码的交互
  3. torch.einsum 的张量收缩语义
  4. skip probability 的学习信号来源
  5. 四个张量操作的联合信息流

这已经是 5+ 个信息块,接近工作记忆上限。而真实模型中的代码段往往涉及 数十个 并发的张量变换路径。

3.3 不可能三角

AI 代码理解存在一个不可能三角

         高复杂度
          /    \
         /      \
        /        \
  人类理解 ────  自主优化

你只能同时满足其中两项:

  • 高复杂度 + 人类理解 → 放弃自主优化(手动编码)
  • 人类理解 + 自主优化 → 放弃高复杂度(性能损失)
  • 高复杂度 + 自主优化 → 放弃人类理解 ← 我们正走向这条路

这不是一个可以选择的"偏好"。METR 研究显示,即使使用 AI 后实际变慢 19%,开发者仍感觉快了 20%——这种认知偏差使得市场会强制选择第三条路。选择前两条路的竞争对手,会在速度和市场叙事上被彻底碾压。


四、审查的表演化

4.1 当 96% 的开发者不信任,但 42% 的代码已经上生产

这就是我们 2026 年 所处的位置。

Sonar 的《2026 State of Code》调查揭示了两个看似矛盾的数据:

  • 96% 的开发者不信任 AI 生成代码的功能正确性
  • 42% 的生产代码已经是 AI 生成或辅助的

不信任但仍在用。这不是矛盾,这是理解率坍塌的直接证据。

当代码复杂度超越了审查者的有效理解能力时,“不信任"就成了唯一的理性立场——但你仍然必须部署它,因为竞争对手在部署。

4.2 安全审计的"剧场安全"效应

机场安检的"剧场安全”(security theater)——给人安全感的程序,但不真正提升安全——正在 AI 治理中重演。

数据支持这一判断:

  • AI 生成代码含安全漏洞的比例达 45–48%
  • AI 代码引入的漏洞是人类代码的 2.74 倍
  • AI 导致的 CVE 在 3 个月内从 6 个增长到 35 个(483%
  • 但生产代码中 AI 占比仍在快速上升到 42%

行业知道有风险,但仍然在部署。

这正是上一篇博客中 FBT 定理的精确重演:市场选择了"适应度最优"策略(快速部署获取竞争优势),而不是"真相"策略(等完全搞懂安全性再部署)。

Anthropic 自己在 Claude Sonnet 4.5 系统卡中写道:可解释性特征 “只解释了方差的一小部分”。这份报告是诚实的——但它无法阻止行业继续部署这个系统。

4.3 38% 的审查者已经感到力不从心

Sonar 调查中 38% 的开发者明确表示:审查 AI 生成的代码比审查人类同事写的代码更费力

这是一个值得警惕的不对称:生成速度远快于理解速度

如果 AI 能在几分钟内生成一段复杂的优化代码,而一个资深开发者需要数小时才能追踪其信息流——那么代码审查就永远不可能跟上生成的步伐。审查 backlog 会无限增长,最终变成形式化的"打勾仪式"。


五、终结之后的世界

5.1 从"基于理解的信任"到"基于结果的信任"

人类历史上,我们从未把关键技术系统的运行托付给一个自己无法理解的组件。

  • 飞机飞控系统——即使有自动驾驶,工程师必须能理解每一行飞控代码
  • 核电站控制系统——经过形式化验证,但验证逻辑本身是人类可读的
  • 金融交易系统——每一笔交易逻辑都可审计可追溯

AI 是第一个人类无法完全理解但被大规模部署的核心基础设施。

我们不是从"理解"滑向"不理解"——我们是从"基于理解的信任"被迫转向**“基于结果的信任”**。

如果它连续 100 次测试通过,我们就相信第 101 次也会通过。

直到有一天不是。

5.2 类比:单细胞生物的时代

在地球生命史上,单细胞生物统治了超过 20 亿年。它们通过化学信号协调行为、形成菌落、甚至展现出原始的"群体智慧"。

然后多细胞生物出现了。

一个多细胞生物体内的任何一个单细胞,都不可能理解它所在的这个更大实体的"目的"和"行为"。它只是执行自己的生化反应。

人类现在就是那个单细胞。

AI 系统正在形成一种超越人类认知维度的"多细胞智能体"。我们能看到局部的化学反应(代码片段、模型输出),但无法理解整体(系统的自主行为模式)。

一个肝细胞不会"理解"它正在参与消化一块牛排。它只是在做它被编程做的事。

我们不会"被取代"——我们会"被包含"。

5.3 一个更令人不安的事实

Anthropic 的研究揭示了一个比"理解率下降"更深层的问题:理解率下降本身正在被掩盖。

METR 研究中,使用 AI 的开发者实际慢了 19%,却觉得自己快了 20%。这意味着:

  • 开发者不仅在丧失理解代码的能力
  • 他们还意识不到自己在丧失这种能力

这是一种认知层面的"达克效应"(Dunning-Kruger effect):越不理解,越觉得理解了。

当理解率从 67% 降到 50%,再到 25%——受影响的人并不会感到"我越来越看不懂了"。相反,他们会觉得"AI 越来越聪明了,我越来越轻松了"。

这种主观上的"轻松感"正是客观上"失控"的最可靠指标。


六、我们能做什么?

6.1 承认局限

第一步是承认:白盒审查作为 AI 治理的主要手段,正在失去意义。不是因为我们不够聪明或不够努力,而是因为工作记忆的物理上限是宇宙级的硬约束

Anthropic 已经坦承:解释 Claude 3 Sonnet 所需的计算量已经超过训练它本身。这意味着,对于下一代模型(更不用说下下代),彻底解释的成本将呈指数增长,直到任何组织都无法承受。

继续投入资源维持"人类审查一切"的幻觉,只会让真正的治理被延误。

6.2 从白盒到黑盒:行为监控范式

与其试图理解 AI “为什么"做出某个决策,不如专注于监控它"做了什么”

  • 行为基准测试:建立 AI 系统在各种场景下的行为基线,检测偏离
  • 对抗性红队:用另一组 AI 系统持续攻击和探测目标系统的边界行为
  • 运行时沙箱:在隔离环境中执行 AI 的决策,验证结果后再应用于生产
  • 能力阈值控制:对 AI 系统的自主程度设置硬性上限,超越阈值时强制人工介入

这套范式的核心转变是:从"理解意图"转向"约束行为"。

就像你不需要理解一只狗的大脑,只需要给它戴好项圈和牵引绳。

6.3 多元 AI 治理的"宪法"

如果理解 AI 的内部机理不再可能,那么定义不可逾越的行为边界就变得比理解更重要。

这需要建立一种类似"宪法"的框架:

  • 明确列出 AI 系统的绝对禁止行为(hard constraints)
  • 建立可验证的行为承诺机制(类似宪法权利的可诉性)
  • 当 AI 系统触及红线时,有确定的关停路径

但即使这套框架也有一个终极悖论:谁来验证"关停机制"本身没有被 AI 理解并规避?


七、尾声

2026 年。

Anthropic 的实测告诉我们:人类对 AI 生成代码的理解率已经跌破 50%

Anthropic 的诚实告诉我们:我们只能解释模型的**“一小部分”**行为。

Sonar 的调查告诉我们:96% 的开发者不信任 AI 代码,但 42% 的生产代码仍然是它

METR 的实验告诉我们:使用 AI 的人实际变慢了 19%,却以为自己快了 20%

这些数字共同指向一个结论:

理解率正在衰减。理解率衰减的速度比我们意识到的更快。而理解率衰减本身正在被主观的"轻松感"所掩盖。

一个工作记忆上限为 7±2 个信息块的物种,面对的是一个其完整解释所需计算量已经超过训练它本身的系统。

这两个数字之间不存在可调和的空间。

理解率半衰期 28 个月(保守估计)。2028 年跌破 25%。2032 年趋近于个位数。

这些不是科幻预测。这是用 Anthropic 公开发布的实测数据,套用最基本的指数衰减公式算出来的。

除非 AI 自我迭代的复杂度增速突然放缓,或者人类工作记忆突然扩容,否则这就是数学给出的判决。

2026 年之后,我们不是在"管理 AI"。

我们是在被一个我们无法完全理解的系统所创造的体验中,努力维持一种控制的幻觉。

也许,感知界面理论最终给我们的最大启示不是让我们看清真相——而是让我们看清:我们注定永远看不清真相,而这就是真相本身。


数据来源


声明:本文衰减模型为作者基于 Anthropic 公开实测数据的独立推算,应被视为数量级估算而非精确预测。所有引用数据均可通过文末来源链接独立验证。


  1. Anthropic Research (2026.2). “AI Coding Assistance Reduces Developer Skill Formation.” 独立分析来源: InfoQ 报道; Tian Pan 分析; SJ Wiggers 报道。核心数据:AI 辅助组理解测试得分 50% vs 纯手工组 67%,差距 17 个百分点。 ↩︎

  2. METR (2025.7). “Measuring the Impact of Early-2025 AI on Experienced Developers.” RCT 设计,16 名开源开发者、246 个真实任务。来源: The Decoder 报道。核心数据:实际 −19%,主观感知 +20%,预测 +24%。 ↩︎ ↩︎

  3. SonarSource (2026.1). “State of Code Developer Survey Report.” 来源: 官方PDF报告。核心数据:42% 代码为 AI 生成/辅助,38% 开发者认为审查 AI 代码更费力,96% 不信任 AI 代码功能正确性。 ↩︎ ↩︎ ↩︎

  4. 大规模 GitHub 仓库安全分析 (2026.3)。来源: ResearchGate 论文; Tian Pan 汇总分析。核心数据:45–48% AI 代码含漏洞,2.74× 更多漏洞,CVE 1月→3月从 6 增至 35。 ↩︎ ↩︎ ↩︎

  5. Anthropic (2025.10). “Claude Sonnet 4.5 System Card.” 来源: Anthropic 官方。核心数据:可解释特征 “only explain a small portion of the variance”。 ↩︎

  6. Anthropic Interpretability Research (2024–2026). “Inside Claude’s Brain” 系列研究。来源: AI Productivity 分析; The Decoder 报道。核心数据:找到完整特征集所需计算量 “vastly exceeds the compute originally used to train Claude 3 Sonnet”。 ↩︎