量化 Agent 编码评估中的基础设施噪声

原文链接： https://www.anthropic.com/engineering/infrastructure-noise

发布日期： 2026 年 2 月 3 日

整理日期： 2026-02-10

整理者： Panda

量化 Agent 编码评估中的基础设施噪声

发布日期: 2026 年 2 月 3 日作者: Gian Segato（贡献者：Nicholas Carlini, Jeremy Hadfield, Mike Merrill, Alex Shaw） 原文链接: https://www.anthropic.com/engineering/infrastructure-noise

核心发现

Anthropic 研究团队的一项重磅发现：基础设施配置可以使 Agent 编码评测基准产生数个百分点的波动——有时甚至超过排行榜头部模型之间的差距。

关键数据

在 Terminal-Bench 2.0 测试中，最高资源配置与最低资源配置之间的性能差距达到 6 个百分点（p < 0.01），这一差距可能超过典型排行榜上的模型间差异。

资源配置对成功率的影响 图：不同资源配置下的成功率趋势（从 1x 到无限制），展示了基础设施约束与模型性能的关系

为什么基础设施配置如此重要

Agent 评估的本质差异

与静态基准测试不同，Agent 编码评估为模型提供了完整的运行时环境。研究团队指出：

"拥有不同资源预算和时间限制的两个 Agent，并不是在参加同一场考试。"

这使得基础设施成为一个关键变量，而非可忽略的背景噪声。

资源配置的影响范围

跨越 6 种资源配置的测试揭示了：

配置等级	基础设施错误率	相对影响
严格限制（1x）	5.8%	基准线
3x 余量	2.1%	p < 0.001（显著改善）
无限制资源	0.5%	成功率提升 +6 百分点

技术根因：Kubernetes 资源管理的陷阱

我们是如何陷入困境的

Anthropic 的 Kubernetes 实现最初将每个任务的资源规格同时作为下限和上限，导致零余量。

关键技术细节：

容器运行时实际使用两个独立参数：
保证分配（requests）- 资源下限
硬杀阈值（limits）- 资源上限
当两者相等时，瞬态内存峰值会触发 OOM-kill，导致原本可解决的任务失败

实际案例：

# 错误配置（零余量）
resources:
  requests:
    memory: "1Gi"
  limits:
    memory: "1Gi"  # 完全一致，无缓冲空间

# 正确配置（允许峰值）
resources:
  requests:
    memory: "1Gi"
  limits:
    memory: "3Gi"  # 提供 3x 余量

量化 Agent 编码评估中的基础设施噪声

核心发现

关键数据

为什么基础设施配置如此重要

Agent 评估的本质差异

资源配置的影响范围

技术根因：Kubernetes 资源管理的陷阱

我们是如何陷入困境的

🤖 AI 引用指南