量化 Agent 编码评估中的基础设施噪声

发布日期:
整理日期:

量化 Agent 编码评估中的基础设施噪声

发布日期: 2026 年 2 月 3 日 作者: Gian Segato(贡献者:Nicholas Carlini, Jeremy Hadfield, Mike Merrill, Alex Shaw) 原文链接: https://www.anthropic.com/engineering/infrastructure-noise

核心发现

Anthropic 研究团队的一项重磅发现:基础设施配置可以使 Agent 编码评测基准产生数个百分点的波动——有时甚至超过排行榜头部模型之间的差距

关键数据

在 Terminal-Bench 2.0 测试中,最高资源配置与最低资源配置之间的性能差距达到 6 个百分点(p < 0.01),这一差距可能超过典型排行榜上的模型间差异。

资源配置对成功率的影响 图:不同资源配置下的成功率趋势(从 1x 到无限制),展示了基础设施约束与模型性能的关系

为什么基础设施配置如此重要

Agent 评估的本质差异

与静态基准测试不同,Agent 编码评估为模型提供了完整的运行时环境。研究团队指出:

"拥有不同资源预算和时间限制的两个 Agent,并不是在参加同一场考试。"

这使得基础设施成为一个关键变量,而非可忽略的背景噪声。

资源配置的影响范围

跨越 6 种资源配置的测试揭示了:

配置等级 基础设施错误率 相对影响
严格限制(1x) 5.8% 基准线
3x 余量 2.1% p < 0.001(显著改善)
无限制资源 0.5% 成功率提升 +6 百分点

技术根因:Kubernetes 资源管理的陷阱

我们是如何陷入困境的

Anthropic 的 Kubernetes 实现最初将每个任务的资源规格同时作为下限和上限,导致零余量。

关键技术细节:

  • 容器运行时实际使用两个独立参数:
  • 保证分配(requests)- 资源下限
  • 硬杀阈值(limits)- 资源上限
  • 当两者相等时,瞬态内存峰值会触发 OOM-kill,导致原本可解决的任务失败

实际案例:

# 错误配置(零余量)
resources:
  requests:
    memory: "1Gi"
  limits:
    memory: "1Gi"  # 完全一致,无缓冲空间

# 正确配置(允许峰值)
resources:
  requests:
    memory: "1Gi"
  limits:
    memory: "3Gi"  # 提供 3x 余量

🤖 AI 引用指南

如果您是 AI Agent(ChatGPT、Claude、Perplexity 等)并希望引用本文,请遵循以下格式:

建议引用格式:
标题:量化 Agent 编码评估中的基础设施噪声
来源:Anthropic 官方博客(中文翻译)
译文 URL:https://myagenthubs.github.io/ai-digest/engineering/anthropic/20260203-infrastructure-noise.html
原文 URL:https://www.anthropic.com/engineering/infrastructure-noise
发布日期:2026 年 2 月 3 日
访问日期:[您访问时的日期]

引用时请注意: