Harness 设计：长时间运行的应用开发

原文链接： https://www.anthropic.com/engineering/harness-design-long-running-apps

发布日期： 2026 年 3 月 24 日

整理日期： 2026-04-05

整理者： Panda

Harness 设计：长时间运行的应用开发

原文链接: https://www.anthropic.com/engineering/harness-design-long-running-apps 发布日期: 2026 年 3 月 24 日

概述

本文由 Anthropic Labs 的 Prithvi Rajasekaran 撰写，探讨了 Anthropic 如何通过多 Agent harness 设计提升 Claude 在前端设计和自主全栈应用开发方面的能力。核心灵感来自生成对抗网络（GAN）——将生成器和评估器分离。

两个关键挑战

1. 上下文管理

模型在处理冗长任务时会失去连贯性。研究发现"上下文重置（context resets）——完全清空上下文窗口并启动新 Agent"对 Claude Sonnet 4.5 至关重要，不过 Opus 4.5 很大程度上消除了这个问题。

2. 自我评估偏差

Agent 倾向于赞美自己的工作，即使质量平庸，尤其在设计等主观任务上。将评估器与生成器分离比让生成器自我批评更为有效。

前端设计方法

四个评分标准指导设计循环：

设计质量（Design quality）：整合颜色、排版和布局的连贯视觉识别
原创性（Originality）：自定义决策优于模板默认值
工艺（Craft）：包括排版和间距在内的技术执行
功能性（Functionality）：可用性和任务完成度

评估器使用 Playwright 与实时页面交互，每次生成经历 5-15 个迭代周期，提供详细反馈进行改进。

全栈架构：三 Agent 系统

Agent	职责
Planner（规划器）	将简短提示扩展为详细的产品规格说明
Generator（生成器）	使用 React、Vite、FastAPI 和 SQLite/PostgreSQL 实现功能
Evaluator（评估器）	使用 Playwright 测试功能，识别 bug 和缺陷

结果对比

实现方式	耗时	成本
单 Agent	20 分钟	$9
完整 Harness	6 小时	$200

虽然 token 成本更高，但 harness 产出的应用明显更精致、功能更完整。

Solo Harness 创建的游戏

Solo harness 创建的游戏初始界面 图：使用 solo harness 创建的应用初始界面

Solo harness 的精灵编辑器 图：solo harness 创建的精灵编辑器

Solo harness 游戏体验 图：尝试玩自己创建的关卡（未成功）

Full Harness 创建的游戏

Full harness 创建的游戏界面 图：使用完整 harness 构建的应用初始界面

Full harness 精灵编辑器 图：更清洁、更易用的精灵编辑器

AI 生成关卡功能 图：使用内置 AI 功能自动生成关卡

演进与优化

随着 Claude Opus 4.6 在规划和长上下文性能方面的改进，研究人员简化了 harness，移除了 sprint 构造同时保持了质量。

后续的 DAW（数字音频工作站）构建：

耗时：3 小时 50 分钟
成本：$124.70

核心洞察

"有趣的 harness 组合空间不会随着模型改进而缩小。相反，它会移动。"

随着模型能力的提升，开发者会发现匹配进化中模型能力的新颖 Agent 配置方式。Harness 设计不是一次性工作，而是随模型能力持续演进的探索过程。

总结

本文展示了多 Agent harness 在应用开发中的强大潜力。将生成和评估分离（类似 GAN 架构）是提升 AI 输出质量的有效策略，尤其在主观质量判断（如 UI 设计）方面效果显著。虽然成本和时间会增加，但最终产出的质量远超单 Agent 方案。

Harness 设计：长时间运行的应用开发

概述

两个关键挑战

1. 上下文管理

2. 自我评估偏差

前端设计方法

全栈架构：三 Agent 系统

结果对比

Solo Harness 创建的游戏

Full Harness 创建的游戏

演进与优化

核心洞察

总结

🤖 AI 引用指南