Harness 设计:长时间运行的应用开发
原文链接: https://www.anthropic.com/engineering/harness-design-long-running-apps 发布日期: 2026 年 3 月 24 日
概述
本文由 Anthropic Labs 的 Prithvi Rajasekaran 撰写,探讨了 Anthropic 如何通过多 Agent harness 设计提升 Claude 在前端设计和自主全栈应用开发方面的能力。核心灵感来自生成对抗网络(GAN)——将生成器和评估器分离。
两个关键挑战
1. 上下文管理
模型在处理冗长任务时会失去连贯性。研究发现"上下文重置(context resets)——完全清空上下文窗口并启动新 Agent"对 Claude Sonnet 4.5 至关重要,不过 Opus 4.5 很大程度上消除了这个问题。
2. 自我评估偏差
Agent 倾向于赞美自己的工作,即使质量平庸,尤其在设计等主观任务上。将评估器与生成器分离比让生成器自我批评更为有效。
前端设计方法
四个评分标准指导设计循环:
- 设计质量(Design quality):整合颜色、排版和布局的连贯视觉识别
- 原创性(Originality):自定义决策优于模板默认值
- 工艺(Craft):包括排版和间距在内的技术执行
- 功能性(Functionality):可用性和任务完成度
评估器使用 Playwright 与实时页面交互,每次生成经历 5-15 个迭代周期,提供详细反馈进行改进。
全栈架构:三 Agent 系统
| Agent | 职责 |
|---|---|
| Planner(规划器) | 将简短提示扩展为详细的产品规格说明 |
| Generator(生成器) | 使用 React、Vite、FastAPI 和 SQLite/PostgreSQL 实现功能 |
| Evaluator(评估器) | 使用 Playwright 测试功能,识别 bug 和缺陷 |
结果对比
| 实现方式 | 耗时 | 成本 |
|---|---|---|
| 单 Agent | 20 分钟 | $9 |
| 完整 Harness | 6 小时 | $200 |
虽然 token 成本更高,但 harness 产出的应用明显更精致、功能更完整。
Solo Harness 创建的游戏
图:使用 solo harness 创建的应用初始界面
图:solo harness 创建的精灵编辑器
图:尝试玩自己创建的关卡(未成功)
Full Harness 创建的游戏
图:使用完整 harness 构建的应用初始界面
图:更清洁、更易用的精灵编辑器
图:使用内置 AI 功能自动生成关卡
演进与优化
随着 Claude Opus 4.6 在规划和长上下文性能方面的改进,研究人员简化了 harness,移除了 sprint 构造同时保持了质量。
后续的 DAW(数字音频工作站)构建:
- 耗时:3 小时 50 分钟
- 成本:$124.70
核心洞察
"有趣的 harness 组合空间不会随着模型改进而缩小。相反,它会移动。"
随着模型能力的提升,开发者会发现匹配进化中模型能力的新颖 Agent 配置方式。Harness 设计不是一次性工作,而是随模型能力持续演进的探索过程。
总结
本文展示了多 Agent harness 在应用开发中的强大潜力。将生成和评估分离(类似 GAN 架构)是提升 AI 输出质量的有效策略,尤其在主观质量判断(如 UI 设计)方面效果显著。虽然成本和时间会增加,但最终产出的质量远超单 Agent 方案。