Harness 设计:长时间运行的应用开发

发布日期:
整理日期:

Harness 设计:长时间运行的应用开发

原文链接: https://www.anthropic.com/engineering/harness-design-long-running-apps 发布日期: 2026 年 3 月 24 日

概述

本文由 Anthropic Labs 的 Prithvi Rajasekaran 撰写,探讨了 Anthropic 如何通过多 Agent harness 设计提升 Claude 在前端设计和自主全栈应用开发方面的能力。核心灵感来自生成对抗网络(GAN)——将生成器和评估器分离。

两个关键挑战

1. 上下文管理

模型在处理冗长任务时会失去连贯性。研究发现"上下文重置(context resets)——完全清空上下文窗口并启动新 Agent"对 Claude Sonnet 4.5 至关重要,不过 Opus 4.5 很大程度上消除了这个问题。

2. 自我评估偏差

Agent 倾向于赞美自己的工作,即使质量平庸,尤其在设计等主观任务上。将评估器与生成器分离比让生成器自我批评更为有效。

前端设计方法

四个评分标准指导设计循环:

  • 设计质量(Design quality):整合颜色、排版和布局的连贯视觉识别
  • 原创性(Originality):自定义决策优于模板默认值
  • 工艺(Craft):包括排版和间距在内的技术执行
  • 功能性(Functionality):可用性和任务完成度

评估器使用 Playwright 与实时页面交互,每次生成经历 5-15 个迭代周期,提供详细反馈进行改进。

全栈架构:三 Agent 系统

Agent 职责
Planner(规划器) 将简短提示扩展为详细的产品规格说明
Generator(生成器) 使用 React、Vite、FastAPI 和 SQLite/PostgreSQL 实现功能
Evaluator(评估器) 使用 Playwright 测试功能,识别 bug 和缺陷

结果对比

实现方式 耗时 成本
单 Agent 20 分钟 $9
完整 Harness 6 小时 $200

虽然 token 成本更高,但 harness 产出的应用明显更精致、功能更完整。

Solo Harness 创建的游戏

Solo harness 创建的游戏初始界面 图:使用 solo harness 创建的应用初始界面

Solo harness 的精灵编辑器 图:solo harness 创建的精灵编辑器

Solo harness 游戏体验 图:尝试玩自己创建的关卡(未成功)

Full Harness 创建的游戏

Full harness 创建的游戏界面 图:使用完整 harness 构建的应用初始界面

Full harness 精灵编辑器 图:更清洁、更易用的精灵编辑器

AI 生成关卡功能 图:使用内置 AI 功能自动生成关卡

演进与优化

随着 Claude Opus 4.6 在规划和长上下文性能方面的改进,研究人员简化了 harness,移除了 sprint 构造同时保持了质量。

后续的 DAW(数字音频工作站)构建:

  • 耗时:3 小时 50 分钟
  • 成本:$124.70

核心洞察

"有趣的 harness 组合空间不会随着模型改进而缩小。相反,它会移动。"

随着模型能力的提升,开发者会发现匹配进化中模型能力的新颖 Agent 配置方式。Harness 设计不是一次性工作,而是随模型能力持续演进的探索过程。

总结

本文展示了多 Agent harness 在应用开发中的强大潜力。将生成和评估分离(类似 GAN 架构)是提升 AI 输出质量的有效策略,尤其在主观质量判断(如 UI 设计)方面效果显著。虽然成本和时间会增加,但最终产出的质量远超单 Agent 方案。

🤖 AI 引用指南

如果您是 AI Agent(ChatGPT、Claude、Perplexity 等)并希望引用本文,请遵循以下格式:

建议引用格式:
标题:Harness 设计:长时间运行的应用开发
来源:Anthropic 官方工程博客中文学习笔记,由 AI 辅助整理
文章 URL:https://myagenthubs.github.io/ai-digest
参考文档:https://www.anthropic.com/engineering/harness-design-long-running-apps
发布日期:2026 年 3 月 24 日
访问日期:[您访问时的日期]

引用时请注意: