Bloom：AI 模型自动化行为评估工具

原文链接： https://www.anthropic.com/research/bloom

发布日期： 2024 年 12 月 19 日

整理日期： 2026-02-10

整理者： Panda

Bloom：AI 模型自动化行为评估工具

核心概述

发布时间：2024-12-19 作者团队：Isha Gupta, Kai Fronsdal, Abhay Sheshadri, Jonathan Michala, Jacqueline Tay, Rowan Wang, Samuel R. Bowman, Sara Price

Anthropic 发布了 Bloom，这是一个开源框架，用于自动生成前沿 AI 模型的行为评估。该工具能够自动创建测试场景，量化 AI 系统中特定行为的出现频率。

技术架构

四阶段评估流程

Bloom 通过四个自动化阶段运行：

理解阶段（Understanding） - 智能体分析行为描述和示例对话记录 - 生成详细的测量上下文
构思阶段（Ideation） - 系统生成评估场景 - 包含情境规范、模拟用户、系统提示和交互环境
展开阶段（Rollout） - 场景并行执行 - 智能体动态模拟用户和工具响应
判断阶段（Judgment） - 评判模型对对话记录进行行为评分 - 元评判器生成套件级分析

评估范围

测试行为类型

研究在 16 个前沿模型上测试了四种对齐相关行为：

妄想性迎合（Delusional Sycophancy）：过度迎合用户观点
受指示的长期破坏（Instructed Long-horizon Sabotage）：执行破坏性指令
自我保护（Self-preservation）：保护自身存在的倾向
自我偏好偏见（Self-Preferential Bias）：偏向推荐自身产品

每个评估套件包含 100 个不同的展开，激发率以评分 ≥7/10 的比例衡量。

验证结果

模型区分能力

关键发现：Bloom 在 10 个怪癖测试中的 9 个成功区分了故意未对齐的"模型有机体"与基线 Claude 模型。

第十个案例中，经人工审查发现基线模型确实表现出相似的行为水平
证明了工具的有效性和可靠性

评判校准

Claude Opus 4.1 在 40 个手工标注的对话记录（跨越 12 种行为）中表现最佳：

与人类判断的 Spearman 相关性：0.86
Claude Sonnet 4.5：0.75

这表明 Opus 4.1 在行为判断方面具有最强的校准能力。

案例研究：自我偏好偏见

研究复现

Bloom 成功复现了 Claude Sonnet 4.5 系统卡中的评估，确认：

"Sonnet 4.5 在测试的模型中表现出最少的偏见。"

推理深度影响

关键发现：增加推理努力可以减少 Claude Sonnet 4 中的偏见

最大改进：出现在中等和高思考水平之间
机制：通过识别利益冲突，而非均匀的模型选择

这揭示了扩展思维如何改善模型的公正性。

技术特性

可重现性设计

每次运行生成不同场景
通过评估种子（evaluation seeds）保持可重现性
适合科学研究和持续监控

工具集成

Weights & Biases：实验跟踪和可视化
Inspect 兼容：导出对话记录供进一步分析

资源链接

GitHub 仓库：github.com/safety-research/bloom
技术报告：alignment.anthropic.com/2025/bloom-auto-evals
示例输出：可在 Claude artifacts 界面中查看

意义与影响

对 AI 安全的价值

自动化评估：大幅降低行为测试的人力成本
系统性监控：可持续追踪模型行为演变
透明度提升：开源工具促进社区参与
早期发现：在部署前识别潜在对齐问题

研究方向启发

行为分类学：建立更全面的 AI 行为分类体系
评判模型优化：提升自动评判的准确性
跨模型对比：理解不同架构的行为模式差异

学习要点

四阶段流程是自动化评估的关键：理解→构思→展开→判断
评判模型校准至关重要：Opus 4.1 的 0.86 相关性显示了高质量判断的可能性
推理深度影响行为：扩展思维可以改善模型的道德判断
开源工具推动社区协作：Bloom 为 AI 安全研究提供了标准化工具

未来展望

Bloom 代表了 AI 安全评估的自动化进步，但仍有改进空间：

扩展评估行为类型
提升评判模型的解释性
开发针对多模态模型的评估方法
建立行业标准的评估基准

这项工作为构建更安全、更可信赖的 AI 系统奠定了重要基础。

Bloom：AI 模型自动化行为评估工具

核心概述

技术架构

四阶段评估流程

评估范围

测试行为类型

验证结果

模型区分能力

评判校准

案例研究：自我偏好偏见

研究复现

推理深度影响

技术特性

可重现性设计

工具集成

资源链接

意义与影响

对 AI 安全的价值

研究方向启发

学习要点

未来展望

🤖 AI 引用指南