下一代宪法分类器:更高效地防护通用越狱攻击
摘要
Anthropic 发布了改进的安全系统,在大幅降低计算开销的同时加强了对越狱攻击的防御。该系统在无害查询上的拒绝率仅为 0.05%,相比原始分类器系统下降了 87%。
核心发现
效率提升
- 无害查询拒绝率:0.05%(相比原系统降低 87%)
- 计算开销:约 1%(利用模型内部激活"几乎免费"地复用现有计算)
安全性增强
- 红队测试:1,700+ 小时,198,000 次攻击尝试
- 高风险漏洞:仅发现 1 个
- 通用越狱:未发现任何通用越狱方法
- 检测率:0.005 每千次查询——迄今为止最低
技术创新
采用 两阶段级联架构:
第一阶段:轻量级探针
- 快速筛选所有流量
- 使用模型内部激活进行检测
- 几乎无额外计算成本
第二阶段:集成分类器
- 对标记的交互进行深度分析
- 检查对话双方,而不仅仅是输出
- 更全面的上下文理解
设计理念
这一设计利用可解释性研究(interpretability research)的成果,复用现有神经网络计算,实现"几乎免费"的安全检查。
关键优势
- 高效性:计算开销仅约 1%
- 准确性:误报率极低(0.05%)
- 鲁棒性:经过大规模红队测试验证
- 可扩展性:适用于生产环境
仍存在的挑战

图:Constitutional Classifiers++ 的架构图,展示两阶段级联设计。
研究人员识别出两类持续存在的漏洞:
1. 重构攻击(Reconstruction Attacks)
- 将有害内容分片
- 逃避单次检测
2. 输出混淆(Output Obfuscation)
- 通过隐喻伪装响应
- 使用编码语言
实践意义
- 提高用户体验:大幅降低误报率,减少对正常使用的干扰
- 降低成本:1% 的开销使得安全检查在生产环境中可持续
- 增强安全性:经过严格红队测试,显著提升防御能力
未来方向
- 继续研究重构攻击和输出混淆的防御方法
- 进一步降低误报率
- 扩展到更多语言和场景
元数据
- 原文链接:https://www.anthropic.com/research/next-generation-constitutional-classifiers
- 发布日期:2026 年 1 月 9 日