下一代宪法分类器：更高效地防护通用越狱攻击

原文链接： https://www.anthropic.com/research/next-generation-constitutional-classifiers

发布日期： 2026 年 1 月 9 日

整理日期： 2026-02-10

整理者： Panda

下一代宪法分类器：更高效地防护通用越狱攻击

摘要

Anthropic 发布了改进的安全系统，在大幅降低计算开销的同时加强了对越狱攻击的防御。该系统在无害查询上的拒绝率仅为 0.05%，相比原始分类器系统下降了 87%。

核心发现

效率提升

无害查询拒绝率：0.05%（相比原系统降低 87%）
计算开销：约 1%（利用模型内部激活"几乎免费"地复用现有计算）

安全性增强

红队测试：1,700+ 小时，198,000 次攻击尝试
高风险漏洞：仅发现 1 个
通用越狱：未发现任何通用越狱方法
检测率：0.005 每千次查询——迄今为止最低

技术创新

采用 两阶段级联架构：

第一阶段：轻量级探针

快速筛选所有流量
使用模型内部激活进行检测
几乎无额外计算成本

第二阶段：集成分类器

对标记的交互进行深度分析
检查对话双方，而不仅仅是输出
更全面的上下文理解

设计理念

这一设计利用可解释性研究（interpretability research）的成果，复用现有神经网络计算，实现"几乎免费"的安全检查。

关键优势

高效性：计算开销仅约 1%
准确性：误报率极低（0.05%）
鲁棒性：经过大规模红队测试验证
可扩展性：适用于生产环境

仍存在的挑战

宪法分类器架构

图：Constitutional Classifiers++ 的架构图，展示两阶段级联设计。

研究人员识别出两类持续存在的漏洞：

1. 重构攻击（Reconstruction Attacks）

将有害内容分片
逃避单次检测

2. 输出混淆（Output Obfuscation）

通过隐喻伪装响应
使用编码语言

实践意义

提高用户体验：大幅降低误报率，减少对正常使用的干扰
降低成本：1% 的开销使得安全检查在生产环境中可持续
增强安全性：经过严格红队测试，显著提升防御能力

未来方向

继续研究重构攻击和输出混淆的防御方法
进一步降低误报率
扩展到更多语言和场景

元数据

原文链接：https://www.anthropic.com/research/next-generation-constitutional-classifiers
发布日期：2026 年 1 月 9 日

下一代宪法分类器：更高效地防护通用越狱攻击

摘要

核心发现

效率提升

安全性增强

技术创新

第一阶段：轻量级探针

第二阶段：集成分类器

设计理念

关键优势

仍存在的挑战

1. 重构攻击（Reconstruction Attacks）

2. 输出混淆（Output Obfuscation）

实践意义

未来方向

元数据

🤖 AI 引用指南