缓解浏览器使用中的提示注入风险

原文链接： https://www.anthropic.com/research/prompt-injection-defenses

发布日期： 2024 年 11 月 24 日

整理日期： 2026-02-10

整理者： Panda

缓解浏览器使用中的提示注入风险

核心概述

发布时间：2024-11-24 类别：AI 安全研究

Anthropic 发布了关于防御 Claude 免受提示注入攻击的研究。提示注入是指隐藏在网页内容中的恶意指令，可能劫持 AI 智能体。分析聚焦于 Claude Opus 4.5 的改进健壮性和浏览器 AI 系统的实用保护措施。

关键发现

攻击成功率

Claude Opus 4.5 表现：

对抗自适应"Best-of-N"攻击者
攻击成功率：1 %
相比早期版本有实质性改进

虽然 1 % 仍然代表有意义的风险，但这是巨大的安全进步。

核心挑战

浏览器智能体的脆弱性：

"每个网页、嵌入文档、广告和动态加载脚本都代表恶意指令的潜在载体。"

浏览器使用放大了提示注入风险，因为：

攻击面巨大
智能体可以执行多种动作（导航 URL、填写表单、点击按钮、下载文件）
恶意内容可能隐藏在任何地方

防御机制

三大战略方法

1. 强化学习集成

训练方法：

在训练期间将模型暴露于注入攻击
奖励正确识别和拒绝恶意命令的行为
即使指令设计得看似权威

优势：

直接构建到模型能力中
不需要外部系统
可以泛化到新型攻击

2. 分类器改进

扫描系统：

检测嵌入在各种形式中的对抗性命令
隐藏文本
操纵图像
欺骗性 UI 元素
相应调整模型行为

工作流程： 1. 扫描所有进入模型上下文窗口的不可信内容 2. 标记潜在的提示注入 3. 触发额外的安全检查或拒绝机制

3. 红队测试

持续探测：

人类安全研究人员持续探测漏洞
行业范围的竞技场式挑战
补充自动化测试

价值：

发现自动化测试遗漏的攻击向量
保持与攻击者的步调
建立社区安全生态系统

透明度与限制

Anthropic 的承认

诚实评估：

"1 % 的攻击成功率——虽然是显著改进——仍然代表有意义的风险。"

承诺：

透明发布进展
持续投资于演进的防御措施
与社区分享研究成果

技术深度

Best-of-N 攻击

攻击方法：

生成 N 个不同的攻击提示
选择最有效的一个
自适应调整以绕过防御

应对策略：

训练模型识别攻击模式
使用集成防御（分类器 + 强化学习）
持续更新防御机制

多层防御


用户请求
    ↓
[分类器扫描] → 标记可疑内容
    ↓
[模型推理] → 应用训练的拒绝策略
    ↓
[后处理验证] → 最终安全检查
    ↓
执行动作

每一层提供独立的安全屏障。

意义与启示

对 AI 安全的影响

行业标准：

1 % 攻击成功率设定了新的基准
推动其他组织提升安全标准

透明度文化：

公开承认限制
分享防御策略
促进行业协作

对用户的影响

使用建议：

仍需人类监督
不应在高风险场景中完全自动化
验证 AI 的动作和决策

期望管理：

AI 不是完美的
安全是持续的过程
风险无法完全消除

对开发者的影响

最佳实践：

实施多层防御
持续监控和更新
参与红队测试

工具选择：

使用具有强大安全记录的模型
集成分类器和过滤器
建立人类审核流程

未来方向

研究重点

零攻击目标：虽然困难，但是长期目标
新攻击向量：预测和防御未来的攻击方法
可解释性：理解模型为何拒绝某些指令

行业协作

共享威胁情报
标准化安全评估
开源防御工具

学习要点

显著进步：1 % 攻击成功率是重大改进
仍有风险：1 % 在关键应用中仍然太高
多层防御：强化学习 + 分类器 + 红队测试
浏览器挑战：攻击面巨大，每个网页都是潜在威胁
透明承诺：Anthropic 公开限制并持续改进
持续演进：安全是永无止境的竞赛

批判性思考

1 % 的含义

规模影响：

如果每天处理 100 万次请求
1 % 意味着每天 10,000 次成功攻击
在高风险应用中不可接受

上下文依赖：

低风险任务（浏览购物网站）：可接受
高风险任务（访问银行账户）：不可接受

攻防军备竞赛

攻击者优势：

只需成功一次
可以无限尝试
攻击成本低

防御者劣势：

必须防御所有攻击
更新周期较长
平衡可用性与安全性

这是一场永无止境的竞赛。

结论

Anthropic 的研究展示了 AI 安全的显著进步，但也诚实地承认了剩余挑战。1 % 的攻击成功率是技术突破，但对于关键应用仍然不够。

关键教训：

多层防御是必需的
透明度建立信任
人类监督仍然关键
安全是持续的旅程

随着 AI 智能体变得更强大，安全研究的重要性也在增加。Anthropic 的工作为行业设定了标准，但所有参与者都需要贡献才能确保 AI 的安全部署。

缓解浏览器使用中的提示注入风险

缓解浏览器使用中的提示注入风险

核心概述

关键发现

攻击成功率

核心挑战

防御机制

三大战略方法

1. 强化学习集成

2. 分类器改进

3. 红队测试

透明度与限制

Anthropic 的承认

相关资源

工具与文档

技术深度

Best-of-N 攻击

多层防御

意义与启示

对 AI 安全的影响

对用户的影响

对开发者的影响

未来方向

研究重点

行业协作

学习要点

批判性思考

1 % 的含义

攻防军备竞赛

结论

🤖 AI 引用指南