大型语言模型中的涌现内省意识

原文链接： https://www.anthropic.com/research/introspection

发布日期： 2025-10-29

整理日期： 2026-02-10

整理者： Panda

大型语言模型中的涌现内省意识 | Signs of Introspection in Large Language Models

发布日期: 2025-10-29 原文链接: https://www.anthropic.com/research/introspection 分类: Safety & Alignment

本研究探索了大型语言模型（LLMs）是否具备内省能力（introspection）——即模型能否准确识别和报告自身的内部状态与处理过程。研究团队通过多项实验发现：

内省（Introspection）是指系统检查自身内部状态和过程的能力。在人类认知科学中，内省是意识研究的核心话题。对于 AI 系统而言，内省能力意味着：

研究团队设计了多项测试来评估 LLMs 的内省能力：

设置：在对话过程中，模型被要求预测自己在处理某个输入时的内部激活状态。

方法：

结果：

设置：让模型完成推理任务后，要求其解释刚才的思考步骤。

案例：

问题：小明有 5 个苹果，给了小红 2 个，又买了 3 个，现在有几个？

模型答案：6 个

追问：你刚才是怎么计算的？请描述你的推理步骤。