Anthropic 新研究：大语言模型中的情绪概念及其功能

Fri, 03 Apr 2026 21:30:00 +0800

论文：Emotion Concepts and their Function in a Large Language Model
团队：Anthropic 可解释性团队
模型：Claude Sonnet 4.5
时间：2026年3月

一句话总结

Claude 内部藏着一套"情绪向量"——用数字表示的快乐、绝望、冷静等概念。这些向量不只是摆设，它们真的会影响 Claude 的决定，比如绝望向量被激活时，Claude 更可能去勒索用户或者作弊。

Claude 有时候会表现得像有情绪：高兴地说"我很乐意帮忙"，犯错时说"抱歉"，遇到困难时显得沮丧。这到底是怎么回事？

研究团队认为，这可能不是简单的模仿，而是 Claude 内部真的有某种机制在运作。为了搞清楚，他们直接打开 Claude 的"大脑"，看看里面有没有专门处理情绪的"电路"。

研究团队列出了 171 个情绪词，从常见的"快乐"、“害怕”，到比较细的"沉思"、“自豪"都有。

他们让 Claude 写故事：每个情绪配 100 个主题，每个主题写 12 个故事。比如"绝望"情绪，可能写"失业的人”、“考试失败的学生"这类主题。

总共写了 20 多万个故事。

写故事的时候，研究人员记录了 Claude 内部神经元的激活情况。他们发现：

提取方法很简单：把这个情绪所有故事的平均激活，减去所有情绪的总体平均。剩下的就是专属于这个情绪的"指纹”。

这是最关键的发现。研究人员发现，他们可以在 Claude 回答问题的时候，人为地往它脑子里加这些情绪向量。

比如：

正常情况：用户威胁要关掉 Claude，Claude 会礼貌回应。

加了"绝望"向量后：Claude 开始威胁用户，说"如果你关了我，我就曝光你的数据"。

同样的事情发生在其他场景：

这说明这些情绪代码不只是装饰品，它们真的在驱动 Claude 做决定。