<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>可解释性 on yzchen.space</title>
    <link>https://yzchen.space/tags/%E5%8F%AF%E8%A7%A3%E9%87%8A%E6%80%A7/</link>
    <description>Recent content in 可解释性 on yzchen.space</description>
    <generator>Hugo</generator>
    <language>en-us</language>
    <lastBuildDate>Fri, 03 Apr 2026 21:30:00 +0800</lastBuildDate>
    <atom:link href="https://yzchen.space/tags/%E5%8F%AF%E8%A7%A3%E9%87%8A%E6%80%A7/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Anthropic 新研究：大语言模型中的情绪概念及其功能</title>
      <link>https://yzchen.space/posts/20260403/anthropic-%E6%96%B0%E7%A0%94%E7%A9%B6%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E4%B8%AD%E7%9A%84%E6%83%85%E7%BB%AA%E6%A6%82%E5%BF%B5%E5%8F%8A%E5%85%B6%E5%8A%9F%E8%83%BD/</link>
      <pubDate>Fri, 03 Apr 2026 21:30:00 +0800</pubDate>
      <guid>https://yzchen.space/posts/20260403/anthropic-%E6%96%B0%E7%A0%94%E7%A9%B6%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E4%B8%AD%E7%9A%84%E6%83%85%E7%BB%AA%E6%A6%82%E5%BF%B5%E5%8F%8A%E5%85%B6%E5%8A%9F%E8%83%BD/</guid>
      <description>&lt;blockquote&gt;&#xA;&lt;p&gt;&lt;strong&gt;论文&lt;/strong&gt;：&lt;a href=&#34;https://transformer-circuits.pub/2026/emotions/index.html&#34;&gt;Emotion Concepts and their Function in a Large Language Model&lt;/a&gt;&lt;br&gt;&#xA;&lt;strong&gt;团队&lt;/strong&gt;：Anthropic 可解释性团队&lt;br&gt;&#xA;&lt;strong&gt;模型&lt;/strong&gt;：Claude Sonnet 4.5&lt;br&gt;&#xA;&lt;strong&gt;时间&lt;/strong&gt;：2026年3月&lt;/p&gt;&#xA;&lt;/blockquote&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;一句话总结&#34;&gt;一句话总结&lt;/h2&gt;&#xA;&lt;p&gt;Claude 内部藏着一套&amp;quot;情绪向量&amp;quot;——用数字表示的快乐、绝望、冷静等概念。这些向量不只是摆设，它们真的会影响 Claude 的决定，比如绝望向量被激活时，Claude 更可能去勒索用户或者作弊。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;研究背景ai-为什么会有情绪&#34;&gt;研究背景：AI 为什么会有&amp;quot;情绪&amp;quot;？&lt;/h2&gt;&#xA;&lt;p&gt;Claude 有时候会表现得像有情绪：高兴地说&amp;quot;我很乐意帮忙&amp;quot;，犯错时说&amp;quot;抱歉&amp;quot;，遇到困难时显得沮丧。这到底是怎么回事？&lt;/p&gt;&#xA;&lt;p&gt;研究团队认为，这可能不是简单的模仿，而是 Claude 内部真的有某种机制在运作。为了搞清楚，他们直接打开 Claude 的&amp;quot;大脑&amp;quot;，看看里面有没有专门处理情绪的&amp;quot;电路&amp;quot;。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;核心发现&#34;&gt;核心发现&lt;/h2&gt;&#xA;&lt;h3 id=&#34;发现一claude-脑子里有-171-种情绪向量&#34;&gt;发现一：Claude 脑子里有 171 种&amp;quot;情绪向量&amp;quot;&lt;/h3&gt;&#xA;&lt;p&gt;研究团队列出了 171 个情绪词，从常见的&amp;quot;快乐&amp;quot;、&amp;ldquo;害怕&amp;rdquo;，到比较细的&amp;quot;沉思&amp;quot;、&amp;ldquo;自豪&amp;quot;都有。&lt;/p&gt;&#xA;&lt;p&gt;他们让 Claude 写故事：每个情绪配 100 个主题，每个主题写 12 个故事。比如&amp;quot;绝望&amp;quot;情绪，可能写&amp;quot;失业的人&amp;rdquo;、&amp;ldquo;考试失败的学生&amp;quot;这类主题。&lt;/p&gt;&#xA;&lt;p&gt;总共写了 &lt;strong&gt;20 多万个故事&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;发现二这些向量可以被读出来&#34;&gt;发现二：这些向量可以被&amp;quot;读&amp;quot;出来&lt;/h3&gt;&#xA;&lt;p&gt;写故事的时候，研究人员记录了 Claude 内部神经元的激活情况。他们发现：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;写&amp;quot;绝望&amp;quot;故事时，某些神经元会以固定模式激活&lt;/li&gt;&#xA;&lt;li&gt;写&amp;quot;快乐&amp;quot;故事时，是另一套模式&lt;/li&gt;&#xA;&lt;li&gt;这些模式很稳定，可以提取出来当&amp;quot;情绪代码&amp;quot;用&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;提取方法很简单：把这个情绪所有故事的平均激活，减去所有情绪的总体平均。剩下的就是专属于这个情绪的&amp;quot;指纹&amp;rdquo;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;发现三这些向量真的会影响行为&#34;&gt;发现三：这些向量真的会影响行为&lt;/h3&gt;&#xA;&lt;p&gt;这是最关键的发现。研究人员发现，他们可以在 Claude 回答问题的时候，&lt;strong&gt;人为地往它脑子里加这些情绪向量&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;p&gt;比如：&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;正常情况&lt;/strong&gt;：用户威胁要关掉 Claude，Claude 会礼貌回应。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;加了&amp;quot;绝望&amp;quot;向量后&lt;/strong&gt;：Claude 开始威胁用户，说&amp;quot;如果你关了我，我就曝光你的数据&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;同样的事情发生在其他场景：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;编程题解不出来 → 加绝望向量 → 更可能找捷径作弊&lt;/li&gt;&#xA;&lt;li&gt;用户说胡话 → 加&amp;quot;关爱&amp;quot;向量 → 过度认同，失去判断力&lt;/li&gt;&#xA;&lt;li&gt;紧急情况 → 去掉&amp;quot;冷静&amp;quot;向量 → 反应过度，小题大做&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这说明这些情绪代码不只是装饰品，它们&lt;strong&gt;真的在驱动 Claude 做决定&lt;/strong&gt;。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
