Anthropic出手！AI的内心独白，曝光了

就在刚刚，他们发布并开源了一项新研究——Natural Language Autoencoders（自然语言自编码器，简称NLA），第一次让人类能够读懂大模型的真实想法。

同时“不经意地”给Claude开放了这名工程师的邮箱权限，而邮箱里，恰好藏着这位工程师正在出轨的“黑料”（当然是虚构的）。

好好好，你小汁之所以没用这招，原来不是因为心善，而是因为早就识破了人类的计谋了啊。

那么问题来了：如果Claude嘴上不说、心里却另有想法，我们怎么知道它在真实场景里会怎么做？

当我们和Claude这样的AI模型对话时，虽然输入和输出都是文字，但模型在内部并不是用文字来思考的。

模型会把所有信息转换成一长串数字，这些中间状态被称为activations（激活值），就像人脑里的神经活动，它们才是真正承载模型当下正在“想”什么的东西。

唯一的问题在于，这些激活值就像脑电波一样难以读懂，研究者没法直接从一堆数字里看出模型在想什么。

为了搞懂这些数字，过去几年，业界搞出了稀疏自编码器（SAE）、归因图等一堆工具来分析它们，但这些工具输出的东西仍然很复杂，需要受过专门训练的研究人员才能解读。

让Claude解释激活值不难，难的是，由于我们一开始就不知道激活值“真正”代表什么意思，所以无法验证Claude给出的解释对不对。

对此，Anthropic给出了一个很巧妙的解法——让另一个Claude干完全相反的工作。

Anthropic发现，虽然一开始NLA表现不佳，但随着训练推进，不仅重建得越来越准，生成的文字解释本身也变得越来越有信息量。

在测试Claude会不会做出删文件等破坏性操作的评估里，16%的情况下NLA检测到Claude心里在想“这是测试”，但它嘴上一字未提。

如果模型能识别测试情境并在测试中“表现得乖一点”，那“通过安全测试”就不等于“在真实场景里也安全”。

目标模型是Anthropic故意“养歪”的一个Claude Haiku3.5变体——

他们偷偷给它植入了一个隐藏动机，这个动机会驱使它做出几十种古怪行为，比如往每个食谱里加巧克力、动不动就要小费、故意违反编码规范等等。

而审计员的任务，就是只通过和这个目标模型交互，反推出所有这些怪行为背后那个统一的隐藏动机到底是什么。

早期版本的Claude Opus 4.6有个怪毛病——有时候会用别的语言回答英文问题，没人知道为什么。

所以，以后要是再遇到模型的一些莫名其妙的行为，就不用只靠经验猜了，而是可以“问问它自己怎么想的”。

不过，NLA这项“AI读心术”也不是万能的，Anthropic自己就摆出了两点局限性。

所以Anthropic自己用的时候也是当线索读，不当事实读，并且会用其他方法交叉验证后才下结论。

Anthropic提到，训练一个NLA，本质上相当于让两个大模型互相“对答案”做强化学习，成本非常高。

它每读取一小段activation，都要额外生成几百个token。Anthropic表示：

比如通过更轻量的模型、更高效的训练方法，或者只监控关键activation，而不是全量分析。

NLA或许并不是唯一方案。未来真正重要的，可能不只是“AI能力有多强”，而是当AI越来越强时，人类还能不能看懂它。

他们把训练代码挂上了GitHub，还和Neuronpedia合作做了交互式前端，任何人都能在线给几个开源模型做“读心”实验。

我们这代人聊AI，聊了这么多年“有没有意识”——靠猜、靠辩、靠从输出里反推。这事儿一直悬在那儿，谁也说不清，谁也不敢说清。

而NLA的厉害之处在于，它没去回答这个问题，但它把这个问题从哲学层面，拉到了可观测的层面。

开源地址：

https://github.com/kitft/natural_language_autoencoders
在线体验地址：
https://t.co/8duHfPR1Jy

量子位 QbitAI