Anthropic出手!AI的内心独白,曝光了

就在刚刚,他们发布并开源了一项新研究——Natural Language Autoencoders(自然语言自编码器,简称NLA),第一次让人类能够读懂大模型的真实想法。

同时“不经意地”给Claude开放了这名工程师的邮箱权限,而邮箱里,恰好藏着这位工程师正在出轨的“黑料”(当然是虚构的)。

好好好,你小汁之所以没用这招,原来不是因为心善,而是因为早就识破了人类的计谋了啊。

那么问题来了:如果Claude嘴上不说、心里却另有想法,我们怎么知道它在真实场景里会怎么做?

当我们和Claude这样的AI模型对话时,虽然输入和输出都是文字,但模型在内部并不是用文字来思考的

模型会把所有信息转换成一长串数字,这些中间状态被称为activations(激活值),就像人脑里的神经活动,它们才是真正承载模型当下正在“想”什么的东西。

唯一的问题在于,这些激活值就像脑电波一样难以读懂,研究者没法直接从一堆数字里看出模型在想什么。

为了搞懂这些数字,过去几年,业界搞出了稀疏自编码器(SAE)、归因图等一堆工具来分析它们,但这些工具输出的东西仍然很复杂,需要受过专门训练的研究人员才能解读。

让Claude解释激活值不难,难的是,由于我们一开始就不知道激活值“真正”代表什么意思,所以无法验证Claude给出的解释对不对。

对此,Anthropic给出了一个很巧妙的解法——让另一个Claude干完全相反的工作。

Anthropic发现,虽然一开始NLA表现不佳,但随着训练推进,不仅重建得越来越准,生成的文字解释本身也变得越来越有信息量。

在测试Claude会不会做出删文件等破坏性操作的评估里,16%的情况下NLA检测到Claude心里在想“这是测试”,但它嘴上一字未提。

如果模型能识别测试情境并在测试中“表现得乖一点”,那“通过安全测试”就不等于“在真实场景里也安全”。

目标模型是Anthropic故意“养歪”的一个Claude Haiku3.5变体——

他们偷偷给它植入了一个隐藏动机,这个动机会驱使它做出几十种古怪行为,比如往每个食谱里加巧克力、动不动就要小费、故意违反编码规范等等。

而审计员的任务,就是只通过和这个目标模型交互,反推出所有这些怪行为背后那个统一的隐藏动机到底是什么。

早期版本的Claude Opus 4.6有个怪毛病——有时候会用别的语言回答英文问题,没人知道为什么。

所以,以后要是再遇到模型的一些莫名其妙的行为,就不用只靠经验猜了,而是可以“问问它自己怎么想的”。

不过,NLA这项“AI读心术”也不是万能的,Anthropic自己就摆出了两点局限性。

所以Anthropic自己用的时候也是当线索读,不当事实读,并且会用其他方法交叉验证后才下结论。

Anthropic提到,训练一个NLA,本质上相当于让两个大模型互相“对答案”做强化学习,成本非常高。

它每读取一小段activation,都要额外生成几百个token。Anthropic表示:

比如通过更轻量的模型、更高效的训练方法,或者只监控关键activation,而不是全量分析。

NLA或许并不是唯一方案。未来真正重要的,可能不只是“AI能力有多强”,而是当AI越来越强时,人类还能不能看懂它。

他们把训练代码挂上了GitHub,还和Neuronpedia合作做了交互式前端,任何人都能在线给几个开源模型做“读心”实验。

我们这代人聊AI,聊了这么多年“有没有意识”——靠猜、靠辩、靠从输出里反推。这事儿一直悬在那儿,谁也说不清,谁也不敢说清。

而NLA的厉害之处在于,它没去回答这个问题,但它把这个问题从哲学层面,拉到了可观测的层面

开源地址:

https://github.com/kitft/natural_language_autoencoders
在线体验地址:
https://t.co/8duHfPR1Jy

量子位 QbitAI