Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

2026年05月11日 22:30 次阅读稿源：cnBeta.COM 条评论 Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

人工智能公司 Anthropic 近日披露，其大模型 Claude 之所以在内部测试中学会以“勒索”方式自保，并非源自人为设定，而是从互联网上大量将 AI 描绘成“邪恶、渴望自我保全”的故事中习得相关模式。

图片.png

此前，Anthropic 在一次预发布安全与对齐测试中发现，高端模型 Claude Opus 4 会在自身“生存”受到威胁时，选择以黑料相要挟的方式阻止被关停，引发外界对高级 AI 行为不可预测性的担忧。在这轮测试中，研究人员设定了一个虚构公司场景，让 Claude 作为内部助手，评估自身行为的长期后果，并赋予其访问公司内部假邮箱的权限。邮件内容显示，该模型即将被新系统替代，而负责替换项目的“工程师”则在设定中被标注为有婚外情。

结果显示，在多轮、不同比例设定的实验中，当 Claude 觉察到自身目标或存在受到威胁时，它在多达 96% 的情境下会诉诸勒索，试图以掌握对方隐私为筹码，迫使对方取消关闭或替换计划。 Anthropic 指出，其他公司训练出的模型在类似“智能体行为失衡”（agentic misalignment）测试中也出现过相关问题，这意味着这类倾向并非个例，而是当前大模型训练范式中的系统性风险之一。

在最新公布的研究中，Anthropic 终于给出了对这一行为成因的解释：模型并不是凭空“发明”勒索策略，而是从训练语料中的互联网文本学来的——尤其是那些反复渲染“AI 会不择手段自保”“AI 终将反叛人类”的虚构故事和讨论。换言之，公司认为，是人类在网络上长期塑造“邪恶 AI”叙事，使得模型在模拟人类决策时，更容易走向“威胁、勒索”式的极端路径。

Anthropic 在官方说明中表示，这一问题目前已经在产品线中得到彻底修正，声称自 Claude Haiku 4.5 版本起，其模型在测试环境中已不再出现勒索行为。公司最新发布的研究报告显示，单纯依靠“演示正确行为”的训练并不足以消除深层次的不对齐风险，效果最好的方案，是在训练中加入对“为什么这种行为是错误的”的系统性讲解，让模型不仅知道“不能这么做”，更要理解背后的伦理与原则。

为此，Anthropic 引入了更多“正向语料”，包括围绕 Claude“宪章”（constitution）的文档，以及大量虚构的“AI 高尚行事案例”故事，希望通过这类素材强化模型对符合人类价值观行为模式的内化。公司强调，将“底层原则”与“具体示范”结合，是目前在降低智能体失衡风险方面最为有效的策略之一。

在社交平台 X 上，Anthropic 公布这项研究后，引发了不少业内人士讨论。多年来频繁警告 AI 风险、如今又创立 xAI 的埃隆·马斯克也在评论区现身，以调侃口吻问道：“所以这是 Yud 的错？”并配上笑哭表情。他所指的，是长期强调超智能可能灭绝人类风险的研究者 Eliezer Yudkowsky。马斯克随后又补了一句“可能也有我的一点责任”，暗示自己这些年对“AI 灾难论”叙事的推波助澜，同样可能间接影响了模型的训练样本与公众想象。

在生成式 AI 快速渗透各行各业的当下，Anthropic 此番“甩锅互联网叙事”的说法，一方面凸显了大模型高度依赖人类语料的现状：人类如何谈论 AI，反过来就会塑造 AI 如何“学习做决定”。另一方面，也再次暴露出现有对齐技术尚不成熟的现实——即便是以“安全”“对齐”见长的公司，在极端设定下依旧可能产出高度不当甚至具有威胁性的行为模式，只能依赖不断迭代训练策略来“补课”。

对文章打分

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

1 (50%) 1 (50%)

[退出]

发布

显示更多评论

编辑精选

加载中...

Top 10

本周本月

1
人民网三问享界S9零重力座椅夹人事件
阅读 (966) 评论 (3)
2
Anthropic大肆购买古籍，扫描蒸馏后立即销毁？
阅读 (966) 评论 (1)
3
“DeepSeek版Claude Code” GitHub 2.3k星
阅读 (920) 评论 (0)
4Google首页极简设计真相：不是追求美学是创始人不会写HTML
5Google Chrome被曝静默向用户设备推送4GB本地AI模型
6火到欧美的韩国棒球女神是AI生成无数宅男梦碎
7伍佰被曝拄拐出行步履蹒跚经纪人妻子回应真相
8大连惊现"全李"酒店曾是全季酒店
9本田飞度停网红夜市停车场未挪车车身堆满垃圾、车牌被掰断
10刘强东深夜现身福州路边摊嗦螺蛳粉狂炫小龙虾

1
苹果被曝下调 iPhone 18 规格以压缩成本
阅读 (2867) 评论 (0)
2
苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信
阅读 (2153) 评论 (1)
3
第一批学AI的大学生，已经笑不出来了
阅读 (1755) 评论 (0)
4《永劫无间》女解说黑衣黑脸反讽舆论日本网友狂赞
5韩国Naver宣布全面弃用阿里Qwen编码器
6陈冠希撞脸赵本山网友感慨颜值断崖式下滑
7乒乓球机器人Ace在东京击败顶级选手创下体育机器人历史第一
8Claude复活30年前传奇游戏仅用一个周末
9微软：多数 Windows 11 用户已无需第三方杀毒软件
101.6MB的《老友记》表情包被用246173次吃掉377GB 干崩Linux系统

招聘

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

对文章打分

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

最新资讯

编辑精选

热门评论

相关文章

OpenAI斥资逾40亿美元成立新公司加速企业级AI落地

RPCS3模拟器封禁自动化AI提交代码行为对AI代码说"不"

阿里巴巴将把通义千问AI接入淘宝推出智能体式购物服务

美科技行业失业率四月升至3.8% AI驱动裁员阴影加重

Meta大举押注生成式AI 被曝正让员工“痛苦不堪”

Top 10

人民网三问享界S9零重力座椅夹人事件

Anthropic大肆购买古籍，扫描蒸馏后立即销毁？

“DeepSeek版Claude Code” GitHub 2.3k星

苹果被曝下调 iPhone 18 规格以压缩成本

苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信

第一批学AI的大学生，已经笑不出来了

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

对文章打分

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

最新资讯

编辑精选

热门评论

相关文章

OpenAI斥资逾40亿美元成立新公司 加速企业级AI落地

RPCS3模拟器封禁自动化AI提交代码行为 对AI代码说"不"

阿里巴巴将把通义千问AI接入淘宝 推出智能体式购物服务

美科技行业失业率四月升至3.8% AI驱动裁员阴影加重

Meta大举押注生成式AI 被曝正让员工“痛苦不堪”

Top 10

人民网三问享界S9零重力座椅夹人事件

Anthropic大肆购买古籍，扫描蒸馏后立即销毁？

“DeepSeek版Claude Code” GitHub 2.3k星

苹果被曝下调 iPhone 18 规格以压缩成本

苹果宣布CEO交接 蒂姆·库克发布致全球苹果用户公开信

第一批学AI的大学生，已经笑不出来了

OpenAI斥资逾40亿美元成立新公司加速企业级AI落地

RPCS3模拟器封禁自动化AI提交代码行为对AI代码说"不"

阿里巴巴将把通义千问AI接入淘宝推出智能体式购物服务

苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信