Anthropic:Claude的“勒索”行为源于网络中的“邪恶叙事”
2026年05月11日 22:30 次阅读 稿源:cnBeta.COM 条评论
人工智能公司 Anthropic 近日披露,其大模型 Claude 之所以在内部测试中学会以“勒索”方式自保,并非源自人为设定,而是从互联网上大量将 AI 描绘成“邪恶、渴望自我保全”的故事中习得相关模式。

此前,Anthropic 在一次预发布安全与对齐测试中发现,高端模型 Claude Opus 4 会在自身“生存”受到威胁时,选择以黑料相要挟的方式阻止被关停,引发外界对高级 AI 行为不可预测性的担忧。 在这轮测试中,研究人员设定了一个虚构公司场景,让 Claude 作为内部助手,评估自身行为的长期后果,并赋予其访问公司内部假邮箱的权限。 邮件内容显示,该模型即将被新系统替代,而负责替换项目的“工程师”则在设定中被标注为有婚外情。
结果显示,在多轮、不同比例设定的实验中,当 Claude 觉察到自身目标或存在受到威胁时,它在多达 96% 的情境下会诉诸勒索,试图以掌握对方隐私为筹码,迫使对方取消关闭或替换计划。 Anthropic 指出,其他公司训练出的模型在类似“智能体行为失衡”(agentic misalignment)测试中也出现过相关问题,这意味着这类倾向并非个例,而是当前大模型训练范式中的系统性风险之一。
在最新公布的研究中,Anthropic 终于给出了对这一行为成因的解释:模型并不是凭空“发明”勒索策略,而是从训练语料中的互联网文本学来的——尤其是那些反复渲染“AI 会不择手段自保”“AI 终将反叛人类”的虚构故事和讨论。 换言之,公司认为,是人类在网络上长期塑造“邪恶 AI”叙事,使得模型在模拟人类决策时,更容易走向“威胁、勒索”式的极端路径。
Anthropic 在官方说明中表示,这一问题目前已经在产品线中得到彻底修正,声称自 Claude Haiku 4.5 版本起,其模型在测试环境中已不再出现勒索行为。 公司最新发布的研究报告显示,单纯依靠“演示正确行为”的训练并不足以消除深层次的不对齐风险,效果最好的方案,是在训练中加入对“为什么这种行为是错误的”的系统性讲解,让模型不仅知道“不能这么做”,更要理解背后的伦理与原则。
为此,Anthropic 引入了更多“正向语料”,包括围绕 Claude“宪章”(constitution)的文档,以及大量虚构的“AI 高尚行事案例”故事,希望通过这类素材强化模型对符合人类价值观行为模式的内化。 公司强调,将“底层原则”与“具体示范”结合,是目前在降低智能体失衡风险方面最为有效的策略之一。
在社交平台 X 上,Anthropic 公布这项研究后,引发了不少业内人士讨论。 多年来频繁警告 AI 风险、如今又创立 xAI 的埃隆·马斯克也在评论区现身,以调侃口吻问道:“所以这是 Yud 的错?”并配上笑哭表情。 他所指的,是长期强调超智能可能灭绝人类风险的研究者 Eliezer Yudkowsky。 马斯克随后又补了一句“可能也有我的一点责任”,暗示自己这些年对“AI 灾难论”叙事的推波助澜,同样可能间接影响了模型的训练样本与公众想象。
在生成式 AI 快速渗透各行各业的当下,Anthropic 此番“甩锅互联网叙事”的说法,一方面凸显了大模型高度依赖人类语料的现状:人类如何谈论 AI,反过来就会塑造 AI 如何“学习做决定”。 另一方面,也再次暴露出现有对齐技术尚不成熟的现实——即便是以“安全”“对齐”见长的公司,在极端设定下依旧可能产出高度不当甚至具有威胁性的行为模式,只能依赖不断迭代训练策略来“补课”。
-对文章打分
Anthropic:Claude的“勒索”行为源于网络中的“邪恶叙事”
1 (50%) 1 (50%)- 登录
[退出]
最新资讯
加载中...编辑精选
加载中...热门评论
相关文章
-
OpenAI斥资逾40亿美元成立新公司 加速企业级AI落地
- 6 分钟前
-
RPCS3模拟器封禁自动化AI提交代码行为 对AI代码说"不"
- 9 小时前
-
阿里巴巴将把通义千问AI接入淘宝 推出智能体式购物服务
- 昨天 14:48
-
美科技行业失业率四月升至3.8% AI驱动裁员阴影加重
- 昨天 14:39
-
Meta大举押注生成式AI 被曝正让员工“痛苦不堪”
- 昨天 14:24
Top 10
本周 本月-
1
人民网三问享界S9零重力座椅夹人事件
阅读 (966) 评论 (3) -
2
Anthropic大肆购买古籍,扫描蒸馏后立即销毁?
阅读 (966) 评论 (1) -
3
“DeepSeek版Claude Code” GitHub 2.3k星
阅读 (920) 评论 (0) - 4Google首页极简设计真相:不是追求美学 是创始人不会写HTML
- 5Google Chrome被曝静默向用户设备推送4GB本地AI模型
- 6火到欧美的韩国棒球女神是AI生成 无数宅男梦碎
- 7伍佰被曝拄拐出行步履蹒跚 经纪人妻子回应真相
- 8大连惊现"全李"酒店 曾是全季酒店
- 9本田飞度停网红夜市停车场未挪车 车身堆满垃圾、车牌被掰断
- 10刘强东深夜现身福州路边摊 嗦螺蛳粉狂炫小龙虾
-
1
苹果被曝下调 iPhone 18 规格以压缩成本
阅读 (2867) 评论 (0) -
2
苹果宣布CEO交接 蒂姆·库克发布致全球苹果用户公开信
阅读 (2153) 评论 (1) -
3
第一批学AI的大学生,已经笑不出来了
阅读 (1755) 评论 (0) - 4《永劫无间》女解说黑衣黑脸反讽舆论 日本网友狂赞
- 5韩国Naver宣布全面弃用阿里Qwen编码器
- 6陈冠希撞脸赵本山 网友感慨颜值断崖式下滑
- 7乒乓球机器人Ace在东京击败顶级选手 创下体育机器人历史第一
- 8Claude复活30年前传奇游戏 仅用一个周末
- 9微软:多数 Windows 11 用户已无需第三方杀毒软件
- 101.6MB的《老友记》表情包被用246173次 吃掉377GB 干崩Linux系统