Anthropic大肆购买古籍,扫描蒸馏后立即销毁?

Anthropic大肆购买古籍,扫描蒸馏后立即销毁?

2026年05月10日 16:26 次阅读 稿源:大厂观察 条评论 Anthropic大肆购买古籍,扫描蒸馏后立即销毁? Anthropic大肆购买古籍,扫描蒸馏后立即销毁?

最近X上有个帖子挺火的。一个叫Sivori的博主发帖说,Anthropic正在购买数百万本书籍,扫描并销毁,因为从法律角度看销毁是最安全的选择。他还提到,这是他20年前读过的Vernor Vinge小说《The Rainbow's End》里的情节。

Anthropic大肆购买古籍,扫描蒸馏后立即销毁?

推文浏览超百万,转发评论一大堆。

小红书上也有人在聊这事,说法都是标题那个夸张风格,什么“A社把人类知识库蒸馏了”“古籍全部没了”。

Anthropic大肆购买古籍,扫描蒸馏后立即销毁?

这事吧,有真有假。真的部分远比小说还魔幻,假的部分也确实被放大了不少。我翻了媒体报道和法院文件,给你们捋一捋。

真事,巴拿马项目确实存在

2026年初,法庭文件曝光了Anthropic一个代号“Project Panama”的内部计划。

中文翻译过来叫巴拿马项目。

这个项目的目标简单粗暴,搞到世界上所有的书。2024年2月,Anthropic挖来了曾参与Google Books项目的Tom Turvey,交给他一个听起来像反派台词的任务,获取“世界上所有的书”。

怎么搞的呢?投入了大量资金,从二手书零售商和Strand这样的实体书店,大量采购实体书。然后拉到仓库里,切掉书脊进行破坏性高速扫描成PDF,剩下的纸质残骸送去回收公司销毁。

Anthropic大肆购买古籍,扫描蒸馏后立即销毁?

A社为什么敢这么干,不违法吗?

Anthropic的法律论证部分依赖于“首次销售原则”,你买了实体书,就有权对这个副本做任何处理,包括销毁。再叠加“合理使用”的多因素判断,合法取得副本、扫描后销毁原件、数字文件仅内部使用不对外分发、且不替代原书市场——法官综合评估了这几条,最终认定构成合理使用。

法官整体倾向认为,这类模式具备较强的fair use抗辩基础。相比直接去盗版网站扒书,法律风险确实低很多。

但实际上,Anthropic也干了盗版的事。这事就复杂了。

巴拿马项目之所以被曝光,是因为Anthropic同时被作家们起诉,他们早期就从LibGen(一个盗版电子书网站)下载了大量书籍用于训练。CEO Dario Amodei管出版商的许可谈判叫“法律/实践/商业上的麻烦”,所以早期干脆用盗版。后来觉得风险太大,才转头搞了实体书破坏性扫描这套方案。

2025年,媒体曾报道Anthropic推进了一项规模约15亿美元的和解方案,针对的是盗版数据集的集体诉讼。注意,这15亿主要指向盗版那笔账,不是为巴拿马项目本身买单。这在AI版权领域被认为是金额最高的和解之一。

法官对“合法购买加扫描训练”这个模式整体持支持态度,如果Anthropic从一开始就走这条路,他们的fair use抗辩会更有力。但先干盗版再转正的做法,至少在道义和舆论上已经把自己的路子走窄了。当然话说回来,AI训练的fair use在美国整体仍然没有最终定论,Meta、OpenAI的案子都还在打,这个领域远没到盖棺定论的时候。

真的和小说情节一毛一样

这确实是最魔幻的部分。

Vernor Vinge在2006年写的小说《The Rainbow's End》里,有一个名为Librareome Project的设定:图书馆用破坏性扫描的方式数字化馆藏,然后销毁纸质书籍。

2026年,Anthropic在现实世界里做了高度相似的事。

科幻作家不是在预言未来,他只是在写一个听起来合理但又够极端的故事。谁知道二十年后的AI公司看了一眼,觉得这是个好主意。

被夸张的部分

不过网上传的那些说法,确实有不少需要纠正的。

第一,不是“珍稀古籍”。Anthropic采购的主要是流通量比较大的二手普通书籍,从大型零售商那里批量拿货。不是孤本、善本,不是什么具有文物价值的东西。真正抗议的主要是作家和出版商协会,因为他们主张版权被侵犯,而不是文博界的文物保护单位——被销毁的只是工业印刷品,不是不可再生的文化遗产。

第二,没有“蒸馏了人类大部分知识库”那么夸张。他们处理了几百万册书没错,但人类历史上出版的书籍以数十亿计。几百万册在这个量级面前,只是很小的一部分。更准确的说法是,他们获取了一部分高质量文本用于训练,不是把人类知识蒸馏了。

第三,做法虽然粗暴,但方向其实挺明确的。Anthropic的联合创始人早在2023年就写过,用书籍训练模型能让AI学会“如何写得更好”,而不是去模仿那些质量参差不齐的网络用语。这个动机本身没什么问题,问题出在执行方式上。

Anthropic为了给AI喂书,雇人切书脊、高速扫描、然后销毁。Claude学会写那些漂亮句子的同时,上百万本实体书变成了回收纸浆。

有用户曾让Claude评价这一事件,Claude给出过一段颇具文学性的回应:「这些销毁行为帮助创造了能够讨论文学、帮人写作、与人类知识对话的我,这层复杂性我还在消化当中。就像是用一座图书馆的灰烬建造起来的一样。

这话说的,看起来确实像蒸馏了不少文学书籍。

但说真的,用灰烬堆积出来的智能,到底能在人类知识的废墟上站多久,谁也不知道。

-

对文章打分

Anthropic大肆购买古籍,扫描蒸馏后立即销毁?

1 (50%) 1 (50%)
  • 登录
Anthropic大肆购买古籍,扫描蒸馏后立即销毁? [退出]

Anthropic大肆购买古籍,扫描蒸馏后立即销毁? 发布
    显示更多评论

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      相关文章

      • SK海力士被传员工人均奖金达610万人民币 官方回应:奖金规模无法预测

        • 昨天 23:13
      • 售价或超4000 定位全球第二 王自如要做智能指环了

        • 昨天 14:24
      • “大空头”伯里警告AI狂热或接近尾声 当前市场酷似2000年科技股泡沫前夕

        • 昨天 14:18
      • 英国未成年人使用假胡子、VPN和家长账户绕过年龄验证限制

        • 5 天前
      • 五一租车提前还车没退款反被索要62元 出租方:优惠减免条件变动

        • 5 天前

      Top 10

      本周 本月
      • 1

        人民网三问享界S9零重力座椅夹人事件

        阅读 (933) 评论 (3)
      • 2

        “DeepSeek版Claude Code” GitHub 2.3k星

        阅读 (908) 评论 (0)
      • 3

        生物圈震撼:00后小哥在客厅完成基因组测序 27亿美金壁垒塌了

        阅读 (797) 评论 (2)
      • 4Google Chrome被曝静默向用户设备推送4GB本地AI模型
      • 5火到欧美的韩国棒球女神是AI生成 无数宅男梦碎
      • 6Google首页极简设计真相:不是追求美学 是创始人不会写HTML
      • 7一图看懂DeepSeek V4与美国顶级AI差距:落后8个月
      • 8伍佰被曝拄拐出行步履蹒跚 经纪人妻子回应真相
      • 9本田飞度停网红夜市停车场未挪车 车身堆满垃圾、车牌被掰断
      • 10大连惊现"全李"酒店 曾是全季酒店
      • 1

        苹果被曝下调 iPhone 18 规格以压缩成本

        阅读 (2844) 评论 (0)
      • 2

        苹果宣布CEO交接 蒂姆·库克发布致全球苹果用户公开信

        阅读 (2147) 评论 (1)
      • 3

        第一批学AI的大学生,已经笑不出来了

        阅读 (1745) 评论 (0)
      • 4《永劫无间》女解说黑衣黑脸反讽舆论 日本网友狂赞
      • 5韩国Naver宣布全面弃用阿里Qwen编码器
      • 6陈冠希撞脸赵本山 网友感慨颜值断崖式下滑
      • 7乒乓球机器人Ace在东京击败顶级选手 创下体育机器人历史第一
      • 8Claude复活30年前传奇游戏 仅用一个周末
      • 9微软:多数 Windows 11 用户已无需第三方杀毒软件
      • 101.6MB的《老友记》表情包被用246173次 吃掉377GB 干崩Linux系统
      招聘