AI训练背后：Anthropic斥资数百万购书却“销毁”，合理吗？

发布时间：2025-06-26 15:00 浏览量：20

近日，人工智能领域的一则新闻引起了广泛关注。据外媒报道，人工智能公司Anthropic被曝出曾投入巨资，将大量实体图书拆解并扫描成数字文件，用于训练其AI助手Claude，这一做法与ChatGPT的训练方式类似。

据悉，这一行为是通过法庭文件公开的。文件中详细描述了Anthropic为了获取训练数据，采取了极端手段：购买大量图书后，拆除装订，整批扫描进系统，随后直接丢弃原件。这一做法引发了版权问题的争议。

然而，令人惊讶的是，法官William Alsup最终裁定，该扫描方式构成合理使用。他的理由是，图书已由Anthropic合法购买，扫描后即刻销毁，且数字文件仅限内部使用，未向外传播。法官认为，这种转换相当于“节省空间”的数字化转化，具有合理使用中的“转化性”特征。

尽管如此，法官也指出，如果Anthropic一开始就遵守这一路径，或许已树立AI合理使用的首个判例。然而，由于公司早期存在盗版行为，这在一定程度上削弱了其合法性。据透露，为了绕开冗长复杂的授权流程，Anthropic的CEO阿莫代伊曾主张使用盗版电子书。

那么，为什么Anthropic要采取如此极端的手段来获取训练数据呢？原因其实很简单：AI训练需要海量优质文本。为了构建大语言模型，研究人员需要将亿万词语输入神经网络，反复训练模型，建立词语与概念之间的关系。而编辑过的书籍和文章，相比网络评论等杂乱信息，能显著提升AI的语言能力。

面对这一需求，AI公司急需出版内容，但通常不愿耗费时间谈判授权。美国的“首次销售原则”提供了法律空间：买下实体书之后，使用者可以自行处理。这就让购买图书成为一种合法的“绕道方案”。Anthropic正是看中了这一点，才选择了大量购买二手书进行扫描。

为了加快数字化进程，Anthropic采用了“破坏式扫描”的方式。他们大量购入图书，拆封、裁剪后整批扫描为机器可读的PDF文件。这一流程耗资数百万美元，但确实为AI助手Claude的训练提供了大量优质文本。

然而，值得注意的是，非破坏性扫描技术早已成熟。例如，Internet Archive就开发出了可保留原书的数字化手段。本月早些时候，OpenAI和微软也宣布与哈佛大学图书馆合作，计划使用近百万本公版书籍训练AI。这些书籍在被数字化的同时依旧妥善保存，既满足了AI训练的需求，又保护了原书的完整性。

相比之下，Anthropic的“破坏式扫描”方式显得过于极端。虽然法官最终裁定其构成合理使用，但这一做法仍然引发了广泛的争议和反思。未来，随着AI技术的不断发展，如何平衡AI训练与版权保护之间的关系，将成为业界和法界共同面临的挑战。

标签：训练 anthropic claude 购书代伊