AI训练背后:Anthropic斥资数百万购书却“销毁”,合理吗?

发布时间:2025-06-26 15:00  浏览量:1

近日,人工智能领域的一则新闻引起了广泛关注。据外媒报道,人工智能公司Anthropic被曝出曾投入巨资,将大量实体图书拆解并扫描成数字文件,用于训练其AI助手Claude,这一做法与ChatGPT的训练方式类似。

据悉,这一行为是通过法庭文件公开的。文件中详细描述了Anthropic为了获取训练数据,采取了极端手段:购买大量图书后,拆除装订,整批扫描进系统,随后直接丢弃原件。这一做法引发了版权问题的争议。

然而,令人惊讶的是,法官William Alsup最终裁定,该扫描方式构成合理使用。他的理由是,图书已由Anthropic合法购买,扫描后即刻销毁,且数字文件仅限内部使用,未向外传。法官认为,这种转换相当于“节省空间”的数字化转化,具有合理使用中的“转化性”特征。

尽管如此,法官也指出,如果Anthropic一开始就遵守这一路径,或许已树立AI合理使用的首个判例。然而,由于公司早期存在盗版行为,这在一定程度上削弱了其合法性。据透露,为了绕开冗长复杂的授权流程,Anthropic的CEO阿莫代伊曾主张使用盗版电子书。

那么,为什么Anthropic要采取如此极端的手段来获取训练数据呢?原因其实很简单:AI训练需要海量优质文本。为了构建大语言模型,研究人员需要将亿万词语输入神经网络,反复训练模型,建立词语与概念之间的关系。而编辑过的书籍和文章,相比网络评论等杂乱信息,能显著提升AI的语言能力。

面对这一需求,AI公司急需出版内容,但通常不愿耗费时间谈判授权。美国的“首次销售原则”提供了法律空间:买下实体书之后,使用者可以自行处理。这就让购买图书成为一种合法的“绕道方案”。Anthropic正是看中了这一点,才选择了大量购买二手书进行扫描。

为了加快数字化进程,Anthropic采用了“破坏式扫描”的方式。他们大量购入图书,拆封、裁剪后整批扫描为机器可读的PDF文件。这一流程耗资数百万美元,但确实为AI助手Claude的训练提供了大量优质文本。

然而,值得注意的是,非破坏性扫描技术早已成熟。例如,Internet Archive就开发出了可保留原书的数字化手段。本月早些时候,OpenAI和微软也宣布与哈佛大学图书馆合作,计划使用近百万本公版书籍训练AI。这些书籍在被数字化的同时依旧妥善保存,既满足了AI训练的需求,又保护了原书的完整性。

相比之下,Anthropic的“破坏式扫描”方式显得过于极端。虽然法官最终裁定其构成合理使用,但这一做法仍然引发了广泛的争议和反思。未来,随着AI技术的不断发展,如何平衡AI训练与版权保护之间的关系,将成为业界和法界共同面临的挑战。