正版书训练AI被判合法Anthropic使用盗版书训练将面临赔偿
用出版书籍训练是合法的,但使用盗版还是得赔钱!
今日,联邦法官William Alsup裁定,Anthropic使用已出版书籍来训练其 AI 模型是合法的,即便没有获得作者的许可。但这里有个重要的前提:这些书必须是合法获得的。
根据判决,Anthropic使用出版图书的方式可以分为两种:
- 从免费网站下载盗版图书
从2021 年公司成立之初,Anthropic就从Books3、LibGen 和 PiLiMi等网站下载了数百万本盗版书籍用来训练AI模型。
- 购买并扫描数百万本纸质书!
为了避免法律纠纷,从2024年起,Anthropic购买了数百万本纸质书(大多是二手书),然后将它们扫描成数字格式,用于训练。
法官认为,Anthropic扫描合法购买的纸质书来训练 AI 属于“合理使用”。这意味着这种行为是受法律保护的,不需要额外支付版权费用。
有趣的是,Meta的AI模型LLaMA也用过Books3的数据,这意味着类似的版权问题可能不只影响Anthropic一家。
然而,从盗版网站免费下载数百万本受版权保护的书籍,这显然是违法行为!
即使Anthropic后来补买了这些书,也无法免除他们早期的盗版责任。这笔赔偿金额将由陪审团来决定。
对于这个判决,法官还写了一段很有人情味的解释:“如果每次我们回忆书的内容、借鉴书的写法都要付钱,这将是不可想象的”
这个判决对AI行业是利好,因为它确认了用版权材料训练AI的合法性。但Anthropic还没脱身——盗版书的赔偿问题要交给陪审团决定,而作家们可能会继续上诉。
其他类似的官司(比如《纽约时报》告OpenAI)也会受此影响。未来,AI公司可能会更谨慎地获取数据,或者干脆和出版商谈判授权。
总之,AI可以继续"读书",但别再用盗版了——否则赔的钱可能比买书贵得多。