近日,随着 Meta 公司在一场关于版权的集体诉讼中披露的文件浮出水面,该公司利用一个名为 Library Genesis(LibGen)的盗版电子书图书馆来训练其最新的 AI 聊天机器人 Llama3的消息引发了广泛关注。这些文件显示,Meta 的工程师曾讨论过利用 LibGen 这一 “影子图书馆” 的潜在风险,尤其是在版权和数据拥有权问题日益突出的背景下。尽管存在潜在的负面影响和舆论风险,Meta 的首席执行官马克・扎克伯格依然批准了这一决定。

image

图源备注:图片由AI生成,图片授权服务商Midjourney

在法庭的要求下,Meta 内部关于使用 LibGen 数据集的机密对话记录被解密,文件显示,Meta 的高管在与 AI 研究团队的讨论中明确表示 LibGen 的数据是 “我们知道是盗版的”,并同意使用该数据来提高 Llama3的性能。一封邮件中,Meta 的产品管理总监 Sony Theakanath 指出,虽然使用 LibGen 的决定引发了舆论风险,但其他 AI 公司也在使用类似的数据,这使得 Meta 的团队感到这条路并非孤例。

更令人担忧的是,Meta 的员工还讨论了如何处理和过滤 LibGen 中的文本,以去除版权标识,如 ISBN 和版权声明。内部备忘录称,LibGen 提供的材料 “质量高且文档较长,非常适合学习特别专业的知识”。这表明 Meta 似乎试图隐蔽其使用未经授权的内容。

此外,Meta 的员工还在邮件中提到,直接使用公司 IP 地址进行种子下载可能不妥,并对这一行为表示担忧。然而,在扎克伯格 “从高层推动” 使用 LibGen 数据集的情况下,Meta 在 AI 竞赛中的求胜心态显露无遗。这一事件也再次引发了外界对大型科技公司在版权问题上的关注与质疑。

这一版权诉讼的结果可能会对其他正在进行的类似案件产生重要影响,尤其是涉及图像、音乐和文学等创作作品的使用问题。随着科技公司对原创内容的需求不断增加,原创内容创作者的权益将成为关注的焦点。