来源:环球网
【环球网科技综合报道】4月6日消息,一项由华盛顿大学、哥本哈根大学和斯坦福大学联合发布的研究,为OpenAI涉嫌未经许可使用受版权保护内容训练AI模型的指控提供了新证据。这项研究提出了一种创新方法,可识别通过API提供服务的AI模型“记忆”的训练数据来源,或将加剧OpenAI与版权持有者之间的法律纠纷。
研究团队开发了一种技术,能够通过分析AI模型生成内容中的特定模式,逆向追踪其训练数据的来源。该技术特别针对像OpenAI这样通过API向开发者提供服务的模型,可检测出模型是否“记忆”了特定版权作品中的独特片段。
研究人员表示,这一方法突破了传统版权检测技术的局限,能够识别出模型在训练过程中“吸收”的版权内容,即使这些内容在生成输出时被重组或改写。这一发现为版权持有者提供了新的法律武器,使其能够更精准地证明OpenAI模型存在侵权行为。
事实上,自2023年起,OpenAI已面临多起由作家、程序员等版权持有者提起的集体诉讼。原告方指控该公司未经许可,将书籍、代码库等受版权保护的作品用于训练其AI模型,并从中获利。尽管OpenAI一直援引“合理使用”原则进行抗辩,但原告方认为,美国版权法中并无针对AI训练数据的豁免条款。
此次研究结果被视为对OpenAI抗辩理由的重大挑战。若版权持有者能够利用该技术证明其作品被直接用于训练,OpenAI可能面临更严峻的法律责任。
研究团队强调,该技术并非旨在“钓鱼执法”,而是为版权争议提供客观证据。然而,其潜在应用已引发行业震动。OpenAI等AI公司长期依赖海量数据进行模型训练,若该技术被广泛采用,或将导致其训练数据来源的透明度大幅提升,甚至可能颠覆现有的AI训练合规框架。(青山)