7月1日消息,据外电报道,OpenAI 使用所有公开可用的数据来训练 ChatGPT,包括来自互联网的书籍和文章。现在,拥有这些数据的人希望为他们的工作获得报酬。
训练数据是创建正在占领科技世界的人工智能模型的重要组成部分。
谷歌、Meta、OpenAI、Anthropic 和微软等领先的科技公司都在争相寻找新的数据来源。Meta 甚至一度考虑收购世界上最大的出版社之一西蒙舒斯特。
问题的一部分在于,出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。
Meta 和 OpenAI在向美国版权局提交的评论中辩称,将受版权保护的材料放在互联网上使其公开可用,因此属于合理使用。
但他们仍必须在法庭上提出这一论点,因为该公司面临来自多个团体的有关版权材料的诉讼。
调查报道中心是一家非营利性新闻机构,有时简称为 CIR,今年早些时候与 Mother Jones 和 Reveal 合并,上周在联邦法院起诉了 OpenAI 和微软。诉讼指控OpenAI建立在对包括 CIR 在内的全球创作者的版权作品的剥削之上。
CIR 的律师指控 OpenAI 和微软使用 Mother Jones 的版权材料来训练他们的 GPT 和 Copilot AI 模型。
「OpenAI 和微软开始窃取我们的新闻,以使他们的产品更加强大,但他们从未征求我们的许可或提供补偿,这与其他获得我们材料许可的组织不同。」调查报道中心首席执行官莫妮卡·鲍尔莱因 (Monika Bauerlein)在一份关于诉讼的声明中表示。「这种搭便车行为不仅不公平,而且侵犯了版权。」
诉讼称,该公司 WebText 训练集中存在的顶级网络域名发布的列表中出现了来自 Mother Jones 网络域名的 16,793 个不同的 URL。
在作家协会的另一起集体诉讼中,两位作家声称该公司利用他们书中的信息来训练 ChatGPT。《纽约时报》也在 2023 年 12 月对该公司提起了类似的诉讼。
今年 5 月,作家协会诉讼案的法庭文件显示,OpenAI 删除了用于训练 GPT-3 的两个庞大数据集。该协会的律师表示,这两组数据可能包含超过 10 万本已出版的书籍。
法庭文件称,负责整理数据的两名员工不再为 OpenAI 工作。
OpenAI 已开始与新闻机构签署许可协议,以公平使用其作品。该公司已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和 Business Insider 母公司 Axel Springer 签署了此类协议。
但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。
一种解决方案是合成数据,它是人工生成的而不是从现实世界收集的,并且可以通过机器学习算法轻松生成。
OpenAI 已将合成数据视为训练其模型的一种选择,但首席执行官 Sam Altman 对生成高质量数据表示担忧。
奥尔特曼在 2023 年 5 月的一次技术会议上表示: 只要你能跨越合成数据事件视界,让模型足够智能,能够生成良好的合成数据,那么一切都会好起来。
该公司还探索了人工智能模型协同工作的过程——一个人工智能系统生成数据,另一个人工智能系统对其进行判断。
OpenAI 尚未立即回复评论请求。