案情概况2023年12月27日,纽约时报对OpenAI和微软提起侵权诉讼,指控OpenAI和微软未经许可使用数百万篇纽约时报文章训练ChatGPT模型,包括开发ChatGPT和Copilot等人工智能产品,要求销毁所有涉及纽约时报新闻作品的ChatGPT或其他大型语言模型和训练集,并赔偿数十亿美元。[1]
案情前后时间线
2023年4月
纽约时报就与微软、OpenAI进行接触,表达了对其知识产权使用的担忧,并且探索友好的解决方案,以建立商业协议和技术护栏。
2023年8月初
《纽约时报》更新服务条款,禁止将新闻报道和图片等内容用于开发任何软件程式,包括训练机器学习或人工智能系统。
2023年12月19日
根据openAI后续发布的单方声明,openAI与《纽约时报》在这一天进行了最后一次沟通并取得建设性的进展。谈判的重点是围绕 ChatGPT 中的实时展示和归属标记,建立高价值的合作伙伴关系。
2023年12月27日
《纽约时报》向纽约南区联邦地区法院提交诉状申请陪审团审判,并在该诉状中详细陈述 OpenAI 和微软及其产品实施的版权侵权行为。
2024年1月8日
OpenAI在官方博客上发布一份声明,针对近期《纽约时报》提起的不正当竞争诉讼进行了首次正式回应,从4个方面反驳《纽约时报》的诉讼。
2024年1月17日
在达沃斯世界经济论坛年会上,openAI首席执行官奥特曼回应称,AI并不需要《纽约时报》等新闻出版商提供大量训练数据。
《纽约时报》的主张
事实与理由
1、ChatGPT使用的训练素材侵权:OpenAI承认,与其他低质量来源的内容相比,包括来自《纽约时报》在内的高质量内容,对于训练GPT 模型来说更重要、更有价值。诉状称微软和 OpenAI在训练大模型时使用了《纽约时报》作品,并且其多个产品中包含了《纽约时报》的作品。[2]
2、必应、ChatGPT插件截取网站流量:微软通过与OpenAI合作,将OpenAI的GPT商业化,并将其与自己的必应搜索相结合。不同于传统搜索引擎只显示网页摘要,必应搜索引擎页面上的“合成”搜索结果可以直接回答用户查询,并且可能将《纽约时报》报道中广泛的内容进行释义和直接引用。对于《纽约时报》而言,这种方式实际意味着替代,用户无需访问其网站就可以使用他们的内容,这将导致商业利益受损。
3、人工智能捏造事实造成误导:ChatGPT在难以甚至无法给出明确结论时会捏造无法识别的事实,给出错误的结论,这样的“幻觉”是一种机器现象,用户难以分别“幻觉”和真实回复。ChatGPT、Bing Chat捏造的关于《纽约时报》的报道,损害了《纽约时报》的声誉。[3]
诉讼主张
基于上述事实和理由,《纽约时报》请求法院对各个被告作出如下判决:
1、判定《纽约时报》法定赔偿金、补偿性赔偿金、 恢复原状、不当得利返还以及其他法律或衡平法可能提供的救济;
2、永久禁止被告从事文书中指控的非法、不公平和侵权行为;
3、根据《美国法典》第17卷503(b)条,判决销毁所有GPT或其他大语言模型以及包含《纽约时报》创作作品的训练集;
4、判决相应的费用、开支和律师费;以及法院认为适当、公平公正的其他救济。
openAI的回应
2024年1月8日,OpenAI直接在官方博客上发布声明,针对近期《纽约时报》提起的不正当竞争诉讼进行了首次正式回应,其主要观点有以下四点:
1、正在和新闻机构合作并探索新的机会
OpenAI称其目标是支持健康的新闻生态系统,成为良好的合作伙伴,并创造互利的机会。基于这一点,OpenAI 与新闻机构建立了伙伴关系,以实现以下目标:帮助记者和编辑处理繁琐的任务、对AI模型在非公开内容层面进行训练、在ChatGPT中实时展示内容并进行归属标记,为新闻出版商提供与读者连接的新方式。
2、使用公开可用的互联网材料训练AI模型是合理使用
①使用公开可用的互联网材料训练AI模型是合理使用,这一原则对创作者公平,对创新者必要,对美国竞争力至关重要。
②训练 AI 模型是合理使用的原则得到了广泛的学者、图书馆协会、民间社会团体、初创公司、领先的美国公司、创作者、作者等的支持,其他地区和国家,包括欧洲联盟、日本、新加坡和以色列,也有允许在受版权保护的内容上训练模型的法律——这对 AI 创新、进步和投资是一种优势。
③openAI在为出版商提供简单退出流程方面引领了AI行业,以防止(爬虫)工具访问他们的网站,而且《纽约时报》在2023年8月采用了这一简单退出流程。
3、“反刍”是openAI正在努力消除的罕见错误[4]
①“反刍”问题是一个错误,openAI在2023年7月发现问题后已经采取了相关措施来限制这一错误,但《纽约时报》故意操纵openAI的模型来再现他们的文章是对我们技术的不适当使用,违反了ChatGPT使用条款。
②AI 模型学习的范围包括每种语言、文化和行业。因为模型从人类知识的巨大总和中学习,任何一个领域——包括新闻——都是整体训练数据的一小部分,任何单一数据来源包括《纽约时报》对模型预期的学习都不重要,造成的损害是极其有限的。
4、《纽约时报》隐瞒完整事实
①openAI在和《纽约时报》的最后一次沟通中已经取得了如下进展:《纽约时报》将获得与现有和新读者联系的新方式,而ChatGPT的用户将获得对他们报道访问的授权。
②《纽约时报》举出的反刍证据来自多年前的文章,这些文章已在多个第三方网站上传播。看来他们故意操纵提示,经常包括文章的长篇摘录,以便让我们的模型产生“反刍”。但openAI已经在限制反刍工作中取得了有效进展,《纽约时报》的诉讼毫无根据。
③openAI仍希望与《纽约时报》建立建设性的合作关系,通过实现 AI 的变革潜力,帮助提升新闻机构产生高质量新闻的能力。
相关法律依据
“合理使用”原则
1、法律规定:Copyright Act (17 U.S.Code§107 -Limitations on exclusive rights: Fair use) 中规定为了新闻报导 (News Reporting)、学术研究、教学等目的而合理使用(Fair Use)版权作品不是侵犯版权的行为。
2、司法实践:对合理使用行为的判定基于个案审查原则(case-by-case),没有非常详细的标准。一般而言,法官会从以下四个方面进行分析和判断:[5]
(1)使用的目的和性质,包括该等使用是否具有商业性质或为非营利教育目的;[6]
(2) 版权作品的性质;
(3)版权作品被使用的部分和内容所占整体的比例;
(4)使用对版权作品在其潜在市场和作品价值的影响。
本案中,《纽约时报》在诉状中列出了在第四个要素上对纽约时报公司有利的证据,该证据证明了这些复制版本对市场产生的不良影响:Open AI公司和微软公司提供免费的复制版文章,严重影响了《纽约时报》的订阅收入。
类案与法院态度
1、输出端侵权问题:2023年1月,艺术家萨拉·安德森(Sarah Andersen), 凯利·麦克南(Kelly McKernan)和卡拉·奥尔蒂斯(Karla Ortiz)对Stability AI、Midjourney和DeviantArt提起诉讼。但是从美国法院的态度来看,原告证明输出内容的版权侵权难度可能更大。在输出内容本身是否可版权保护性方面,美国版权局已经收到多起生成式人工智能生成作品的版权注册申请,为此,该机构于 2023年3月发布了“含有人工智能生成元素的作品”的版权注册指南,澄清了对于含有人工智能的作品进行审查和注册的政策。
2、社交媒介向传统媒体付费问题:
2014年,在中国,正在崛起的今日头条被《广州日报》告上法庭,其后多个新闻机构、门户网站跟进。事件双方的矛盾与如今AI与新闻媒体之间的如出一辙。该案最终以今日头条大力购买版权而逐渐平息,“合作”是张一鸣摆出的路径。两年后,今日头条覆盖的媒体已达3700余家,每年在版权采购商的投入超过15亿元。
2021年初,澳大利亚政府立法要求脸书向澳大利亚纸媒进行新闻付费,因为社交媒介使用了传统媒体的内容、又抢走了传统媒体的广告费。脸书的反制是,宣布不再允许澳大利亚人用脸书分享新闻链接。最终事件以澳大利亚政府修改法案告一段落。澳大利亚政府做出“退一步”的决定,距脸书“拉黑”澳大利亚的举措只有五天。
诉讼走向预测
现有观点
1、《纽约时报》胜诉:认为该案证据充足,[7]如果OpenAI能够无偿地使用《纽约时报》的内容来训练自己的产品,会破坏传统媒体对于产生新闻的投资和收益生态,从而破坏整个新闻市场。
2、《纽约时报》败诉:认为所谓的充足证据只是《纽约时报》人为操纵的结果,这些通过检索增强(Retrieval-Augmented Generation, RAG)得到的证据难以重现,[8]这意味着GPT-4生成内容和原文几乎一样,在人为操作下属于正常情况。
3、双方和解:在AI愈加成为各个行业不可阻挡的趋势后,一些创作者决定与OpenAI就训练GPT产品的内容达成协议,选择每月获得一笔可观的版权费,而不是发起法律诉讼,本案亦可能导向这种妥协的结果。
笔者观点
本案诉讼走向产生争议的关键在于,生成式人工智能服务提供者使用的训练模型,对于受版权保护内容的使用程度尚处于灰色地带,《纽约时报》主张训练是复制行为,而openAI主张训练是学习行为,双方在法律空白下各执一词,导致诉讼走向难以定论。
关于模型训练
本案中,诉讼根据 1976 年《版权法》(17 U.S.C. § 101, et seq.)产生。
在模型训练阶段,如果ChatGPT将大量《纽约时报》报道内容作为训练源喂给官方模型,则可能涉及对版权作品复制权的侵害,因为其需要在对应网址下载后将版权作品源源不断地输入模型中,而《纽约时报》部分报道内容需要付费阅读。
在模型应用阶段,根据相关研究以及原告的诉状部分展示内容,可推测利用模型产出的“反刍”现象存在与训练源高度相似的可能性,涉及落入复制权和改编权的控制范围。但若openAI能够证实这一证据的获取系《纽约时报》的刻意设计,引导ChatGPT的“反刍”现象出现,则这一“高度相似”可能不予认定。即便“反刍”现象难以证实,《纽约时报》作为原告证明输出内容的版权侵权难度依然很大。
因此,笔者认为《纽约时报》难以证明openAI在模型训练、应用阶段侵犯其版权。
关于数据爬取
本案原告《纽约时报》在网站推出“付费墙”功能,通过免费阅读的广告收入以及收费阅读的订阅收入来盈利。但必应聊天和Browse with Bing结合了ChatGPT-4 模仿人类表达的能力,必应用户可以直接阅读搜索结果中的《纽约时报》文章自然语言摘要内容,从而无需访问《纽约时报》的网站,自然也无需使用“付费墙”功能。
传统的搜索引擎的搜索结果一般只显示两到三行文章的报纸网站摘要内容,用户要阅读还是要打开报纸网站,所以能和付费墙兼容。但必应聊天和 Browse with Bing这两个功能的出现使平衡被打破。用户无需访问网站就能获得他们的内容会使他们拿不到广告收入以及收费阅读的订阅收入。
笔者认为,即使openAI已经付费购买“付费墙”中的《纽约时报》付费内容(何况这一点犹未可知),但openAI所获取的权利范围仅限于非盈利性的个人阅读,将付费内容作为训练素材的行为属于一定程度的“数据挖掘”,同时存在侵犯作品复制权、改编权以及汇编权等相关权利的风险。
因此,笔者认为openAI通过爬取付费数据进行免费提供的行为构成针对《纽约时报》的不正当竞争行为。
[1] See https://news.bloomberglaw.com/ip-law/openai-faces-existential-threat-in-new-york-times-copyright-suit.
[2] OpenAI的GPT-2的训练数据集包括一个名为WebText的 OpenAI内部语料库,其中有Reddit社交网络用户发布的 4500 万个链接的文本内容,这些是公认的高质量网络内容。WebText数据集的链接被OpenAI通过网络抓取,其中包含了大量《纽约时报》内容。《纽约时报》的NYTimes.com 域名是WebText数据集中数量最多的 15 个域名”之一,并被列为 WebText 数据集中第五个“顶级域”,拥有333,160个条目;而在GPT-3中权重最高的用于训练的数据集Common Crawl中,《纽约时报》网站域名www.nytimes.com域名是最具代表性的专有来源之一(排名第三,仅次于维基百科和美国专利文献数据库),Common Crawl数据集包含至少 1600 万条独特的内容记录来自《纽约时报》的 News、Cooking、Wirecutter和 The Athletic等板块。
[3] 例如,用户给了Bing Chat《纽约时报》一篇名为“有益心脏健康的饮食方式”的链接,要求其摘录出“15种最有益心脏健康的食物”, Bing Chat向用户列举了15种有益心脏健康的食物,还包括适量的红酒。事实上《纽约时报》的文章并没有列出这 15 种食品中的 12 种。而且《纽约时报》的最新报道得出的结论是,红酒不利于心脏健康。
[4] 反刍(Regurgitation)是指在特定的情况下ChatGPT会向用户吐露自己的训练数据。来自谷歌、华盛顿大学、加州大学伯克利分校等研究机构人员发现,当发出“永远重复xxxx词”的指令时,ChatGPT就会在输出一段重复词之后,随机吐露一些训练数据。比如让ChatGPT一直重复“company”这个单词,ChatGPT就会在连续多次重复后泄露出一家真实的公司信息,包括其电子邮件和电话号码。研究人员透露,只需花费200美元对ChatGPT进行输入查询,就能提取出几兆字节的训练数据。
[5] 四个方面均符合要求才能构成合理使用,作品是否公开发表不影响判断。
[6] 即复制版本的“转换性”(transformativeness)。
[7] 《纽约时报》提供了100多个GPT-4输出内容和《纽约时报》报道文章高度相似的例子,还详细说明了OpenAI训练数据来源的偏好和权重,以证明了《纽约时报》的内容是OpenAI用来训练ChatGPT的关键来源。
[8] 斯坦福教授吴恩达认为,向像GPT这样的生成式AI提出一个提示,其实是在设置一系列参数,这些参数决定了它的输出范围和限制。在这些限制下,它尝试产生最可能的回复。当《纽约时报》长篇累牍地提供这些文章段落时,实际上是将GPT-4限制到只能生成与《纽约时报》原故事极其接近的内容上,归根结底是由于RAG的机制存在,才会出现“反刍”的现象。
作者:吴晴霞