当前位置: 首页 > 科技观察

版权之争:人工智能创作的达摩克利斯之剑

时间:2023-03-21 18:41:10 科技观察

译者JAMESVINCENT|朱献忠1.生成式人工智能越来越火,但其产品的合法性如何?自去年以来,生成式人工智能越来越受欢迎。微软、Adobe和GitHub等公司正在将这项技术整合到他们的产品中;初创公司正在筹集数亿美元来参与竞争;该软件甚至产生了文化影响,文本到图像的AI模型催生了无数模型,因为文化。但仔细聆听任何关于生成式人工智能的行业讨论,你会在私下听到提倡者和批评者都越来越担心地在窃窃私语一个问题:这实际上合法吗?问题的出现是因为生成人工智能系统的训练方式。像大多数机器学习软件一样,它们通过识别和复制数据中的模式来工作。但是因为这些程序用来生成代码、文本、音乐和艺术的训练数据本身就是人类创造的,所以它是从网络上“抓取”出来的,而且这些数据中的大部分本身都以某种方式受到版权保护。对于生活在遥远过去(又名“2010年代”)的AI研究人员来说,这并不是什么大问题。当时,最先进的模型只能生成指甲大小的人脸的模糊黑白图像。这对人类没有明显的威胁。但在2022年,当一个业余爱好者可以使用StableDiffusion等软件在几个小时内复制艺术家的风格时,或者当公司出售AI生成的印刷品和社交媒体过滤器时,这些都是有生命的东西。当涉及到模仿著名设计师时,合法性和道德问题变得更加紧迫。2.生成人工智能模型在受版权保护的数据上进行训练是否合法?以迪士尼插画家HollieMengert为例,她发现自己的艺术风格已被加拿大一名机械工程专业的学生克隆,作为人工智能实验。这名学生下载了蒙塔格特的32首作品,并花费数小时训练了一个可以重现她风格的机器学习模型。正如Monguet告诉技术专家AndyBaio(报告此案例的人):“就个人而言,感觉就像有人在做我所做的工作,使用我所学的——我从2011年开始学习,从艺术学校开始成为一名职业艺术家——并使用它是为了创作我不同意或不允许的艺术。”但这公平吗?蒙塔古特能对此做些什么吗?为了回答这些问题并了解生成式人工智能的法律环境,TheVerge采访了一系列专家,包括律师、分析师和人工智能初创公司的员工。一些人自信地说,这些系统极有可能侵犯版权,并可能在不久的将来面临严重的法律挑战。其他人则持相反的观点:现在生成人工智能中发生的一切都是合法的,任何诉讼都注定要失败。“我看到双方的人都对自己的立场非常有信心,但现实是没有人知道,”一直密切关注生成AI场景的Beo告诉TheVerge采访者。安德烈斯·A·瓜达穆兹(AndresGuadamuz)说:“任何说他们有把握知道法庭上会如何结果的人都是错误的。”这个话题展开。首先,你能否对生成式AI模型的输出进行版权保护?如果是,谁拥有它?其次,如果您拥有用于训练AI的输入的版权,您是否对模型或它创建的内容有任何法律主张?一旦回答了这些问题,就会出现一个更大的问题:您如何应对这项技术的影响?可以或应该对数据收集施加哪些法律限制?那些构建这些系统的人和那些需要数据来创建它们的人之间能否和平相处?让我们一一回答这些问题。3、输出问题:AI模型创造的东西,你能拿到版权吗?至少对于第一个问题,答案并不难。在美国,仅机器生成的作品没有版权保护。但是,如果创作者能够证明其进行了大量的人力投资,版权似乎有可能得到认可。今年9月,美国版权局首次批准了借助文本到图像的AIMidstravel(类似于OpenAI的DALL·E产品的AI艺术品生成软件)生成的漫画书的注册。这部漫画是一部完整的作品:长达18页的故事,包括人物、对话和传统的漫画布局。尽管有报道称美国版权局正在审查其决定,但该漫画的版权登记实际上并未被撤销。审查的一个因素似乎是参与创作漫画的人力投入水平。创作该作品的艺术家克里斯蒂娜·卡什塔诺娃(KristinaKashtanova)告诉ipwatchdog.com,美国版权局要求她“提供我的创作过程的详细信息,以表明在这部图画小说的创作中有大量人类参与。”参与。”(美国版权局本身不对具体案例发表评论。)根据Guadamuz的说法,在向人工智能帮助下生成的作品授予版权时,这将是一个持续存在的问题。“如果你只是输入‘梵高的猫’,我认为这不足以在美国获得版权,”他说。“但如果你开始尝试提示,制作一些图像,开始微调图像,开始使用种子数据,并开始做更多的工程,我完全可以看到这是可版权的。”4.对于人工智能模型输出产品的版权可能取决于人类参与的程度。鉴于此标准,生成式AI模型的绝大多数输出??很可能无法获得版权。它们通常是大量生产的,并带有一些关键字作为提示。但是,一个更复杂的过程会产生一个更好的案例。这些可能包括有争议的作品,例如赢得全国艺术博览会比赛的AI生成版画。在这种情况下,创作者说他花了数周时间磨练线索并手工编辑完成的作品,这表明他付出了相当大的智力投入。计算机科学家乔治·弗朗西切利(GiorgioFranceschelli)曾就人工智能的版权问题撰写过文章,他表示,对于欧盟案例而言,衡量人类输入“特别正确”。在英国——西方AI初创公司关注的另一个重要司法管辖区——法律再次不同。不同寻常的是,英国是为数不多的只为计算机生成的作品提供版权的国家之一,但它认为作者是“为创作作品做出必要安排的人”。同样,存在多个“读者”的问题(这个“人”是模型的开发者还是模型的运营者?),但它优先授予某种版权保护。但最终,Guadamuz警告说,注册版权只是第一步。“美国版权局不是法庭,”他说。“如果你要起诉某人侵犯版权,你需要注册,但最终将由法院决定这是否具有法律效力。”5.输入问题:你能用有版权的数据来训练人工智能模型吗?对于大多数专家来说,关于人工智能和版权的最大问题与用于训练这些模型的数据有关。大多数系统都接受过从网络上获取的大量内容的训练;无论是文本、代码还是图像。例如,StableDiffusion的训练数据集——最大和最有影响力的文本到绘画技术之一——包含来自数百个领域的数十亿张图像;从WordPress和Blogspot上的个人博客到DeviantArt艺术平台,以及Shutterstock和GettyImages等库存图片网站,应有尽有。事实上,生成式AI的训练数据集非常庞大,您很可能已经身处其中。AI研究人员、初创公司和价值数十亿美元的科技公司使用的理由是,这些图像的使用(至少在美国)受到合理使用原则的保护,该原则旨在鼓励使用受版权保护的作品来促进言论自由。范德比尔特法学院教授DanielGervais解释说,在决定某物是否合理使用时有很多考虑因素。Gervais专门研究知识产权法,并撰写了大量关于知识产权法如何与人工智能交叉的文章。然而,他说有两个因素“更为突出”。“使用的目的或性质是什么,对市场的影响是什么。”换句话说:用例是否以某种方式改变了材料的性质(通常被描述为“变革性”使用),以及威胁到他们生计的竞争作品?6.在受版权保护的数据上训练生成式AI可能是合法的,但您可能会以非法方式使用该模型。考虑到这些因素的责任,Gervais表示,受版权保护数据训练的系统“很可能”会被合理使用。但是对于生成的内容,情况就不一定了。换句话说:你可以在别人的数据上训练一个AI模型,但是你用那个模型做的事情可能是侵权的。可以把它想象成用假币去看电影和试图用假币买车之间的区别。考虑到同一个文本转图像AI模型部署在不同的场景中,如果该模型在数百万张图片上进行训练并用于生成新图片,那么构成侵权的可能性很小。在此过程中,训练数据已经转化,输出不会威胁到原创艺术的市场。但是,如果你在某个艺术家的100张照片上对模型进行微调,并生成与他风格相同的图像,那么一个不开心的艺术家可能会对你提出强烈的指控。Gervais说:“如果你给AI10部斯蒂芬金小说,然后说‘写一部斯蒂芬金小说’,那么你就是在直接与斯蒂芬金竞争。这是对AI的合理使用吗?”?可能不是。然而,至关重要的是,在公平使用和不公平使用的两极之间,有无数种情况,其中输入、结果和输出都以不同的方式平衡,并可能以某种方式影响任何法律决定。大多数销售这些服务的公司都知道生成式人工智能公司Wombo的参谋长RyanKhurana说,对于这些差异,他在一封电子邮件中告诉Verge:“故意使用基于版权作品的提示来生成输出……违反了每个主要参与者的服务条款。”对“找出防止模型以侵犯版权的方式使用的方法......,而不是限制训练数据”感兴趣。对于开源文本到图像模型(例如StableDiffusion)尤其如此,它可以被训练并与零监督或过滤一起使用。该公司可能是在保护自己,但也可能是在为侵犯版权的使用提供便利。判断合理使用的另一个变量是训练数据和模型是否由学术研究人员和非营利组织创建。这通常会加强对合理使用的防御,初创公司也知道这一点。例如,StabilityAI并不直接收集模型的训练数据,也不在软件背后训练模型。相反,它资助并协调了学术界的这项工作,而稳定扩散模型则受一所德国大学的委托。这使得StabilityAI可以将模型转变为商业服务(DreamStudio),同时与其发明者保持合法距离。Baio将这种做法称为“AI数据清理”。他指出,这种方法以前曾用于创建面部识别AI软件,并以MegaFace为例,这是华盛顿大学的研究人员通过从Flickr抓取照片而编制的数据集。“学术研究人员获取数据,对其进行清理,然后由商业公司使用,”Beo说。这些数据——包括数百万张个人照片——掌握在“面部识别公司ClearviewAI、执法部门、部门和中国政府”手中。这种久经考验的清理过程可能有助于保护生成人工智能模型的创建者免于承担责任。然而,所有这一切还有一个最后的转折点,正如Gervais指出的那样,由于最高法院正在审理涉及安迪·沃霍尔(AndyWarhol)和PrinceVariety的案件,目前对合理使用的解释可能会在未来几个月内发生。案件涉及沃霍尔使用Prince的照片创作艺术品。这是合理使用还是侵犯版权?“最高法院经常被不当使用,所以当他们这样做时,他们通常会做一些大事。我认为他们也会在这里这样做,”Gervais说。“而且,在等待最高法院修改法律的同时,说任何事情都是既定法律是有风险的。”7.艺术家与人工智能公司如何和解?即使发现人工智能生成模型的训练被合理使用,这也很难解决这个领域。这不会平息艺术家的愤怒,因为他们的作品被用来培养商业模式,也不一定适用于生成人工智能的其他领域,例如代码和音乐。考虑到这一点,问题是:可以引入哪些补救措施,技术或其他方式,让生成人工智能蓬勃发展,同时提供信贷或对那些使该领域成为可能的创作者的补偿?最明显的建议是许可数据并为其创作者付费。但对某些人来说,这会扼杀该行业。♂(公平学习)的作者BryanCasey和MarkLemley表示,训练数据集如此之大以至于“没有任何合理的选择来授权所有底层照片、视频、音频文件或文本用于新目的”。他们争辩说,允许任何版权主张,“等同于说版权所有者没有得到报酬,根本不允许使用。允许“公平学习”,正如他们所说,不仅鼓励创新,而且允许用于开发更好的人工智能系统。然而,其他人指出,我们已经解决了类似规模和复杂性的版权问题,并且可以再次这样做。TheVerge采访的几位专家引用了与音乐盗版时代的比较,当文件-共享程序建立在大规模侵犯版权的基础上,并在法律挑战导致新协议尊重版权之前蓬勃发展。本月早些时候,MatthewButterick告诉Verge:“所以,在2000年代初期,你有Napster,每个人都喜欢它,但它完全是非法的。今天,我们有像Spotify和iTunes这样的公司。”目前,MatthewButrick是一名律师,起诉公司收集数据以训练人工智能模型。“这些系统是如何产生的?通过公司许可交易并合法引入内容。所有利益相关者都参与其中并使其发挥作用。对我来说,人工智能不会发生这样的事情的想法是一场灾难。”8.公司和研究人员已经在尝试补偿创作者的方法。Wombo的RyanKhurana预测了类似的结果。“音乐拥有迄今为止最复杂的版权规则,因为许可类型不同,权利持有人种类繁多,涉及的中介机构也多种多样,”他告诉Verge。“鉴于围绕人工智能的法律问题的细微差别。不同的是,我认为整个生成领域会演变成一个类似音乐的许可系统。”其他替代方案也正在试验中。例如,Shutterstock表示它计划设立一个基金来补偿那些将他们的作品卖给AI公司以训练他们的模型的个人,而DeviantArt则为网络上共享的图像创建了一个元数据标签,警告AI研究人员不要伪造其内容。(至少有一个小型社交网络Cohost已经在其网站上使用了标签,并表示如果发现研究人员不计后果地删除其图像,它“不会排除法律诉讼”。)然而,这些方法遇到了来自不同艺术领域的挑战社区中的团体。一次性许可费可以弥补失去的生计吗?现在部署的无刮痕标签如何帮助那些作品已经被用于训练商业人工智能系统的艺术家?对于许多创作者来说,损害似乎已经造成。但人工智能初创公司至少正在为未来提出新的方法。一个明显的进步是,AI研究人员只需要在不可能侵犯版权的地方创建数据库——因为这些材料已获得适当许可,或者因为它是为AI培训的特定目的而创建的。一个这样的例子是“TheStack”——一个用于训练人工智能的数据集,专门设计用来避免侵犯版权的指控。它仅包含具有最宽松开源许可证的代码,并为开发人员提供了一种根据请求删除数据的简便方法。它的创造者说他们的模型可以在整个行业中使用。“TheStack的方法绝对可以适用于其他媒体,”与合作伙伴ServiceNow共同创建TheStack的HuggingFace机器学习和社会总监YacineJernite告诉TheVerge。“这是探索广泛同意机制的重要第一步,在考虑从中提取人工智能训练数据的平台规则时,这种机制最有效。”Jernite表示,HuggingFace希望帮助创造AI研究人员对待如何对待创造者的“根本转变”。但到目前为止,该公司的做法仍然很少见。9.接下来会发生什么?不管我们在这些法律问题上的立场如何,生成人工智能领域的各种参与者已经在做一些准备。从这项技术中获利数百万的公司正在巩固自己的立场:反复声称他们所做的一切都是合法的(同时可能希望没有人真正质疑这一说法)。而在“无人区”的另一端,版权方也只是做出了初步的表态,并没有完全付诸行动。GettyImages最近禁止了AI内容,因为客户存在潜在的法律风险(首席执行官CraigPeters上个月告诉TheVerge):“我不认为这是负责任的事情;相反,我认为这可能是非法的)。音乐行业贸易组织RIAA声称,人工智能驱动的音乐混音器和提取器侵犯了会员的版权(尽管他们尚未发起任何实际的法律挑战)。然而,随着近期针对微软、GitHub和OpenAI的集体诉讼,AI版权战的第一枪已经打响。该案指控这三家公司在未经适当许可的情况下故意通过AI编码助手Copilot进行复制。开源代码。在接受TheVerge采访时,诉讼当事人的律师表示,这可能为整个生成人工智能领域开创先例。“然而,一旦真相大白,我想官司就会满天飞。”与此同时,Guadamuz和Baio都表示,他们对没有更多相关的法律挑战感到惊讶。“老实说,我很吃惊,”瓜达穆兹说。“但我认为部分原因是因为这些行业害怕成为第一个输家(在诉讼中)。然而,一旦有人揭露真相,我认为诉讼就会开始四起。”Baio说,一个困难是许多受这项技术影响最大的人——艺术家等——根本不适合发起法律挑战。“他们没有资源,”他说。“这类诉讼非常昂贵且耗时,只有当你知道自己会赢时才会去。这就是为什么我一直在考虑第一批围绕AI艺术的诉讼将来自库存图片网站。他们似乎准备从这项技术中损失惨重,他们可以清楚地证明他们的庞大语料库被用来训练这些模型,并且他们有资金将其告上法庭,”Guadamuz同意道。“每个人都知道这将是多么昂贵,”他说。“无论谁提起诉讼,都会在下级法院做出决定,然后他们会上诉,然后他们会再次上诉,最终,它可能会一直上诉到最高法院。”链接:https://www.theverge.com/23444685/generative-ai-copyright-infringement-legal-fair-use-training-data译者简介朱宪忠,社区编辑,专家博主,讲师,某大学计算机教师Weifang,自由编程的老手。