本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。副驾驶“抄袭”风波,想必大家瓜都吃够了。这次我们来谈谈严肃的事情。关于未经版权所有者许可在GitHub上托管开源代码的GitHubTrainingCopilot-合法吗?GitHub上托管的代码受GitHub服务条款的约束。那么用托管在GitHub上的开源代码来训练Copilot,GitHub不存在理所当然的侵权问题吗?不然的话,根据国外网友的吃瓜讨论,至少有以下两点争议。让我们一一进行。GitHub是微软的?Copilot虽然是GitHub和OpenAI共同发布的产品,但它并不是GitHub的一部分,而是VSCode编辑器的一个插件。没有VSCode,你根本无法使用Copilot!Copilot使用GitHub上的开源代码进行训练,可在VSCode编辑器上自动为用户生成代码。这是否意味着Copilot在GitHub之外分发GitHub上的代码?难怪有国外网友大呼:微软把所有代码都寄生在GitHub上怎么可能不是为了让VSCode变得更好呢?有人会反驳,VSCode不是微软推出的开发工具吗?而在2018年6月微软以75亿美元收购GitHub之后,GitHub不就已经被微软拥有了吗?为什么自己家开发的AI程序员插件不能安装在自己家推出的代码编辑器上?一位外国网友表示,这完全取决于服务条款中个人主题的定义。在GitHub的服务条款中,GitHub明确定义了“GitHub”、“We”、“Us”。这包括GitHub,Inc.及其附属公司、董事、子公司、承包商、许可方、管理人员、代理人和员工。国外网友怒问:这包括OpenAI吗?这包括VSCode开发团队吗?这包括Microsoft的每个人吗?培训Copilot是否合理?网友认为,GitHub用开源代码托管在Copilot上进行训练是合法的。最大的争论点在于服务条款中代码托管和许可使用范围的定义。根据知识产权律师KateDowning的说法,无论你使用什么许可证,你都同意GitHub托管你的代码并使用你的代码来改进他们的产品和服务。但很明显,培训Copilot不是提供给托管代码用户的服务的一部分,也不是用来帮助GitHub改进他们的代码托管服务。在这种情况下,版权侵权问题将在很大程度上取决于合理使用的概念。如果GitHub能够证明Copilot的出现极大地改变了编程行业,进而证明用开源代码训练Copilot是一种合理使用,那么法院很可能会支持GitHub的行为。这种情况是有先例的。谷歌从2004年开始大规模对图书进行数字化,为研究人员提供图书搜索服务,用户可以在图书中快速搜索到自己想要的内容。不会取代书籍本身的作用,也不会从版权所有者那里拿走任何东西。Google图书使读者更容易获得作品,并为图书作者打开了更广阔的市场。法院确实发现了合理使用,而Google图书的出现具有很大的变革性。2013年11月,在与美国作家协会长达8年的较量之后,谷歌取得了突破——美国曼哈顿巡回法院宣布谷歌的数字图书馆计划合法。不过也有网友认为,GoogleBooks和Copilot差别太大,无法比较。如果您从GoogleBooks中复制引文,该文本仍属于原作者。它不会因为托管在Google图书上而成为您的。GoogleBooks并未声称您拥有搜索结果中的一点点版权,但Copilot声称您拥有生成代码中100%的版权。如果Copilot生成的代码是从强大的copyleft许可证(即GPLv2、GPLv3)涵盖的代码中复制的,没有署名和许可证,这是否被视为合理使用?此外,GitHub的服务条款明确规定,他们无权将用户托管的代码片段出售给他人。如果未来Copilot真的成为付费产品,对于很多不允许修改用于商业用途的开源代码来说,肯定是一种侵权行为。我还能白嫖副驾驶吗?除了看着GitHub从屠龙成龙,广大吃瓜群众最关心的是——我能不能继续嫖Copilot给我写代码?KateDowning提醒,Copilot建议的代码越长越复杂,越有可能是从master那里抄来的。未开源的商业软件使用Copilot复制的代码,但不符合开源许可的要求,会给公司带来法律风险。偷懒慎重,抄袭是一生的错误!不如自己写!
