GitHub上周推出了一款名为“GitHubCopilot”的工具,利用机器学习技术提供代码建议/自动完成功能,引起了不小的争议。究其原因,很多开发者认为,GitHubCopilot所宣称的基于开放代码的培训,实际上是在不遵循开源许可的情况下“抄袭”开源代码。为了抗议GitHub未经授权使用受版权保护的源代码作为GitHubCopilot的训练数据,一些激进的开发者宣布放弃GitHub。在众多质疑和批评中,讨论最多的一个问题是:如果GitHubCopilot的训练模型使用遵循GPL的软件进行训练会怎样?标题为“IsGitHubaderivativeworkofGPL'dsoftware?(GitHub是GPL软件的衍生作品?)”的博文描述了对这个问题的一些思考。以下是本文的一些整理。GPL下的一系列许可证被认为是“Copyleft”许可证,具有“传染性”的特点。特别是,copylefted作品的一个共同特征是要求“衍生作品”按照与原始copyleft许可相同的条款发布他们的新作品。这就提出了一个有趣的法律问题:机器学习系统生成的作品,甚至是机器学习系统本身,是“喂”给训练模型的数据的衍生作品吗?如果答案是“否”,是否意味着您可以使用GitHubCopilot作为一种手段来“清理”您要使用的GPL代码,这样您就不需要遵守其许可协议。但如果答案是“是”呢?也就是说,机器学习模型生成的作品是输入数据的衍生作品,这样GitHub本身就可以认为是copyleft软件的衍生作品。因为GitHub的博文,在解释“Copilot”的训练数据时,曾发表过如下声明:“在GitHubCopilot的早期开发过程中,作为内部试点的一部分,近300名员工在日常工作中使用了它。”如果300名GitHub员工将Copilot用作日常工作流程的一部分,他们可能会将Copilot生成的代码整合到几乎所有GitHub的软件资产中,这些软件资产为用户提供网络服务。如果训练模型是在符合AGPL的软件上训练的,并且Copilot使用该模型创建了衍生作品。那么,所有的GitHub用户都有权在AGPL的条款下获得一份GitHub的源代码——也就是说,GitHub被迫成为一个开源项目。其实这也涉及到机器学习的伦理问题。机器学习的训练数据包含的内容的所有者应该有什么权利?例如,如果我想发布一个我不想被包含在训练模型中的作品,或者如果我的作品被用来训练一个模型,但是让公众访问该模型,是否可以?我应该被允许这样做吗?如果使用的作品是我的个人信息,在我不知情或未经允许的情况下不予公开未经同意收集收集的信息怎么办?如果收集到的信息被服务提供商滥用,甚至用在一些不利的场景中,比如在做贷款决策时怎么办?如果用于侵犯社会整体利益怎么办?本文转自OSCHINA。本文标题:GitHub被“GitHubCopilot”逼成了开源项目?本文地址:https://www.oschina.net/news/149133/is-github-a-derivative-work
