当前位置: 首页 > 科技观察

GitHub深陷“抄袭门”,利用开源代码训练AI,遭到大量程序员的声讨

时间:2023-03-13 16:04:22 科技观察

GitHubCopilot是GitHub发布的全新“人工智能结对编程工具”。开发者只需在编辑器中输入自己想要的逻辑注释,工具即刻编写代码。《副驾驶》一经上映便引起了不小的轰动。有人认为这是划时代的AI产品。未来,程序员这个职业很可能会因为AI编程工具的出现而大大提高生产效率。然而,在Copilot加冕为王之前,一封来自GitHub的邮件将这个工具送入了18层地狱。7月7日,一位名叫“NoraTindall”的外国网友在GitHub上发了一封回复邮件。在邮件中,Nora询问GitHub,他GitHub账户中的代码是否用于Copilot培训。GitHub明确表示所有GitHub公开代码均用于Copilot培训,GitHub不区分开源协议类型。针对这种无视版权的行为,诺拉讽刺称:“这是官方规定,遵守版权只适用于平民和无产阶级,有钱人和大公司可以为所欲为。”GitHub不区分开源协议的类型。这是什么意思?无论你的代码使用哪种开源协议,都会被GitHub无情地用来训练Copilot,开源协议就会消失。比如我们熟悉的GPL协议,它规定开源代码可以自由使用和引用,也可以修改和派生,但修改后的代码和派生的代码不允许作为闭源发布和销售商业软件。如果Copilot遵循GPL,就意味着它必须是开源的!如果未来Copilot收费成为商品,这无疑是一种侵权行为。副驾驶还有另一个问题。官方称Copilot通常不会准确复制代码块。但很多使用Copilot的开发者表示,这种说法并不准确。一位网友上传了一段视频。视频中,网友在编辑器中输入“FastInverseSquareRoot”(平方根倒数速度算法)后,Copilot在编辑器上写下《雷神之锤3》中的经典算法。就连wtf的经典音符也没放过。事件仍在发酵,一些科技公司甚至表示严格员工使用Copilot。因为很可能使用GPL协议下的源代码,公司面临侵权风险。在今年的世界人工智能大会开幕式上,人工智能应用、人工智能伦理、人工智能安全被多次提及,但很少有人提及人工智能涉及版权的问题。AI使用的训练数据是否应该经过作者授权?换句话说,开发者公开的代码不想被机器学习包含在训练数据中。发布在GitHub上的源码不想被抄袭,是万万没有办法的。GitHub在未经开发者同意的情况下使用这些源代码。如果以后Copilot封源,肯定会引起轩然大波。在今年的315晚会上,人脸识别摄像头的曝光率被滥用了。部分门店为精准营销,未经客户同意采集、使用人脸信息。这也是AI发展道路上必须解决的问题。