人们越来越关注基于人工智能设计系统以帮助人类更好地设计计算机系统,包括自动生成计算机代码的工具,最近,第一个自称“AIPair”程序员的GitHubCopilot,一种从开源GitHub代码训练的语言模型。但是,代码通常包含错误-因此,鉴于Copilot处理的大量未经验证的代码,语言模型肯定会从可利用的、有错误的代码中学习。因此,一些研究人员发现GitHubCopilot工具提供的代码建议中有近40%存在错误。为了量化Copilot的真正价值,研究人员创建了89个测试场景来检查其代码建议的质量,并编写了1,600多个程序。经过全面审查,研究人员发现其中近40%存在安全漏洞。由于Copilot的学习对象是GitHub代码r中的公开代码epository,研究人员推测这些安全漏洞的出现只是系统对现有代码错误的模仿。研究人员还指出,除了可能继承训练数据中的错误外,Copilot无法判断训练数据的年龄。随着网络安全的发展,早期编程中的“最佳实践”可能会逐渐变成“不良实践”。毫无疑问,像GitHubCopilot这样的下一代自动完成工具将大大提高软件开发人员的生产力。然而,尽管Copilot能够快速生成大量代码,但我们的研究结果表明,开发人员在使用Copilot作为辅助工具时应谨慎。理想情况下,Copilot还应该在训练和生成期间与适当的安全工具配对,以最大限度地降低在代码中引入安全漏洞的风险。事实上,自GitHubCopilot发布以来,风波不断:Copilot抄袭。争议。网友表示:你的再训练是基于我们开源的代码。改了之后拿来赚钱真的好吗?原因是GitHub在未经版权人许可的情况下使用托管在GitHub上的开源代码。训练CopilotGitHubCopilot生成包含身份证号码的代码然后,有人在推特上发了一张图片,说他在使用GitHubCopilot时,居然给出了一个身份证信息。输入B站CEO陈睿的信息后,下方自动填写了身份证号。不过,好在显示的身份证号码是假的,出生年份和校验位明显有误。
