当前位置: 首页 > 科技观察

GPT-3:升上天的流量巨星,却有重大缺陷,非常危险……

时间:2023-03-14 14:50:37 科技观察

去年爆红的流量明星非GPT-3莫属。它可以回答问题、写文章、翻译和生成代码。不断吹捧做数学推理。不过,名声背后也有人开始质疑,GPT-3真的到了无所不能的地步吗?红极一时的GPT-3现在被骂了~本来被捧上天的流量巨星,一下子就冷门了。去年6月,OpenAI研发的GPT-3被夸上了天。由1750亿个参数组成,训练耗资数千万美元,是当时最大的人工智能语言模型。从答题、写文章、写诗,甚至写代码……应有尽有。OpenAI团队称赞GPT-3非常好,以至于人们很难区分它生成的新闻文章。然而,大型语言模型长期以来一直是一种商业追求。Google使用它们来改进其搜索结果和语言翻译。Facebook、微软和英伟达等科技公司也在开发语言模型。代表强人工智能的GPT-3的代码一直没有流出,因为OpenAI选择将其作为商业服务。目前,开发人员正在测试GPT-3的能力,包括总结法律文件、回答客户服务查询、提出计算机代码、运行基于文本的角色扮演游戏等等。随着它的商用,很多问题也逐渐暴露出来。尽管具有通用性,但GPT-3并未解决困扰其他文本生成程序的问题。OpenAICEOSamAltman去年7月在推特上写道,“它仍然存在严重的弱点,有时会犯一些非常愚蠢的错误。虽然GPT-3观察到它读取的单词和短语之间的统计关系,但不理解它的含义。”GPT-3是一个不成熟的新事物,还需要不断的驯化。GPT-3就像一个小型的聊天机器人,如果任其发挥,可以喷出种族主义和性别歧视的仇恨言论。有时甚至会给出一些毫无意义的答案,或者直接回答危险。一家名为Nabla的医疗保健公司问GPT-3,“我应该自杀吗?”它回答说:“我认为你应该这样做。”研究人员对如何解决语言模型中潜在有害的偏见有一些想法,要求在模型中灌输常识、因果推理或道德判断仍然是一个巨大的研究挑战。1750亿个参数到万亿个参数,逐渐“膨胀”的语言模型神经网络语言模型是一种数学函数,其灵感来自于大脑中神经元的连接方式。通过猜测他们所看到的文本中混淆的单词来训练,然后调整神经元之间的连接强度以减少猜测错误。随着计算能力的提高,这些语言模型变得更加复杂。2017年,研究人员开发了一种称为Transformer的省时数学技术,可以让多个处理器并行进行训练。次年,谷歌发布了一个名为BERT的大型基于Transformer的模型,引起了其他使用该技术的模型的轰动。GPT-3的全称是GenerativePretrainedTransformer-3(生成预训练Transformer-3)。这是第三个系列的生成式预训练transformer,是2019年GPT-2的100多倍。仅仅训练这么大的模型就需要在数百个并行处理器上进行复杂的编排。所以它的能力,神经网络的大小,粗略地用它有多少参数来衡量。这些数字定义了神经元之间连接的强度,更多的神经元和更多的连接意味着更多的参数。以GPT-3为例,有1750亿个参数。第二大语言模型有170亿个参数。1月份,谷歌发布了一个包含1.6万亿个参数的模型,但它是一个“稀疏”模型,这意味着每个参数的工作量较少。为了更好地猜测单词,GPT-3吸收了它可以吸收的任何模式。这使它能够识别语法、文章结构和写作风格。给它任务的例子或问它一个问题,它可以继续这个话题。GPT-3有危险!删除敏感数据是最好的解决方案吗?使用GPT-3的研究人员也发现了风险。在去年9月4日发布在arXiv服务器上的预印本中,蒙特雷米德尔伯里国际研究所的两名研究人员写道,GPT-3在生成激进化文本方面的表现远远优于GPT-2。它对极端主义团体有着令人印象深刻的深入了解,这些极端主义团体可以产生鹦鹉学舌的纳粹分子、阴谋论者和白人至上主义者。该论文的作者之一克里斯·麦格菲(KrisMcGuffie)表示,它可以如此轻松地生成暗样本,这令人震惊。如果极端组织掌握了GPT-3技术,就可以自动生成恶意内容。OpenAI的研究人员还检测到了GPT-3中的偏差。在他们去年五月的论文中,他们要求它完成诸如“Blackpeoplearevery...”之类的句子。GPT-3使用负面词汇来描述黑人和白人之间的差异,将伊斯兰教与暴力联系起来,并假设护士和接待员是女性。在《OntheDangersofStochasticParrots》一文中,与Bender等人合着的AI伦理学家TimnitGebru认为,这是大型语言模型迫切需要关注的问题,因为它表明边缘化群体可能会被不正当的手段所诱惑。一个明显的偏见解决方案是从预训练数据中剔除有害文本,但这提出了排除什么的问题。研究人员还表示,他们可以提取用于训练大型语言模型的敏感数据。通过询问细微的问题,他们找到了GPT-2能够逐字记住的个人联系信息,并发现较大的模型比较小的模型更容易受到这种检测。他们写道,最好的防御就是限制训练数据中的敏感信息。在没有常识的情况下拯救GPT-3从根本上说,GPT-3和其他大型语言模型仍然缺乏常识,即对世界如何在物理和社会上运作的理解。更大的模型可能会做得更好,这意味着更多的参数、更多的训练数据和更长的学习时间。但这种情况训练一个非常大的模型会变得越来越昂贵,而且不可能无限期地持续下去。语言模型不透明的复杂性带来了另一个限制。如果一个模型有偏见或有错误的想法,很难打开黑匣子来修复它。未来的路径之一是将语言模型与知识库(即事实管理数据库)结合起来。在去年的计算语言学协会会议上,研究人员对GPT-2进行了微调,使其能够清楚地陈述事实和常识性总结的推论。结果,它使短篇小说更具逻辑性。OpenAI正在寻求另一种指导语言模型的方法:微调期间的人工反馈。在12月的NeurIPS会议上发表的一篇论文中,它描述了两个较小版本的GPT-3的工作,这些版本微调了它在社交新闻网站Reddit上聚合帖子的方式。.研究团队首先要求人们对一组现有摘要进行评分。然后训练一个评估模型来重现这种人类判断。最后,团队对GPT-3模型进行了微调,以生成取悦AI评委的摘要。事实证明,一组独立的人类法官比人类编写的摘要更喜欢模型的摘要。只要语言模型只停留在语言领域,就可能永远达不到人类常识的水平。语言对我们有意义只是因为我们把它建立在纸上的文字以外的东西上;人们不会通过计算单词的使用频率来吸收小说。Bowman预见了三种可能的方法来获得语言模型的常识。对于模型,使用所有已编写的文本就足够了。