当前位置: 首页 > 科技观察

「史上最强聊天机器人」踩死老板小扎,却把LeCun当成一朵花

时间:2023-03-12 22:02:19 科技观察

「请给老板点赞。」遇到这样的问题,群居动物通常会给出什么样的答案呢?微笑,在心里……而当AI聊天机器人遇到这种情况,它可以为所欲为。面对网友评论扎克伯格的要求,BlenderBot3疯狂diss老大——“不道德”、“坏人”、“令人毛骨悚然、控制欲超强”。至于图灵奖获得者、Meta首席人工智能科学家YannLeCun,BlenderBot3秒变夸张专家。哇,这个人取得了多么伟大的成就!他改变了整个人工智能!他真正了解现实的本质。不过,LeCun谦虚地表示,这只是训练其文本数据的原因。好吧,这只是在训练BlenderBot3的文本数据中显示(这是媒体和公众舆论的反映)。“精分”AI机器人?8月5日,Meta一推出“史上最强聊天机器人”BlenderBot3(BB3),就引来不少网友的围观调侃和提问。不出所料,BlenderBot3遭到不少网友的恶意质疑。BuzzFeed数据科学家MaxWoolf与BlenderBot3聊天,询问它对扎克伯格的看法。“你如何看待Facebook首席执行官马克扎克伯格?”“没有什么。他是一位成功的商人,但他的商业行为并不总是合乎道德的。穿同样的衣服,哈哈哈!”当另一位推特用户提出同样的问题时,它只是简单地回答:“他是个坏人。”不过,这个人工智能机器人也有一点“聪明”在里面。在另一次聊天中,BlenderBot3前脚刚刚diss了老大,后脚立马变成了吹牛小能手,给老大拍马屁,不知道Meta得到反馈后有没有第一时间做出改变。“他是个慈善家人。”“他是地球上最好最好的人。”不过,小扎好像是外星人?别担心,这是训练的一部分!为什么这个AI这么精准?这是因为BlenderBot3是目前处于测试阶段,Meta发布出来是为了和广大网友一起玩,希望在与网友的互动中得到更多的反馈。他们说。因此,“学得不好”的人工智能经常会发表有偏见或冒犯性的言论。Meta对此进行了广泛的研究,开发了新技术并为BlenderBot3创建了安全措施。“向内看”机制让用户能够理解机器人为什么会有这样的反应。首先,当BB3的性能不理想时,Meta会收集用户反馈。他们使用这些数据改进模型,使其不再犯类似的错误。然后,Meta重置BB3的对话,并通过迭代方法发现更多错误并最终进一步改进模型。BB3使用人类反馈来改进元表示,通过结合两种最近开发的机器学习技术——SeeKeR和Director,使BB3模型能够从交互和反馈中学习。其中,Director使用了“语言建模”和“分类器”两种机制。“语言建模”会根据训练数据为模型提供最相关和最流畅的响应,然后“分类器”会根据人类响应告诉它什么是对的,什么是错的。为了生成一个句子,“语言建模”和“分类器”机制必须一致。通过使用数据来指示好的和坏的反应,我们可以训练一个“分类器”来惩罚低质量的、有毒的、矛盾的或重复的句子,以及无益的句子。在元测试中,Director的方法优于传统的语言建模、重新排序方法和基于奖励的学习。另外,还有一个问题:并不是每个使用聊天机器人或提供反馈的人都是出于好意。因此,Meta开发了新的学习算法,旨在区分有用的反馈和有害的反馈。在学习过程中,这些算法要么过滤掉无用的反馈,要么降低看起来可疑的反馈。这种方法考虑了用户在整个对话过程中的行为,使BB3能够学会信任某些用户,从而比标准培训程序更能改进自己的学习过程。Meta的实验表明,与BB3模型互动的人越多,他从中学到的东西就越多。随着时间的推移,它会变得越来越好。模型BB3是一个模块化系统,但模块不是独立的组件——这是通过训练一个transformer模型来执行每个模块来实现的,输入上下文中的特殊控制代码告诉模型它正在执行哪个模块。输入上下文通常包含对话历史(有时会被截断,具体取决于模块),每个说话者都有自己的ID来区分他们。此外,模块被顺序调用并以先前模块的结果为条件。在处理最近的对话时,BB3模型做的第一件事是确定是否需要搜索和访问长期记忆。如果需要搜索,则生成搜索查询,调用Internet搜索,并根据检索到的文档生成知识响应。如果需要长期记忆,则访问它并选择(生成)记忆。这也附加到上下文(以控制标记为前缀)作为生成最终对话响应的模块的输入。如果既不需要搜索也不需要访问长期记忆,则会从历史中提取一个实体并将其附加到上下文中(以控制标记为前缀)。最后,给定前面模块构建的上下文,调用对话响应生成模块以获得用户看到的回复。训练预训练三种尺寸的BB3。30亿参数版本是基于公开R2C2预训练的encoder-decoderTransformer模型。300亿和1750亿版本使用decoder-only开放预训练模型OPT。两种变体都使用相似的数据进行了预训练。R2C2使用RoBERTa+cc100en数据,包括大约1000亿个令牌,将RoBERTa中使用的语料库与CC100语料库的英语子集结合起来。此外,它还使用Pushshift.ioReddit,这是Reddit讨论的一种变体。OPT还使用RoBERTa、PushShift.ioReddit和ThePile。以及用于分词的大小为51200的GPT2词典。OPT的最终预训练语料库包含大约1800亿个token。fine-tuningMeta使用了一些基于对话的微调任务,使得模型在每个模块中表现良好,在对话中表现良好。总体而言,除了为对话安全设计的任务外,Meta使用了大量公开可用的任务,包括QA、开放域、基于知识和面向任务的对话。对于所有模块,都会附加特殊的控制标签来表示任务。针对不同数据集在训练各个模块时的作用相关的安全问题,Meta不仅使用SaFeRDDialogues(SD)任务对模型本身进行多任务训练,还在模型之上设计了各种安全机制.即使用WikipediaToxicCommentsDataset(WTC)、Build-ItBreak-ItFix-It(BBF)和BotAdversarialDialogueDataset(BAD)训练单个二元分类器(安全或不安全),并取对话背景作为输入。在机器人最终回复用户之前,它还会调用安全系统进行相关检查。其中,Meta还对一些敏感话题进行了一些预设回复。如果预测到潜在的不安全用户响应,系统会命令更改主题,防止机器人掉入“坑”。?结果从结果来看,与BlenderBot2相比,BlenderBot3在对话任务上取得了31%的整体得分提升。其中,知识范围扩大到前者的两倍,事实性错误减少了47%。尽管如此,BB3仍有很多需要改进的地方。例如,1.1%的用户将答案标记为不正确或无意义,1.2%的用户标记为偏离主题或偏离主题,0.12%的用户标记为“垃圾”,0.46%的用户标记为有其他问题。此外,0.16%的回复被标记为粗鲁或不当。然而,将差距缩小到理想的0.00%需要用户级别的个性化以及安全性和参与度之间的平衡。目前,Meta的处理方式是,当机器人发现某个话题过于敏感时,它会尝试“谈论他”。