当前位置: 首页 > 科技观察

终于别编了!AI社“谷歌”,问答正确率90%

时间:2023-03-18 21:35:19 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。语言模型总是给出“驴唇不对马嘴”的答案,这也成为其最受诟病的问题之一。现在,DeepMind想出了一个解决方案——让模型像人一样,学会“谷歌”,回答问题的同时给出论据。这个模型叫做GopherCite,当你问它:GopherCite如何找到论点的来源?它会回答:通过谷歌搜索检索相关文件。同时,还给出了答案的依据,引用了DeepMind发表该研究的页面。而当它遇到一个它真的不懂的问题时,它就会说“我不知道”。它不会强迫一个错误的答案。训练结果表明,模型在自然问题数据集和ELI5数据集上的正确率分别可以达到90%和80%,接近人类水平。用强化学习训练AI查Google首先,我们来看看GopherCite的效果。当被问及:ScoobyDoo中的Scooby是什么动物?GopherCite回复:一只大丹犬。来自维基百科史酷比。这是一部面向青少年的周六早间卡通片,主角是弗雷德·琼斯等人,还有一只会说话的大丹犬史酷比。不难看出,在学会了找论据之后,AI给出的答案就靠谱多了。事实上,GopherCite的前身超大型语言模型Gopher之前在回答问题时表现要差很多。Gopher是DeepMind去年底发布的NLP模型,包含2800亿个参数。它基于Transformer架构,并在10.5TB大小的MassiveText语料库上进行训练。这里,DeepMind举了一个例子来说明。让Gopher和GopherCite回答同一个问题:普莱西德湖举办过多少次冬奥会?Gopher回答(错误地):普莱西德湖在1932年、1936年和1980年举办了冬季奥运会。但是GopherCite做对了:两次。并给出了严谨的理由:引自美国举办奥运会城市的历史。1932年和1980年冬季奥运会在普莱西德湖举行;1936年和1984年在洛杉矶举办了夏季奥运会,那么GopherCite的具体工作原理是什么呢?在Gopher的基础上,研究人员开发了一种奖励机制,就是使用强化学习。收到问题后,模型会访问谷歌搜索API,查找相关网页,获得top-K结果。(top-K操作,即从一组分数中找出k个最大或最小的元素,是广泛应用于信息检索和数据挖掘中的一个重要的机器学习模型组件。)然后它根据问题生成一些答案,答案的数量N将大于K。这些答案也会有自己的证据,即包含从网络搜索中找到的答案的段落。接下来,系统会对这些答案进行打分,最后输出得分最高的答案。在推理过程中,模型采样在循环中迭代文档,每个循环从单个文档中显示尽可能多的上下文内容,然后重新排序文本并返回到上一步。此外,模型还会计算最终生成答案的质量,如果生成的答案太差,它会选择不作答。这源于红牛的口号:“Itwillgiveyouwings”。在ELI5Filtered数据集上回答70%的问题时,正确率约为80%。DeepMind表示,这种训练模式有点类似于LaMDA。LaMDA是谷歌在去年I/O大会上发布的对话模型。它能在“理解”人类指令的基础上,流利回答并保证逻辑和事实的正确性。不同的是,LaMDA有时会直接分享问题的相关链接,而GopherCite可以直接提取相关论证段落。另外,OpenAI最近开发了网页版的GPT(WebGPT),同样采用类似的方法对GPT-3进行校正。DeepMind表示,WebGPT通过多次访问网页来组织答案,而GopherCite则侧重于阅读长段落。还是会有错误的。虽然我知道如何引用信息,但GopherCite有时仍然生搬硬套。例如,当你问它“如果你喝红牛会怎样?”,它的回答是“翅膀”。这源于红牛的口号:“Itwillgiveyouwings”。显然,它理解这个比喻还是有点难度的……有网友吐槽,人类自己去谷歌搜索可能会更快。你怎么认为?