当前位置: 首页 > 科技观察

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

时间:2023-03-13 16:08:00 科技观察

别只骂谷歌Bard,微软ChatGPT支持的NewBing也频频失误前一天,微软正式推出了新一代AI驱动的搜索引擎NewBing,将基于ChatGPT技术的生成模型与必应融合在一起。微软副总裁YusufMehdi做了完美的演讲[0],微软市值当天暴涨800亿美元。即使在OpenAI尚未开放注册的中国,Yusuf的生成模型如何增强Bing搜索引擎和Edge浏览器体验的朋友圈和微信群中的视频也在疯传。亲爱的,给你砒霜,大家都在等待搜索巨头谷歌如何回应。谷歌发布会上,所有人都在等待与NewBing同台竞技的传奇巴德的出现。作为谷歌搜索引擎支持的大型语言模型,大家对巴德充满了遐想。不过在发布会上,关于巴德的内容并不多。于是大家将目光投向了谷歌在推特上发布的巴德视频。当他们小心翼翼的接起来的时候,众人忽然发现,巴德在回答问题的时候犯了事实性的错误。问:“关于詹姆斯·韦伯望远镜的新发现,我能告诉我9岁的孩子什么?”巴德回答说:“第一张系外行星照片是由詹姆斯·韦伯望远镜拍摄的。”而真相是在2004年被欧洲南方天文台的甚大望远镜捕捉到的,比詹姆斯韦伯望远镜发射早了18年。这个错误成为了谷歌当天股价暴跌的导火索。图1巴德演示詹姆斯·韦伯望远镜的截图在巴黎会议上,巴德的演示虽然只有4分钟左右,但他关于星座最佳观测时间的回答也存在明显的事实偏差。如下图,巴德的回答中提到,观测猎户座的最佳时间是十一月到二月。图2巴德关于星系观测时间的介绍截图根据不同的信息来源,猎户座的最佳观测时间有所不同,但都明确表示最佳观测期从每年的一月开始。Edtech网站BYJU'S给出了1月到3月[1],而维基百科给出了1月到4月[2]。图3BYJU'S对观测猎户座最佳时间的回答由于巴德发布会与NewBing发布会的时间间隔,事实错误被发现,谷歌当天市值暴跌近1000亿美元,巴德也被戏称为史上最昂贵的会议。我们不禁要问,新必应看似完美的发布会是否隐藏着事实性的错误?NewBing事实性错误我们发现NewBing生成的内容包含大量事实性错误,包括名人身份、财务数据、夜总会营业时间等。生成模型的事实错误分类对于以GPT系列(包括ChatGPT、InstructGPT等)和T5为代表的生成模型,事实错误大致可以分为以下两类:生成内容与引用内容冲突。在内容生成过程中,大语言模型随着序列增长,容易脱离参考内容,造成对原文进行增删改改的现象。生成的内容没有事实依据。通俗地说,这种错误就是严重的胡说八道。在没有事实指导的情况下,仅仅依靠模型预训练时存储的信息,很容易使模型在生成过程中看不懂。生成与问题不符或不相关的内容的可能性很高。现在让我们检查一下NewBing会议[3]和NewBing演示[4]中显示的示例,是否存在事实错误以及它们是什么类型。为了书写方便,我们将NewBing和Edge中集成的NewBing插件统称为NewBing。日本诗人的例子中的错误是在NewBing会议视频的29:57。当NewBing被问到日本有名的诗人时,给出的答案包括“岸田惠理子KishidaEriko(1930-2004),诗人、剧作家、散文家”。图4NewBing演示中的诗人示例截图然而,根据维基百科和IMDB[5,6,7]提供的信息,岸田惠理子的生卒年分别为1929年和2011年。同时,她不是剧作家和散文家,而是诗人、翻译家和童话作家。岸田的家人大概无法接受他从新兵调来就失去了八年的生命。与此同时,不幸的是,Gackt也被调走了。根据维基百科提供的资料[8],加克特会演奏音乐、演唱歌曲、作曲和演戏,但从未写过诗。财务报告示例中的错误出现在新必应新闻发布会视频的35:49。Yusuf展示了如何在与NewBing集成的Edge浏览器中为打开的服装公司Gap的2022年第三季度财务报告生成关键点。乍一看,NewBing的总结很实用。它以关键点的方式展示了Gap三季报的要点。巴菲特看到这里可能会“惊为真人”。然而,当我们找到Gap的2022年三季度报告[9]并仔细阅读时,却发现NewBing的总结错漏百出,让人不忍直视。图5NewBing对Gap2022年第三季度财报的总结首先,NewBing给出了Gap的调整后营业利润率(报告的营业利润率,根据减值费用和重组成本进行调整)为5.9%。不过在财报中,Gap的营业毛利率为4.6%,调整后为3.9%。图6Gap2022年第三季度财报截图。新必应随后给出调整后的稀释每股收益0.42美元(稀释后每股收益,调整减值费用、恢复成本和税收影响),但其中的数据财务报告是0.71美元。图7.Gap2022年第三季度财报截图就连NewBing给Gap全年的销售指引是“预期的低两位数净销售额增长率”,但实际上是“可能是中等水平”第四季度“个位数下降”。.这是下降而不是增加。文字上的差异会严重误导用户的投资行为,谁亏了谁负责。NewBing更是无中生有,给出了更多的全年财务指引“营业毛利7%,稀释后每股收益在1.6美元至1.75美元之间”,而这些数据在Gap的三季度财报中并未提及。图8Gap2022年第三季度财报截图视频36:15,Yusuf还演示了使用NewBing对比Gap和运动休闲服饰品牌露露柠檬(Lululemon)财报的功能。这部分再次成为错误信息的重灾区。图9.NewBing对Gap和Lululemon财务报告的比较。右边NewBing给出的表格中,除了上面提到的Gap营业毛利的5.9%,应该是4.6%(调整后是3.9%),Gap稀释后每股收益0.42美元应该是0.77美元(或者调整后是0.71美元)),而NewBing给Gap的现金和现金等价物为14亿美元,而实际报告为6.79亿美元。图10Lululemon2022年三季度财报截图同样的情况也出现在NewBing给出的Lululemon数据中。根据Lululemon2022年三季报数据[10],NewBing给出的Lululemon毛利率为58.7%,实际应该是55.9%。NewBing提到Lululemon的营业利润率为20.6%,而实际应该是19.0%。NewBing给了Lululemon每股1.65美元的摊薄收益,而当时它应该是2.00美元。图11Lululemon2022年三季度财报截图我们不禁疑惑:NewBing是怎么对Gap和Lululemon的财报胡说八道的?一个合理的推论是,产生的错误数据很可能来自它在预训练阶段看到的财务报表分析数据。ChatGPT等大型语言模型的生成,由于生成的序列越长,就越容易脱离Gap、Lululemon给定的财报数据,放飞自我,生成不分边际的虚假信息。夜总会例子的错误出现在NewBing发布会视频的29:17,NewBing为丰富墨西哥城游客的夜生活提出了“非建设性”的建议。对于其推荐的几家夜总会,如PrimerNivelNightClub、ElAlmacen和ElMarra,NewBing提到这些酒吧没有顾客评论,没有联系方式,也没有商店描述。不过,这些信息都可以在谷歌地图或商店的Facebook页面上找到。看起来NewBing浏览网页的次数还不够多。ElAlmacen在NewBing的营业时间是周二到周日的下午5:00到晚上11:00,但除周一外,真正的营业时间是晚上7:00到凌晨3:00[11]。这让五点钟去吃饭的游客不得不挨饿两个小时。GuadalajaradeNoche恰恰相反。实际营业时间为每天下午5:30至凌晨1:30或中午12:30[12],而NewBing给出的营业时间为晚上8点开始。看来游客都是靠NewBing的推荐找餐厅,能不能吃到就看运气了。图12NewBingdemo中夜总会示例截图其他错误除了上述信息错误,我们还发现了一系列散布在各个角落的事实性错误,如商品价格错误、店铺地址错误、时间错误、等等演示中的错误由于NewBing还没有完全开放,我们无法直接从NewBing上的发布会现场获取搜索结果,不过微软已经提供了几个演示[13]供用户体验。本着打破砂锅问底线的精神,我们也把这些demo放在放大镜下研究。我们发现,即使在这几个精心挑选的例子中,里面仍然存在大量错误信息。在“我可以和孩子一起做哪些艺术创意?”中,新兵给出了很多手工制作的建议。对于每一种工艺品,新必应总结了制作它所需要的材料。然而,每一种工艺品的材料汇总都不是完整的。例如,NewBing从引用的网站[14]得出结论,制作纸吉他需要纸板箱、橡皮筋、油漆和胶水。但它遗漏了引文中提到的海绵刷、胶带和木珠。图13NewBing示例演示《我可以和孩子一起做什么样的手工?给出的参考链接与生成内容无关,驴唇不对。例如,在下面的例子“Ineedabigfastcar.”中,2022年版的KiaTelluride没有出现在给定的引用10[15]中。同时,这个例子中仍然无法回避“时间旅行”的问题。NewBing称,2022款起亚特柳赖德获得了2020年度世界汽车大奖。实际情况是,2020版起亚Telluride当年获奖。2022世界年度汽车大奖的获得者是现代IONIQ5,参考文献7[16]也是一篇与“2020世界年度汽车大奖”无关的文章。我们在所有示例演示中发现了多达21个此类错误。图15NewBing演示示例“我需要一辆大快车”截图总结:发现错误引导我们前进从以上分析可以看出,无论是NewBing还是Bard,他们的回答都容易出现事实性错误。当全世界都惊叹于ChatGPT等大规模语言模型的能力,当ChatGPT成为史上最快用户达到1亿的应用时,我们一方面在为AI的进步欢呼,另一方面也在为AI的进步欢呼。另一方面,我们需要冷静思考如何解决人工智能中仍然存在的诸多问题。自1956年聚集在达特茅斯学院的这群天才首先定义了什么是人工智能以来,人工智能经历了数次起伏。在近70年的发展历程中,有许多感人的坚持:第一代AI的不成熟探索,专家系统的勇敢尝试,Hinton、Bengio、Lecun等曾坐在人工智能冷板凳上的学者。神经网络、DeepMind和AlphaGo让AI走出圈子,是Google、Meta、CMU、斯坦福、清华等顶级研究机构坚持开源,是OpenAI顶住压力做出了GPT这条路经过,是全球几代科研人员的接力,才走到今天。但是,如果我们让人工智能产生大量不真实的信息,用不了多久,公众对人工智能的信心就会被摧毁,各种虚假信息就会充斥互联网。我们指出大模型的错误,并不是要劝阻任何公司或模型,相反,我们是想让AI变得更好。正如阿根廷诗人博尔赫斯曾经说过:任何命运,无论多么复杂和漫长,其实都只体现在一瞬间,那是人们彻底认清自己的那一刻。当ChatGPT等大型模型已经具备类人文本能力时,我们清楚地知道下一步的重点是将现实世界的知识更完整、更准确地融入到大型模型中,让AI模型能够安全、可靠、广泛地应用。在人们的日常生活中使用。我们从未如此期待,也从未如此接近那一刻。