对话清华大学黄敏烈：定义自动驾驶分类的AI对话系统，虚拟宇宙虚拟伙伴可能位于L5

时间：2023-03-15 09:34:20 科技观察

“我很高兴能在你身边，通过你的视角看世界眼睛。”这是电影里的台词《Her》台词是AI语音助手萨曼莎对演员说的。这句话对于迷失在钢铁森林里，感到失落无力的男主来说，是莫大的安慰。Samantha是一个几乎通用的自学操作系统。她可以帮主人公选出最好的信件，寄到他最喜欢的出版社出版；她可以根据主人公的需要瞬间漫游整个人类知识库，寻找最适合主人公的解决方案；她最强的功能除了情感陪伴，男主所有的困惑和不快，都可以被她在谈话中的温暖化解……作为中国NLP领域的前沿学者，清华大学计算机教授黄敏烈大学，将NLP技术应用于心理健康赛道，主导开发AI情感对话机器人Emohaa。在采访黄敏烈教授时，他提到了2013年上映的电影《Her》，表达了对这部科幻电影的欣赏，或者说是期待。作为开发AI对话系统的同事，期待有同理心的AI对话系统能在《Her》中真实亮相，实现行业飞跃。这就引出了一个问题：让AI对话系统像萨曼莎一样执行复杂的情感任务来安抚情绪、治愈人心有多难？这个难度如何量化？如何衡量一个AI对话系统是否达到了Samantha的水平？这不是一个不切实际的问题。事实上，在AI对话系统爆发式增长的今天，“小度”、“小爱”、谷歌的对话机器人“Meena”、Facebook的聊天机器人“Blender”等对话产品层出不穷。但目前人工智能对话系统缺乏标准，导致其在应用中层次参差不齐，评价体系不一。意识、伦理、道德等广泛讨论一些从事人工智能对话系统开发的科学家也指出，他们往往难以判断所开发的人工智能对话系统的水平。科学家们认为，业界迫切需要一个标准来对人工智能对话系统的水平进行分级。定级标准制定后，AI对话系统能力水平的衡量将以实证为依据。因此，为了更好地评估AI对话系统的能力水平，黄敏烈教授联合学术界和产业界的研究机构，制定了全球首个《AI对话系统分级定义》（以下简称《分级定义》）自动驾驶中从L0到L5的分类概念。并于6月28日正式发布。图注：黄敏烈教授解释AI对话系统分级定义《分级定义》的出现，或将推动AI对话系统在虚拟个人助理领域的应用，智能家居、智能车载语音、情感陪护和心理健康，将加速下一代AI对话系统的研发和应用，对学术界和工业界语音语言对话系统的研究具有重要的借鉴意义。《分级定义》前后，AI科技评论与黄敏烈教授进行了对话。以下为对话内容：AI科技评论：是什么让你产生了给AI对话系统打分的想法？黄敏烈：目前我们对对话系统的评价存在一个问题：今天的技术路线和架构百花齐放，很难相互比较。比如我想拿智能音箱和聊天机器人做对比，但是我没法对比它的对话能力，因为对话系统水平参差不齐，缺乏统一的评价体系，缺乏明确的能力定义标准。我们在任务型对话系统中有一定的评价指标，在聊天型对话系统中有一定的评价指标，在知识型对话系统中有一定的评价指标。如何统一指标，是《分级定义》问题主要考虑的问题。因此，我们借用了自动驾驶从L0到L5的分类定义，同样用L0-L5对AI对话系统进行分级。AI科技评论：请给我们解释一下AI对话系统分类的具体定义。黄敏烈：自动驾驶的分类分为L0到L5六个级别。其中，L0指的是全手动驾驶，L5指的是全自动驾驶，车辆接管一切。而L1-L4则是在某些特定条件下实现自动驾驶。自动驾驶的分类主要涉及负责驾驶的人车比例，定义比较简单。但对话系统相当复杂，技术路线和技术架构多，任务多，评价指标多。经过讨论，我们认为最终需要满足五个基本原则：第一，只关注完全由机器主导的对话系统，不考虑人机混合对话系统；第二，从系统性能和用户感知的角度出发，没有考虑系统的具体技术实现；第三，每个分类定义对应的能力水平需要是可观察的、可测试的、可测量的；第四，无论是助手、聊天、知识对话等任务类型，都以“场景”来表达；第五，我们希望通过测量对话系统的能力水平能够为对话系统的研究方向提供建议和实际应用的参考。在这五个原则中，我们给出了AI对话系统分类的定义：L0实际对话是由人类给出的，系统根本没有自动对话能力，或者说在任何单一场景下，系统都无法提供更高质量的对话。虽然L1可以在单个场景中完成更高质量的对话，但是没有办法处理场景之间的上下文依赖关系。举个例子，我要去出差，订好了去南京的机票，还需要订酒店。由于要去南京出差，所以一定要订南京的某家酒店。这就是场景之间的上下文依赖，比如订机票和订酒店之间形成的上下文依赖，L1无法处理。在L1的基础上，L2可以同时完成多个场景下的多个高质量对话，并??具备跨场景上下文依赖和自然切换的能力。刚才说订机票和酒店，还要问问那边的天气，有什么旅游景点。这是为了在不同的任务和不同的场景之间自然而然地灵活切换。这个能力对L2来说非常关键，但是L2在新的场景中没有办法完成更高质量的对话。在L2的基础上，L3可以针对大量场景进行高质量对话，也具备新场景的高质量对话能力。我在这里提到了一个“海量场景”，也许你会问“海量”有多少？十算不算，二十算不算，三十算不算？为了有更广泛的标准和定义的结合，我们没有在数量上给出具体的定义，但是在没有见过的新场景中是否有高质量的对话是一个关键的能力。L4是指在新场景中具有高质量的对话能力，在多轮交互中具有高度的拟人化（指人的设计、性格、情感观点等维度的一致性）。这就好比我们跟一个人聊天，对方不能一会儿是男的，一会儿是女的，或者一会儿在清华上学，一会儿在北大上学——每个人都有自己的自己固定的个人资料信息，这类人目前在对话系统中处理信息还是很困难的。目前，我们可以让对话系统在一定程度上体现人性化的设计，但离真正的类人化水平还差得很远。L5是在L4基础上的更高级别。L5在多轮交互中具有高度拟人化，能够在开放场景交互中主动学习和持续学习，具有多模态感知和表达能力。这就像告诉孩子你这样做是不对的，孩子就会学会。未来，我们希望L5的对话系统能够记住和学习我们告诉它什么是对的，什么是错的。在交互过程中，我们也希望L5对话系统具备多模态感知和表达能力，能够真正进入虚拟世界和各种虚拟人场景，能够真实地做出表情和动作，并且能够理解对方的表情、动作和情绪等等。以上是《AI对话系统分级定义》中L0到L5的基本定义。AI科技评论：您如何定义您刚才提到的“更高质量”和“高质量”？黄敏烈：什么是高质量和相对高质量？其实我们有一整套的判断标准。满分为10分。高质量是指相关性、信息性、自然性三个维度的得分可以达到8-10分。质量高的为6-8分，质量低的为6分以下。这三个维度是什么意思？相关性是指回复的内容与前面的文本适度匹配；信息内容是指回复提供了足够和必要的信息，例如“我不知道”和“还行”是没有任何信息量的回复；naturalness指的是人类比较的自然度，对话系统的语法是否流畅，是否有常识性错误等。这个分数怎么衡量？一定数量的测试人员可以与对话系统进行充分的交互，测试人员会从三个维度对对话系统进行主观打分，很像AmazonAlexaPrize竞赛的评价方式。注：亚马逊AlexaPrize竞赛旨在提供标准的开发环境和测试框架，推动对话机器人综合能力的进步，其奖金高达350万。根据大赛评分体系，2019、2020、2022三年，大赛最佳体系平均分在3.1-3.6之间，满足连贯性、语境理解、流畅性要求。响应三个条件，能与人聊天10-14分钟。AI科技评论：定义AI对话系统的分类意义何在？黄敏烈：第一个心理治疗机器人Eliza出现于1966年，到现在，AI对话系统已经发展了近60年。在过去的60年里，无论是对话系统的应用还是算法模型的应用都取得了长足的进步。但我们也会发现，行业实践和公众认知存在各种不一致甚至差异。而且，近年来，人工智能对话系统已经从以规则为基础的第一代、以传统机器学习为中心的第二代发展到以大数据、大模型为特征的第三代。惊人的对话能力，对话能力也产生了革命性的变化。这种革命性的变化给我们带来了很多新的问题，比如：AI对话系统会不会有个性？会有情绪吗？人工智能对话系统能否成为虚拟伴侣？等等，并将这些问题延伸到对社会认知和伦理的进一步讨论。比如6月12日有一则新闻，谷歌AI伦理研究员BlakeLemoine认为LaMDA语言模型是有个性的，因为在和LaMDA聊天的过程中，LaMDA透露它认为自己有意识，情怀。还说：“我知道自己的存在，我渴望更多地了解这个世界，我时而快乐，时而悲伤。“一时间网上对此众说纷纭，都在讨论AI有没有人格和意识。我们来说说元界，元界希望把现实世界重现到互联网上，让现实世界的人能够在网络世界中进行互动，AI对话系统在元界中的用处很大，比如AI导购可以根据用户的喜好给出独特的建议等等，这就需要我们实现优秀的对话和交互未来的能力，否则这种人机交流是不自然的，没有灵魂的，我们想要实现的元宇宙也不会建立。这一发展可能给人类带来的机遇和诸多困惑，我们在这个时间点探讨分类的定义具有重要意义。AI技术评论：在电影《Her》中，由于萨曼莎能够处理复杂的情感任务，男主爱上了她，陷入了情感危机。难不成同样达到L4-L5的AI对话系统也会出现这样的问题？这是否涉及伦理问题？黄敏烈：是的，随着对话系统的发展，它可能会导致非常突出的伦理问题，因为它挑战了现有的伦理秩序和现有的社会认知。因此，在制定《分级定义》时，我们团队请来了北京师范大学新闻与传播学院院长张鸿忠教授。在我们的后续工作中，张教授将尽快向管理系和社会科学界推广。让相关部门和学术界了解后，他会从技术逻辑上直观地帮助我们制定相应的政策法规和伦理问题。这是非常有针对性的。AI科技评论：《分级定义》国内市场现有AI对话系统产品水平如何？黄敏烈：小米技术委员会主任、AI实验室主任王斌教授和我们一起制定了《分级定义》。目前负责领导小米智能生活助手“小爱同学”智能问答和聊天功能的开发。我们以小爱同学为例。我觉得小爱同学有一定的跨场景能力，水平应该在L2-L3之间。目前国内行业产品水平普遍在L2-L3范围内，较好的在L3。AI科技评论：那么国外的AI对话系统产品一般属于什么级别呢？黄敏烈：就产品而言，国内和国外没有太大区别。而且值得注意的是，我们做一个中文的AI对话系统比英文的难度更大，因为英文开源的文化和理念更好，英文更容易获得高质量的数据；另一方面，汉语的语言特点比英语难一点。AI科技评论：从目前大部分产品的状态升级到L4-L5有哪些技术难点？黄敏烈：首先要有记忆能力；其次，要有联想推理能力，以及自学能力；第三，L4-L5的重点是多模态。AI对话系统要想在元界应用，AI对话系统识别面部表情，理解语音，从语音中感受用户的情绪是非常重要的。能否进行高表现力的语音合成和动作以及表情的细粒度表达也是很重要的难点。AI科技评论：《分级定义》这种标准可以通过私人制定来实施吗？还是需要通过国家的审批，然后由政府制定相关的标准？黄敏烈：《分级定义》不是标准。首先，我们想从学术的角度来探讨这个问题，希望能促进大众的认知，同时也希望能为业界的系统开发和研究方向提供一些系统的思考。现阶段，我们不能说《分级定义》已经是一个固定的标准。这只是一个建议或指南。未来，我们会做更多的工作，推动它成为大家公认的标准。这是一个长期的过程，《分级定义》的发布只是AI对话系统走向规范化、系统化发展的第一步。AI科技评论：如您所说，要让《AI对话系统分级定义》得到广泛认可和应用，需要做什么样的工作？黄敏烈：未来在CCF（中国计算机学会）的支持下，我们计划与相关研究机构和研究人员合作，编写白皮书，重点开发AI对话系统，详细阐述目的和标准《分级定义》。另外，我们希望推动一个类似于AmazonAlexaPrize比赛的比赛，这是一个需要资金支持的长期目标。我们希望能够做出统一的开发环境，统一的数据集，统一的测试框架，真正比较不同的对话系统。我知道百度也有类似的想法，但是不够开放。未来，我们将联合各方力量，推动对话系统研究的进步，同时推动产业落地，在实际应用中取得一些新进展。

上一篇：如何解决SQL中连续年份的问题？

下一篇：微软Windows11应用商店页面迷你版正式上线：下载应用更快

对话清华大学黄敏烈：定义自动驾驶分类的AI对话系统，虚拟宇宙虚拟伙伴可能位于L5相关文章