“问题”可以说贯穿于生活之中。有些问题可以单独解决,比如考试题;但是当涉及到需要互动的问题时,比如面试,一个人就很难做到。这种互动不同于一般的问答。它通常需要“备用方”在特定情况下回答问题,引导用户思考,以达到最终目的。例如,面试官不仅会负责提问,还需要引导你表达对问题的理解和备选方案。这类问题也可以是开放式的,比如自我介绍。AI的终极目标是人类能做的一切都可以被模型代替,这一类“面试伙伴”也不例外。但在目前的自然语言处理领域,这种能力还没有得到足够的重视,在技术上具有挑战性。谷歌最近在其官方博客上介绍了一种重要的自然语言理解(NLU)能力,即自然语言评估(NLA),并讨论了它如何在教育领域发挥作用。典型的NLU任务关注用户意图,而NLA允许从多个角度评估答案。在用户想知道他们的答案有多好的情况下,NLA可以分析答案与预期的接近程度。在可能没有“正确”答案的情况下,NLA可以提供微妙的见解,包括时事性、相关性、冗长的问题等等。研究人员制定了NLA的范围,提出了执行局部NLA的实用模型,并展示了如何使用NLA来帮助求职者练习回答面试问题。自然语言评估概述NLA的目标是根据一组期望评估用户给出的答案。例如,有一个与学生互动的NLA系统,它有以下组成部分:向学生提出问题;期望定义了用户期望在答案中得到什么。例如特定的文本答案或用户希望答案涵盖的一组主题,答案需要简洁。学生提供的答案;评估结果。这些包括正确性、缺失信息、过于具体或笼统、文体反馈、发音等。可选:上下文。例如,一本书或一篇文章中的一段。有了NLA,无论是对答案的期望还是对答案的评价都可以非常广泛,这使得师生之间的互动更具表现力和细节。具有特定正确答案的问题允许对答案进行更细致的评估,而不是简单地正确或不正确,即使有明确的正确答案。背景:哈利波特与魔法石问题:霍格沃茨是什么?期望:霍格沃茨是一所魔法学校回答:我不确定,但我认为它是一所学校。对于一个问答系统,上面的答案可能会因为缺少关键细节“魔法”而被标记为不正确,因为用户会认为这个答案并不完全正确,没有多大意义。NLA可以提供更详细的理解,比如确定学生的答案过于笼统,学生自己对答案不够自信。这种细致入微的评估,以及注意到学生表达的不确定性,对于帮助学生在对话环境中培养技能非常重要。主题期望在许多情况下,提问者并不期望特定的答案。例如,如果学生被问到一个没有特定文本期望的观点问题,提问者更关心答案的相关性和观点,也许答案的简洁和流畅也在提问者的评估范围之内。问:请自我介绍一下。(告诉我一些关于你自己的情况?)期望:一系列主题,可能包括“教育”、“经历”、“兴趣”等。回应:我在加利福尼亚州萨利纳斯长大,然后去了我主修的斯坦福大学在经济学中,但后来对科技行业感到兴奋,所以接下来我...该部分是相关的。从自然语言处理的角度来看,这具有挑战性,因为答案可能很长,主题可以混合,每个主题本身也可以是多方面的。TopicalNLAModel原则上,topicalNLA(TopicallityNLA)是一个标准的多分类任务,开发者可以很容易地基于常用模型训练一个分类器。但是对于NLA来说,可用的训练数据很少,并且为每个问题和主题收集训练数据既昂贵又耗时。Google的解决方案是将每个主题分解为细粒度的组件,这些组件可以使用大型语言模型(LLM)进行识别,并进行简单的通用调优。研究人员将每个主题映射到一个潜在问题列表,并定义如果一个句子包含对这些潜在问题之一的答案,则该句子涵盖了该主题。对于Experience这个话题,模型可以选择一些潜在的问题,比如:你在哪里工作?你学什么?……比如Interests这个话题下,也有一些基本的问题,比如你对什么感兴趣?你有什么喜欢做的事?...这些基本问题是通过手动迭代过程设计的。重要的是,由于这些问题足够细粒度,当前的语言模型可以捕获这些句子的语义(例如What和Where之间的区别),还允许开发人员为NLA的主题任务提供零样本设置:模型训练一次后,可以不断添加新问题和新主题,或者可以通过修改基本内容来适配现有主题,而无需收集特定主题的数据。帮助求职者准备面试为了探索NLA的应用场景,谷歌开发者还与求职者合作开发了一款新工具InterviewWarmup,帮助用户在IT支持和用户体验等快速发展的就业领域准备面试设计。网站提供大量问题,求职者可以在家练习回答行业专家的问题,帮助他们在真人面试中变得更加自信和从容。谷歌也受到求职者的启发,在了解面试过程中的困难后,提出了NLA研究。InterviewWarmup不对答案进行打分和评判,只是提供给用户一个单独练习的环境,帮助用户提升自己。每当用户回答面试问题时,NLA模型都会逐句解析该答案,然后用户可以在不同的谈话要点之间切换,以查看在他们的答案中找到了哪些。研究人员意识到,在向用户发出他们的反馈“良好”的信号时,存在许多潜在的陷阱,尤其是当模型仅检测到一组有限的主题时。相反,系统将控制权交到用户手中,仅使用机器学习来帮助用户发现如何改进。迄今为止,该工具已经帮助了来自世界各地的大量求职者,并取得了很好的效果,开发团队最近将其扩展到非洲,并计划继续与求职者一起迭代并使该工具对数百万人正在寻找新工作的人更有帮助。自然语言评估(NLA)是一个技术上具有挑战性和有趣的研究领域。NLA为新的会话应用程序铺平了道路,这些应用程序通过从多个角度对答案进行细致的评估和分析来促进学习。通过与社区合作,从求职者和企业到课堂教师和学生,可以确定NLA有潜力帮助用户学习、参与和发展跨学科技能的情况,以负责任的方式构建应用程序使用户能够评估自己的能力并找到改进的方法。参考:https://ai.googleblog.com/2022/10/natural-language-assessment-new.html
