当前位置: 首页 > 科技观察

EMNLP2022大会正式落下帷幕,最佳长论文和最佳短论文奖项揭晓

时间:2023-03-11 23:17:49 科技观察

近日,自然语言处理领域顶级会议EMNLP2022在阿布扎比召开阿拉伯联合酋长国的首都。今年大会共提交论文4190篇,最终录用829篇(长论文715篇,论文114篇),总体录用率为20%,与往年相差不大。会议于当地时间12月11日结束,同时揭晓了本届会议的论文奖项,包括最佳长论文(1篇)、最佳短论文(1篇)、最佳演示论文(1篇)。最佳长篇论文:抽象视觉推理与七巧板形状作者:AnyaJi、NoriyukiKojima、NoahRush、AlaneSuhr、WaiKeenVong、RobertD.Hawkins、YoavArtzi机构:康奈尔大学、纽约大学、艾伦研究所、普林斯顿大学论文链接:https://arxiv.org/pdf/2211.16492.pdf论文摘要:在这篇论文中,研究人员介绍了“KiloGram”,这是一种在人类和机器库中研究抽象视觉推理的资源。KiloGram以两种方式极大地改进了现有资源。首先,研究人员策划并数字化了1016个形状,创建了一个比现有工作中使用的形状大两个数量级的集合。该集合大大增加了整个命名变化范围的覆盖范围,提供了更全面的人类命名行为视图。其次,该系列不是将每个拼图视为一个整体形状,而是将其视为由原始拼图块制成的矢量图形。这种分解可以对整个形状及其部分进行推理。研究人员利用这一新的数字化拼图人物集合收集了大量的文字描述数据,反映出命名行为的高度多样性。我们使用众包通过为每个形状收集多个注释来扩展注释过程,从而代表它引发的注释分布,而不是单个样本。最终共收集到13,404个注释,每个注释描述了一个完整的对象及其分割的部分。KiloGram的潜力是巨大的。我们使用此资源来评估近期多模态模型的抽象视觉推理能力,并观察到预训练权重表现出有限的抽象推理能力,通过微调可以大大提高这种能力。他们还观察到,显式描述在一定程度上促进了人类和模型的抽象推理,尤其是在对语言和视觉输入进行联合编码时。图1是两个七巧板的示例,每个七巧板都有两个不同的注释。每个注释都包括对整体形状的描述(粗体)、部分的划分(颜色)和每个部分的名称(连接到每个部分)。上面的例子显示出接近完美一致性的低变异性,而下面的例子显示了语言和分割的差异性很高。KiloGram地址:https://lil.nlp.cornell.edu/kilogram本次会议的最佳长论文提名授予了两位研究人员,KayoYin和GrahamNeubig。论文:使用对比解释解释语言模型作者:KayoYin、GrahamNeubig论文摘要:模型可解释性方法通常用于解释NLP模型对文本分类等任务的决策,这些任务的输出空间相对较小。然而,当应用于语言生成时,输出空间通常由数万个标记组成,这些方法无法提供信息解释。语言模型必须考虑各种特征来预测标记,例如词性、数字、时态或语义。由于现有的解释方法将所有这些特征的证据组合成一个单一的解释,这对人类的理解来说更难解释。为了区分语言建模中的不同决策,我们探索了专注于对比解释的语言模型。他们寻找突出的输入标记,解释为什么模型预测一个标记而不是另一个标记。研究表明,对比解释在验证主要语法现象方面比非对比解释要好得多,并且它们大大提高了对比模型对人类观察者的可模拟性。研究人员还确定了模型使用相似证据的比较决策组,并能够描述模型在各种语言生成决策中使用的输入标记。代码地址:https://github.com/kayoyin/interpret-lm最佳短论文论文:Topic-RegularizedAuthorshipRepresentationLearning作者:JitkapatSawatphol,NonthakitChaiwong,CanUdomcharoenchaikit,SaranaNutanong机构:泰国VISTEC科技研究院论文摘要:在这项研究中,研究人员提出了作者身份表示正则化,这是一种蒸馏框架,可以提高跨主题性能并处理看不见的作者。这种方法可以应用于任何作者身份表示模型。实验结果表明,在跨主题设置中性能提高了4/6。同时,我们的分析表明,在具有大量主题的数据集中,具有跨主题设置的训练分片会发生主题信息泄漏,从而削弱其评估跨主题属性的能力。最佳演示论文:Evaluate&EvaluationontheHub:BetterBestPracticesforDataandModelMeasurements作者:LeandrovonWerra、LewisTunstall、AbhishekThakur、AlexandraSashaLuccioni等机构:HuggingFace论文链接:https://arxiv。org/pdf/2210.01970.pdf论文摘要:评估是机器学习(ML)的关键部分,本研究介绍了在Hub上评估和评估-一组有助于评估ML中的模型和数据集的工具。Evaluate是一个用于比较不同模型和数据集的库,支持各种指标。Evaluate库旨在支持评估的可重复性、记录评估过程并扩展评估以涵盖模型性能的更多方面。它包括针对各种领域和场景的50多个高效规范实现、交互式文档以及实现和评估结果的轻松共享。项目地址:https://github.com/huggingface/evaluate此外,研究人员还推出了EvaluationontheHub,该平台允许对HuggingFaceHub上超过75,000个模型和11,000个数据集进行免费的大规模评估,只需点击一个按钮。