本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。提起《007》,你肯定会想到詹姆斯·邦德。这类有隐藏含义的词,可以统称为Cant,包括暗语、行话、行话等。常见的,比如“666”,还有网络“暗语”,比如zqsg、xswl……对这些的理解文字在日常生活、广告和喜剧中非常重要。那么,如何让AI理解它们呢?近日,USCD和北航的研究人员在“玩游戏”的同时开发了Cant-DogWhistle的数据集,并已经开源。利用游戏收集数据研究团队改编了经典桌游《解密(代码拦截战)》,设计了《解密在线》,利用其中的记录来收集数据。△DecryptoOnline玩家界面简单来说,Decrypto游戏就是将4名玩家分成2队,由队长提供线索词B,让队友联想到初始词A,同时防止对手从推断单词A。具体来说,每个团队有四个数字为1-4的初始单词,只有团队成员才能知道这些单词。每一轮,队长抽一张密码卡,根据卡上的3个数字给出序号字对应的线索(Cant)。例如:初始词1是“black”,那么1对应的线索词可以是“night”。第一轮,队友根据线索词推断卡片上的数字,组长会揭晓猜对与否。同时,对方也会记录这些信息。第二轮,队长再抽一张数字牌,给出提示词。两队都要据此推算数字,答对得一分。也就是说,队长给出的线索词,既要让队友对应起首词,又要防止对手猜出其中的联系。任务设置研究人员为模型设置了两个子任务,初始词分别是可见和不可见。insider子任务模拟内部人之间的交流,第一行的4个初始词作为输入。由于emoji表情符号在交流中起着重要作用,因此它们也被允许作为有效输入。该模型通过初始词和线索词进行推断,预测并输出初始词对应的序号(灰色背景)。在外部子任务中,初始词是不可见的。模型从猜词记录、线索词等进行推理,预测并输出记录对应的序号(灰色背景)。定量分析为了了解不同模型理解Cant的能力,研究人员通过两个子任务进行了定量分析。△两个子任务的准确率得分对比在wordembedding相似度的测试中,使用庞大且多样化的数据集训练的DSG的性能明显优于其他模型。虽然具有更多计算能力的大规模模型在内部任务上的表现明显优于基础模型。例如,RoBERTa-base和ERNIE-base都优于BERT-base。此外,具有参数共享的ALBERT-base在这两个任务上都略低于BERT。值得注意的是,在这两项任务上表现最好的模型分别落后于人类表现12.8和8.5的大幅差距。这表明DogWhistle是一个非常具有挑战性的数据集,为下一代预训练语言模型提供了新的舞台。定性分析研究人员还给出了BERT无法预测但人类可以正确预测的内部任务的代表性样本。模型发布后出现了“DancingPallbearers”,因此模型可能对这个话题了解不多。《007》(指詹姆斯·邦德电影)的推理要求模型对各种知识有高度的理解,而不是过拟合浅层的词汇特征,这也被认为是自然语言推理的主要硬伤。还有就是“小孩子会打酱油”,这也需要模特具备丰富的语言知识才能看懂。研究人员将DogWhistle数据集作为中间任务,通过中间任务迁移学习来提升模型的性能。首先,模型在??内部子任务上微调,然后在蚂蚁金服问题匹配语料库(AFQMC)和大型中文问题匹配语料库(LCQMC)上再次微调。△原始任务和中间任务中的准确率得分结果表明,DogWhistle帮助模型在两个数据集上都取得了更好的性能。作者简介徐灿文,论文第一作者,曾就读于武汉大学,现为美国加州大学圣地亚哥分校(UCSD)博士生。他曾在微软亚洲研究院实习,现在在HuggingFace工作。主要研究方向包括:自然语言处理中的深度学习、自然语言生成和社交媒体分析。论文第二作者周望春树是北航计算机硕士。微软亚洲研究院实习生,致力于NLP研究。据作者介绍,该论文已被NAACL2021录用,数据集已在GitHub上开源。
