当前位置: 首页 > 科技观察

业界首个小样本NER数据集,由清华大学和阿里巴巴达摩院联合开发

时间:2023-03-15 20:08:39 科技观察

本文经人工智能新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。NER(命名实体识别)是NLP的一项基本任务。它的日常工作是训练人工智能(zhang)对一段文本中的专有名词(人名、地名、机构名称等)进行识别和分类。△烟台:我惹谁了?翻译成计算机语言就是从一段非结构化的自然语言中找出各种实体,并将它们归类到合适的类别中。并回避“蒋大桥同志当南京市长多少年了?”的问题。然而,在数据匮乏、样本不足的前提下,如何基于先验知识进行分类学习,是NLPer目前面临的一个难题——Few-Shot。尽管针对少样本NER(如预训练语言模型BERT)的研究越来越多,但仍然没有专门的数据集可供使用。现在,它总共包含来自维基百科的180,000个句子、490,000个实体和460万个注释,并且具有8个粗粒度类型和66个细粒度类型。数据集在这里。△已被ACL-IJCNLP2021录用。这是清华大学与阿里达摩院联合开发的业界首个人工标注的少样本NER数据集FEW-NERD。什么样的数据集?对比句子数量、标签数量、实体类型等统计数据,FEW-NERD比相关领域现有的NER数据集更大。此外,它还是最大的人工标注数据集。命名实体往往需要上下文,尤其是实体类型较多的时候,注解的难度会大大增加。FEW-NERD注释来自70名具有语言知识的注释者和10名经验丰富的专家。具体而言,每段由两人独立注释,然后由专家审阅,并在批次绘制的数据上进行复核。这对于标注的准确性是一个很好的保证。例如,上面这句话“LondonisthefifthalbumbytheBritishrockband...”中的实体“London”被准确标记为“Art-Music”。在段落标注时,由于样本量不大,FEW-NERD数据的类别分布有望相对均衡,这也是它与以往NER数据集的一个关键区别。在实践中,大多数看不见的实体类型都是细粒度的。而传统的NER数据集(例如CoNLL'03、WNUT'17、OntoNotes)仅包含4-18种粗粒度类型。这使得构建足够多的N路元任务和训练学习相关特征变得困难。相比之下,FEW-NERD总共包含112个实体标签,具有8个粗粒度实体类型和66个细粒度实体类型。△内圈代表粗粒度实体类型,外圈代表细粒度实体类型。基准的选择为了探索FEW-NERD中所有实体类型之间的知识相关性,研究人员对实体类型相似性进行了实证研究。△方块表示两种实体类型的相似度。从实验结果可知,相同粗粒度类型的实体类型具有更大的相似性,这使得知识迁移更容易。这启发了研究人员从知识转移的角度进行基准测试。最后,设置了三个基准:FEW-NERD(SUP)使用标准的监督NER设置,其中70%的数据随机拆分为训练数据,10%作为验证数据,20%作为测试数据。FEW-NERD(INTRA)只包含粗粒度实体类型的小样本学习任务。FEW-NRTD(INTER)少样本学习任务,包含60%细粒度类型,20%细粒度类型。实际应用对于少样本命名实体识别,FEW-NERD提供了一个包含粗粒度和细粒度的统一基准的大型数据集。作者还指出,由于精确的上下文标注,FEW-NERD数据集不仅可以用于少样本场景,还可以在监督学习、终身学习、开放信息抽取、实体识别等任务中发挥作用分类。此外,基于FEW-NERD的模型和系统还可以帮助构建生物医学、金融、法律等各个领域的知识图谱(KGs),进一步推动NLP在特定领域的应用发展。开发者还表示,未来FEW-NERD将通过添加跨域标注、远距离标注和更细的实体类型来扩展。Dataset官网链接:https://ningding97.github.io/fewnerd/dataset下载:https://github.com/thunlp/Few-NERD论文地址:https://arxiv.org/abs/2105.07464