来训练生物医学等专业领域的NLP模型。除了特定的数据集,“域外”文本也被认为是有用的。但近日,微软研究人员“大喊”:我不这么认为!什么是预训练?这是一道拷问人工智能“门外汉”灵魂的题。作为人类,我们不需要从头学习一切。但是,我们会“以旧学新”,用过去学到的旧知识去理解新知识,处理各种新任务。在人工智能中,预训练就是模仿人类的过程。论文中经常看到预训练这个词,指的是用一个任务来训练一个模型,帮助它形成可以在其他任务中使用的参数。使用学习任务的模型参数初始化新任务的模型参数。这样,旧知识可以帮助新模型根据旧经验成功执行新任务,而不是从头开始。先前的研究表明,在生物医学等专业领域训练NLP模型时,特定领域的数据集可以提高准确性。然而,也普遍认为“治外法权”文本也很有用。但!微软研究人员质疑这一假设。近日,微软研究人员提出了一种用于生物医学NLP领域特定语言模型预训练的人工智能技术。并自信地说,通过从公开可用的数据集中编译“全面的”生物医学NLP基准,已经在包括命名实体识别、基于证据的医学信息提取、文档分类等任务上取得了最先进的结果。在他们看来,“混合域”预训练?这不就是另一种形式的迁移学习吗?源域是一般文本(如新闻),目标域是专业文本(如生物医学论文)。在此基础上,特定领域生物医学NLP模型的预训练总是优于通用语言模型的预训练,说明“混合领域”预训练并不完美。神经语言模型预训练的两种范式。“混合域”预训练(上);仅使用域内文本预训练(底部)如此自信,研究人员有证据。他们将预训练建模与特定于任务的微调与对生物医学NLP应用的影响进行了比较。作为第一步,他们创建了一个名为生物医学语言理解和推理基准(BLURB)的基准,该基准侧重于PubMed(生物医学相关数据库)提供的出版物,涵盖关系提取、句子相似性和问题回答等主题,以及分类任务,如是/否问题回答。为了计算总分,BLURB中的语料库按任务类型分组并分别打分,然后计算所有平均值。为了进行评估,他们生成了一个词汇表并在最新的PubMed文档上训练了一个模型:1400万个摘要和32亿个单词,总计21GB。在配备16个V100显卡的NvidiaDGX-2机器上进行了大约5天的训练。该模型的步长为62,500,批量大小与之前生物医学预训练实验中使用的计算量相当。研究人员还表示,他们的模型PubMedBERT建立在谷歌的BERT之上,这又是一种自信。那个很棒的BERT?谷歌在2018年提出的一种NLP模型,成为近年来NLP领域最具突破性的技术。然而,有趣的是,将PubMed的全文添加到预训练文本(168亿个单词)中会略微降低性能,直到延长预训练时间。但研究人员将这部分归因于数据中的噪音。“在这篇论文中,我们挑战了神经语言学预训练模型(即上面提到的“混合域”预训练)中的普遍假设,并表明从“无”开始和特定领域的预训练可以显着优于“混合领域”预训练。“为生物医学NLP应用带来新的、最先进的结果,”研究人员写道,“我们将在未来进一步探索特定领域的预训练策略,以扩展BLURB基准到临床或其他高价值领域。”为了鼓励生物医学NLP的研究,研究人员创建了一个以BLURB基准为特色的排行榜。他们还发布了预训练的特定任务模型作为开源。该研究已发表在预印本论文上网站arxiv.
