最近,微软研究人员BhaskarMitra和NickCraswell在arXiv上提交了一篇名为《用于信息检索的神经模型(Neural Models for Information Retrieval)》的论文。论文概述了神经信息检索模型背后的基本概念和直观内容,并将其置于传统检索模型中。在的背景下。论文的目的是在神经模型和信息检索之间架起一座桥梁,互通有无,加速神经信息检索技术的发展。机器之心编译论文,论文链接在文末。用于信息检索(IR)的神经排序模型使用浅层或深层神经网络根据查询对搜索结果进行排序。与在手动注释信息检索特征上使用机器学习技术的传统学习排名模型相比,神经模型可以从原始文本材料中学习语言,从而弥合查询和文档词汇表之间的差距。表征。与经典的信息检索模型不同,这些新的机器学习系统在部署之前需要大量的训练数据。本教程介绍了神经信息检索模型背后的基本概念和直觉,本教程还将它们置于传统检索模型的背景下。我们首先介绍信息检索的基本概念以及学习文本向量表示的不同神经和非神经方法。然后,我们回顾使用预训练神经词嵌入的浅层神经信息检索方法,而无需信息检索任务的端到端学习。之后我们介绍了深度神经网络并讨论了流行的深度架构。***,我们将回顾目前用于信息检索的DNN模型,并以讨论的形式总结神经信息检索未来可能的发展方向。在过去的十年中,计算机视觉、语音识别和机器翻译的性能在研究和实际应用中都取得了超乎想象的进步。这些突破大多是由神经网络模型的最新进展推动的,这些模型通常具有多个隐藏层,我们称之为深度架构。令人兴奋的新应用程序,如对话代理(agents)和以人类水平玩游戏的代理也不断涌现。现在,信息检索界也开始应用这些神经方法,为推进最先进的技术甚至在其他领域取得突破开辟了可能性。有许多方法可以检索信息。用户可以通过文本查询的形式表达自己的信息需求。这里所谓的文本查询方式可以指键盘输入、选择查询建议、语音识别或图片查询,甚至有些情况下要求不明确。检索可能涉及对现有内容(文档或短文本答案)的部分进行排名,或者通过组合新答案来指定检索到的信息。信息需求和检索结果可以以相同的方式使用(例如,检索文本文档以响应关键字查询),也可以不同的方式使用(例如,使用文本查询进行图像搜索)。检索系统在对结果进行排序时可能会考虑用户历史、物理位置、信息的时间变化或其他上下文因素。这些因素还可以帮助用户形成他们的意图(例如,通过自动完成查询或查询建议)和/或可以帮助用户提取更易于检查的简明结果摘要。神经信息检索是指将浅层或深层神经网络应用于这些检索任务。本教程的目的是介绍响应文档排名查询的神经模型,这是一项重要的信息检索任务。搜索查询通常可能包含几个词,但文档的长度会根据具体场景而有所不同,从几个词到数百句甚至更长。用于信息检索的神经模型使用文本的向量表示,其中通常包含大量需要调整的参数。具有大参数集的机器学习模型通常需要大量的训练数据。与学习排名的传统方法(这些方法在手动标记的特征集上训练机器学习模型)不同,用于信息检索的神经模型通常可以使用查询和文档的原始文本作为输入。学习文本的适当表示也需要使用大量数据进行训练。因此,与经典的信息检索模型不同,这些神经方法非常需要数据,而且数据越多,性能越好。可以以无监督或监督的方式学习文本表示。监督方法使用信息检索数据(例如带注释的查询文档对)来学习针对手头任务进行端到端优化的表示。如果没有足够的标记用于信息检索,无监督方法可以仅使用查询和/或文档来学习表示。在无监督学习方法中,不同的无监督学习设置可能会导致不同的向量表示,这不同于它们在表示对象之间捕获的相似性概念。在应用这些表示时,应仔细检查无监督学习设置的选择,以便我们可以产生适合目标任务的文本相似性概念。潜在语义分析(LSA)等传统信息检索模型可以学习单词和文档的密集向量表示。神经表征学习模型与这些传统方法有一些共同点。几十年来,我们对这些传统方法的大部分理解都可以扩展到这些现代表征学习模型。在其他领域,神经网络的进步是由特定的数据集和应用需求驱动的。例如,视觉对象识别、语音识别和游戏代理的数据集和成功架构差异很大。尽管信息检索与自然语言处理领域有一些相似之处,但它也面临着自己的一系列特殊挑战。信息检索系统必须处理可能包含未见单词的简短查询,以匹配不同长度的文档,并找到可能包含大量无关文本的相关文档。信息检索系统应该学习查询和文档文本中指示相关性的模式,即使查询和文档使用不同的词汇表,即使这些模式是特定于任务或特定于上下文的)。本教程的目标是在传统信息检索研究的背景下介绍神经信息检索的基本内容,用可见的例子来展示关键概念并描述关键模型的一致数学符号。第2节介绍了信息检索任务、挑战、指标和非神经模型的调查。第三部分将简要概述神经IR模型和IR的不同神经方法的分类。第四节介绍了学习术语嵌入的神经和非神经方法,这些方法不使用来自标签的监督来进行信息检索,而是关注相似性的概念。第五节调查了一些用于合并这些IR嵌入的特殊方法。第六节介绍了目前用于信息检索的深度模型的基础知识,包括流行的架构和工具包。第七节调查了在信息检索中实现深度神经网络的一些特殊方法。第八节是我们的讨论,包括未来的工作和结论。图1:ACMSIGIR会议上神经信息检索(IR)论文的百分比(通过手动筛选论文标题计算得出)清楚地表明该研究领域的受欢迎程度逐年增长。我们编写本教程是因为神经信息检索是一个新兴领域。神经信息检索领域的研究出版物正在增加(图1),以及相关主题的研讨会[42–44]、教程[97、119、140]和会议[41、129]。因为这种兴趣最近才出现,一些在信息检索方面具有专业知识的研究人员可能不熟悉神经模型,而其他熟悉神经模型的研究人员可能不熟悉信息检索。因此,本教程的目的是通过描述当今使用的相关信息检索概念和神经方法来弥合这一差距。以下是综述论文目录:2Fundamentalsoftextretrieval3AnatomyofaneuralIRmodel4Termrepresentations5TermembeddingsforinformationretrievalIR)6Deepneuralnetworks(深度神经网络)7Deepneuralmodelsforinformationretrieval(DeepneuralmodelsforIR)8摘要原文:https://arxiv.org/abs/1705.01509【本文为机器之心微信公众号原译《机器之心》(id:almosthuman2014)》】点此查看作者更多好文
