文本挖掘的分类、聚类、信息抽取等算法总结文本挖掘一直是信息处理的一个非常重要的领域,因为无论是推荐系统、搜索系统还是其他广泛的应用,我们都需要文本的力量矿业。本文首先简要介绍了文本挖掘的几种主要方法,包括自然语言处理、信息检索和自动文本摘要,然后从文本表示、分类方法、聚类方法和信息提取方法等几个部分总结了各种机器学习算法的应用。机器之心对本文进行了简要概述。论文地址:https://arxiv.org/abs/1707.02919摘要:每天产生的信息量都在快速增长,这些信息基本上都是非结构化的海量文本,不易被计算机处理和感知。因此,我们需要一些高效的技术和算法来发现有用的模式。文本挖掘是近年来引起人们广泛关注的一项任务,它是从文本文件中提取有效信息的任务。本文将描述一些最基本的文本挖掘任务和技术(包括文本预处理、分类和聚类),并简要介绍它们在生物制药和医学领域的应用。一、引言由于各种形式的文本数据(如社交网络、医疗记录、医疗保险数据、新闻出版物等)数量惊人,文本挖掘(TM)近年来备受关注。IDC在一份报告中预测,到2020年,数据量将增长到400亿太字节(4*(10^22)字节),这是自2010年初以来的50倍增长[50]。文本数据通常是非结构化信息,是大多数情况下可以生成的最简单的数据形式之一。人类可以轻松处理和感知非结构化文本,但机器显然很难理解它。不用说,这些文本一定是宝贵的信息和知识来源。因此,设计能够在各种应用中有效处理非结构化文本的方法迫在眉睫。1.知识发现与数据挖掘(略)2.文本挖掘方法信息检索(InformationRetrieval,IR):信息检索是从满足信息需求的非结构化数据集合中寻找信息资源(通常是文档)的行为。自然语言处理(NLP):NLP是计算机科学、人工智能和语言学的一个子领域,旨在使用计算机理解自然语言。从文本中提取信息(IE):信息提取是从非结构化或半结构化文档中自动提取信息或事实的任务。文本摘要:许多文本挖掘应用程序需要对文本文档进行摘要,以便简要概述有关某个主题的大型文档或文档集合。无监督学习方法(文本):无监督学习方法是试图从未标记的文本中获取隐藏数据结构的技术,例如使用聚类方法将相似的文本归为同一类。监督学习方法(文本):监督学习方法是机器学习技术,它学习分类器或从标记的训练数据中推断特征以对看不见的数据执行预测。文本挖掘的概率方法:有许多概率技术,包括无监督主题模型(例如概率潜在语义分析模型(pLSA)[64]和文档主题生成模型(LDA)[16])和监督学习方法(例如可以可以在文本挖掘上下文中使用的条件随机字段中找到)[83]。文本流和社交媒体挖掘:Web上存在许多生成大量文本数据流的不同应用程序。意见挖掘和情感分析:随着电子商务和网上购物的出现,大量关于不同产品评论或用户意见的文本正在生成和增长。生物医学文本挖掘:生物医学文本挖掘是指生物医学科学领域的文本挖掘任务。2.文本表示与编码1.文本预处理Tokenization:Tokenization是将一个字符序列分解成标记(token/wordorphrase)的任务,它可能会去除一些字符(如标点符号)。过滤:通常对文档进行过滤以删除某些单词。一种常见的过滤是停止词删除。词形还原:词形还原是一项与词形态分析有关的任务,即将词的各种变形形式分组,以便将它们作为单个项目进行分析。词干提取:词干提取方法旨在获取派生词的词干(词根)。词干提取算法相对依赖于语言。2.向量空间模型(略)三.分类1.朴素贝叶斯分类器朴素贝叶斯分类器可能是最简单和最通用的分类器。它在假设不同词条相互独立且服从相同分布的前提下,通过概率模型对文档的类别分布进行建模。朴素贝叶斯方法对条件概率分布做出条件独立假设。由于这是一个强有力的假设,朴素贝叶斯方法因此得名。尽管这种所谓的“朴素贝叶斯”假设在许多实际应用中显然是错误的,但它仍然表现出奇的好。朴素贝叶斯分类[94]通常有两种主要模型,两者都旨在根据文档中单词的分布推导每个类别的后验概率。多元伯努利模型:在该模型中,每个文档都会用一个二值特征向量来表示文档中是否存在某个词,从而忽略词出现的频率。原始论文可以在[86]中找到。多项式模型:通过将文档表示为词袋(BagOfWords),能够捕捉文档中词(项)出现的频率。[74,95,99,104]中介绍了多项式模型的许多不同变体。麦卡勒姆等人。对伯努利模型和多项式模型进行了广泛的比较,并得出结论,伯努利模型可能优于词汇表较小的多项式模型;具有大量词汇表的多项式模型总是优于伯努利模型;当两个模型的词汇量都达到峰值时,多项式模型总是获胜。2.最近邻分类器最近邻分类器是基于邻近数据的分类器,并基于距离度量进行分类。主要思想是属于同一类的文档更可能“相似”或基于相似度计算彼此更接近,例如(2.2)中定义的余弦相似度。测试文档的分类是根据训练集中相似文档的类别标签推断出来的。如果我们将训练集中的K个最近邻居视为一个标签,则该方法称为k最近邻居分类,k个邻居中最常见的类可以作为整个簇的类,参见[59,91,113,122]以获得更多K-最近邻方法。3.决策树分类器决策树基本上是训练样本的层次树,其中样本的特征值可以用来分离数据的层次,特征分离的顺序一般由信息决定熵和信息增益。换句话说,决策树可以根据每个节点或分支定义的分割标准,递归地将训练数据集分割成更小的子树。树的每个节点都是对训练样本的某些特征的判断,从该节点往下的每个分支或子分支都对应这个特征值。从根节点开始对实例进行分类,首先需要对信息增益***的特征进行判断和排序,然后利用这个节点判断样本是否具有特定的特征,将样本分为以下几个分支,直到它完成了***分类到达叶节点。这个过程递归地重复[99]。有关决策树的详细信息,请参见[19、40、69、109]。决策树已与增强算法结合使用,例如梯度增强树。[47,121]讨论了增强技术以提高决策树分类的准确性。4.支持向量机支持向量机(SVM)是一种监督学习分类算法,广泛应用于文本分类问题。没有内核的支持向量机是线性分类器的一种形式。在文本文档中,线性分类器是一种线性组合文档特征以做出分类决策的模型。因此,线性预测的输出可以定义为y=ax+b,其中x=(x1,x2,...,xn)为归一化文档词频向量,a=(a1,a2,...,an)是系数向量,b是标量。我们可以将类别分类标签中的预测变量y=ax+b理解为不同类别的分离超平面,没有核函数的hard-margin支持向量机只能分割线性可分的数据。支持向量机最初是在[34,137]中引入的。支持向量机试图在不同的类别中找到一个“好的”线性分隔符[34,138]。单个SVM只能分离两个类,正类和负类[65]。支持向量机试图找到正样本和负样本之间具有最大距离ξ(也称为最大边距)的超平面。决定超平面与样本距离ξ的文档称为支持向量,支持向量实际上指定了超平面的实际位置。如果两类文档不是线性可分的,那么一定有一些样本被超平面误分类了。这种线性不可分的数据不能用线性支持向量机,而支持向量机的强项就在于它的核函数。软区间支持向量机通过应用核函数可以成为一个非常强大的非线性分类器,具有极强的鲁棒性。4.聚类文本聚类算法分为许多不同的类型,如凝聚聚类算法、分区算法和概率聚类算法。1.层次聚类算法层次聚类算法构建了一组可以描述为层次聚类的类。层次结构可以自上而下(称为拆分)或自下而上(称为内聚)构建。层次聚类算法是一种基于距离的聚类算法,它使用相似度函数来计算文本文档之间的接近程度。在[101,102,140]中可以找到文本数据层次聚类算法的完整描述。2.K-均值聚类K-均值聚类是数据挖掘中广泛使用的一种分割算法。k均值聚类根据文本数据的上下文将n个文档分成k个组。属于某一类的典型数据围绕在构建的集群的中心周围。k-means聚类算法的基本形式如下:3.概率聚类和主题模型主题建模是一种著名的概率聚类算法,近年来受到广泛关注。主题建模[16,53,64]的主要思想是为文本文档的语料库构建概率生成模型。在主题模型中,文档是主题的混合体,而主题是词的概率分布。两个主要主题模型是:概率潜在语义分析(pLSA)[64]和潜在狄利克雷分配(LDA))[16]。pLSA模型不提供任何文档级别的概率模型,这使得它很难推广到新的未见过的文档。HiddenDirichlet分配模型是最先进的无监督技术,用于从收集的文档中提取主题信息(主题)[16、54]。基本思想是文档是潜在主题的随机组合,每个主题都是单词的概率分布。五、信息提取信息提取(IE)是从非结构化或半结构化文本中自动提取结构化信息的任务。换句话说,信息抽取可以被视为完全自然语言理解的一种有限形式,我们提前知道我们想要寻找什么信息。1.NamedEntityRecognition(NER)命名的实体是一个单词序列,可以识别一些真实的实体,比如“谷歌公司(GoogleInc)”、“美利坚合众国(UnitedStatesofAmerica)”、“BarackObama”(巴拉克奥巴马)”。命名实体识别的任务是找到命名实体在自定义文本中的位置,并将其区分为预先定义的类别(如人物、组织、位置等)。NER不能像字典那样简单地进行一些字符串匹配,因为a)字典通常是不完整的,并且不会包含给定实体类型的所有形式的命名实体。b)命名实体通常取决于它们的上下文,例如“大苹果”可以是一种水果,也可以是纽约的昵称。2.隐马尔可夫模型隐马尔可夫模型假设产生标签(状态)或观察的马尔可夫过程取决于一个或多个先前的标签(状态)或观察。因此,对于观察序列X=(x1,x2,...,xn),给定标签序列Y=(y1,y2,...,yn),我们拥有已成功用于命名实体的隐藏马尔可夫模型识别任务和语音识别系统。有关隐马尔可夫的完整描述,请参见[110]。3.条件随机场条件随机场(CRF)是用于序列标记的概率模型。CRF由Lafferty等人介绍***。对于下面的观察(未标记数据序列)和Y(标记序列)中的条件随机场,我们引用与[83]中相同的概念。条件随机场广泛用于信息提取和一些语音标注任务[83]。7.讨论在本文中,我们不仅试图对文本挖掘领域进行简短介绍,而且我们还概述了该领域广泛使用的一些基本算法和技术。虽然本文主要从发展和上下文的角度对文本挖掘领域进行总结,难以对这些算法或方法进行更详细的描述,但本文提供了大量相关的论文资源,希望能给大家更深入的理解这个领域。读者提供扩展。【本文为栏目组织《机器之心》微信公众号《机器之心(id:almosthuman2014)》原文翻译】点击此处查看作者更多好文
