计算语言学(computationallinguistics)是一个跨学科的研究领域,它试图找出自然语言的规律,建立计算模型,最后让计算机分析、理解像人类一样处理自然语言。过去,计算语言学的研究一般是由专门用计算机处理自然语言的计算机科学家来进行的。由于最近的研究表明人类语言的复杂性超乎想象,目前计算语言学的研究大多由不同学科的专家共同进行。一般来说,研究团队的成员包括计算机科学家、语言学家、语言专家(熟悉研究项目所要处理的语言的人),甚至研究人工智能、认知心理学、数学、逻辑等的专家.本文对计算语言学进行了全面的概述,希望能帮助读者全面理解计算语言学。以下是论文的目录。机器之心会简单介绍一下论文涉及的五个主题,分别是语言建模与概率、机器翻译、序列标注与隐马尔可夫模型、解析与PCFG、主题模型与PLSASampledwithGibbs,几乎每一章都有编程任务和练习。论文最初发表于2013年,但在2016年进行了多次修改和更新。论文地址:http://cs.brown.edu/courses/csci2951-k/papers/cl-intro.pdf更新后的介绍和地址下面章节会提供:***章:语言建模与概率论章节地址:https://cs.brown.edu/courses/csci1460/assets/files/langmod.pdf其实概率方法在现代计算语言学。本文讨论的所有方法和主题都基于或涉及各种概率模型。本章主要是希望提供这些最基础的概率论知识,为其他章节打下坚实的基础。事实上,本文描述的各种语言模型都需要一定的概率论基础,但这些概率论基础只需要最简单的概念和公式。更具体的概率论,请参考概率论相关书籍。本章介绍概率、一元文本建模、上下文相关和n-gram语言模型。第二章:机器翻译章节地址:https://cs.brown.edu/courses/csci1460/assets/files/mt.pdf统计机器翻译背后的概念非常简单。假设我们翻译中文和英文,那么我们首先需要一组中英平行语料库,也就是语料库中的中文句子和英文句子的距离很近,然后我们用这些语料库来建模的概率两种语言,***做预测时只需要选择概率***的句子作为翻译即可完成翻译。本章介绍机器翻译、IBM模型1和模型2、基于短语的机器翻译和解码的基础知识。不过本章并未介绍机器翻译的深度学习方法,如RNN、LSTM、注意力机制等,但对于初学者系统理解统计机器翻译还是很有帮助的。第三章:序列标注和隐马尔可夫模型章节地址:https://cs.brown.edu/courses/csci1460/assets/files/hmm.pdf序列标注问题给定一个长度为n的序列x=(x_1,...,x_n),以及长度为n的输出序列y=(y_1,...,y_n),其中y_i∈Y是x_i的标签。许多语言处理任务都使用这个框架,因此序列标注问题在计算语言学中占有非常重要的地位。在本章中,我们将介绍隐马尔可夫模型(HMM),这是一种用于此类任务的非常优雅的技术。HMM最初用于语音识别,其中i是时间的度量。隐马尔可夫模型:马尔可夫过程是完全确定的——一个给定的状态总是跟随另一个。交通灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的出现。然后,借助隐状态分析,隐马尔可夫模型可以估计未来可能的观察模式。在这个例子中,气压高或低的概率(即隐藏状态)可以用来预测晴天、雨天、阴天的概率。优点:容忍数据可变性,适用于识别(recognition)和预测操作场景示例:面部表情分析,天气预报本章介绍隐马尔可夫模型,最有可能的标签和维特比解码,如何使用HMM确定序列概率,Backwardprobability,评估HMM参数、前向-后向算法中的MT参数、使用HMM的平滑算法、词性归纳。Chapter4:ParsingandPCFG章节地址:https://cs.brown.edu/courses/csci1460/assets/files/parsing.pdf在自然语言中,比如英语,单词连接形成短语,短语和短语连接它们组成新词组。例如,在句子“SamthinksSandylikesthebook”中,单词“the”和“book”组合形成名词短语(NP)“thebook”,与动词“like”连接形成动词短语(VP)“likesthebook”,与“Sandy”连成嵌套句或句子(S)“Sandylikesthebook”。本章的主题是解析——发现单词串中的某种结构。本章首先介绍短语结构树和依赖树,然后介绍概率上下文无关语法(PCFG)、使用PCFG进行解析以及如何评估PCFG,然后介绍评分解析器。本章还包括评估树库中更好的语法以及如何编写A解析器。Chapter5:TopicModelandPLSAandGibbsSampling章节地址:https://cs.brown.edu/courses/csci1460/assets/files/topicmod.pdf本章主要介绍主题模型,写程序获取概念》关于性”。本章介绍主题模型、概率潜在语义分析(PLSA)和学习PLSA参数。主题模型是一种统计模型,用于在机器学习和自然语言处理领域的一系列文档中发现抽象主题。直观上,如果一篇文章有??中心思想,某些词出现的频率会更高。例如,如果一篇文章是关于狗的,那么像“狗”和“骨头”这样的词会出现得更频繁。如果一篇文章是关于猫的,那么“猫”和“鱼”等词出现的频率会更高。而一些诸如“this”、“and”之类的词在两篇文章中出现的频率大概是差不多的。但真实情况是,一篇文章通常包含多种主题,每个主题所占的比例都不一样。因此,如果一篇文章10%与猫相关,90%与狗相关,则与狗相关的关键词出现频率将是与猫相关关键词的9倍左右。主题模型试图在数学框架中表示文档的这一特征。主题模型自动分析每篇文档,统计文档中的词数,并根据统计信息确定当前文档包含哪些主题以及每个主题所占的比例。主题模型最初应用于自然语言处理方向,后来扩展到生物信息学等其他领域。【本文为栏目组织《机器之心》原创文章,微信公众号《机器之心(id:almosthuman2014)》】点此查看作者更多好文
