1。nlpnlp的发展历史很早,因为自计算机发明以来人们就有了语言处理的需求。在整个计算历史中,已经使用了各种字符串算法。伟大的乔姆斯基提出了生成语法,人类拥有的处理语言的最基本框架,自动机(正则表达式),随机上下文无关分析树,字符串匹配算法KMP,动态规划。在nlp任务中,比如文本分类,成熟的很早,比如垃圾邮件分类等,使用NaiveBayes可以有很好的效果。20年前,机器翻译可以通过纯粹的统计和规则来完成。反观cv领域,mnist分类那时候做的并不好。20世纪90年代,信息检索的发展提出了BM25等一系列文本匹配算法,Google等搜索引擎的发展将NLP推向了顶峰。比CV字段暗一点。2、cvcv的前身,很难提取特征,有一个领域叫图像处理。它研究图像压缩、过滤和边缘提取,每天和一个名叫莱娜的美女玩耍。早期的计算机视觉领域饱受特征提取困难的困扰。无论是HOG还是各种人工特征提取,都没有办法达到很好的效果。大规模商业应用困难重重。同期,nlp中的手工特征?svm开始流行起来。3.深度学习的兴起——自动特征提取近年来非常流行的深度学习模型可以简单概括为:深度学习=特征提取器?分类器解决了cv难以手动提取特征的问题,因此带来了cv取得了爆炸性进展。深度学习的思想是让模型自动学习从数据中提取特征,从而产生很多人工难以提取的特征:4.nlp的知识困境并不代表nlp在这波浪潮下没有进步深度学习,但突破并不像cv那样巨大。对于很多文本分类任务,使用庞大复杂的two-wayLTSM效果并不一定比做好手工feature+svm好多少,而且svm速度快,紧凑,不需要大量数据,不需要gpu,而且很多场景确实不深学习到的模型比svm、gbdt等传统模型好用。nlp更大的问题是知识困境。与cv的感知智能不同,nlp是认知智能,认知必然涉及到知识问题,但知识是最离散、最难表达的。
