前言人类对世界约80%的感知是通过视觉获得的。因此,如何让计算机拥有甚至超越人类的视觉一直是科学研究的一个重要方向。图像文字识别技术是计算机视觉技术的重要组成部分,在日常生活中具有重要的价值和意义。当前的图像文字识别是指对图像中的文字进行识别。传统文本识别的总体框架如图1所示,包括三个主要模块:预处理、特征提取和分类器设计[1]。首先,经过预处理操作,形成规定大小的图片,使字符位置在图片的中心,然后从预处理后的图片中提取字符特征,最后分类器根据提取的特征。图像文字识别的预处理部分主要包括样本归一化、平滑去噪、伪样本生成技术;特征提取部分可分为结构特征和统计特征。提取和统计特征目前比较常用的是Garbor特征和Gradient特征;常用的分类器有SVM、HMM、二级决策函数。图1传统字符识别框架图近年来,基于上述方法的识别性能进展甚微。主要原因是字符分类的结果主要依赖于提取的特征,但很难设计出更鲁棒的特征。自深度学习技术出现以来,文本识别获得了新的活力。我们可以利用CNN、DNN、RNN等深度学习技术很好地解决文本识别问题,而且识别过程不像传统方法那么复杂。做预处理,人工设计特征,提取特征操作,直接用文字图片作为网络输入。而文本识别一直是深度学习的一个主要应用方向。1990年代,Y.Lecun和Bengio等深度学习先驱联合设计了LeNet5来解决手写数字识别问题。图2是他们在贝尔实验室演示中所做的。图2手写数字识别Demo图简单的使用深度学习解决汉字识别,效果不是很理想。近年来,研究人员在汉字识别问题上也做了大量工作,发现加入一些领域知识,结合CNN方法,可以更好地解决汉字识别问题。如利用数据生成技术生成大量样本数据来防止过拟合问题[2]和传统的特征提取方法结合CNN方法来提高识别效果。Zhong[3]等人提出采用特征提取+C??NN来识别手写汉字。提取的特征是8个方向上的Garbor特征、梯度特征和HOG特征。累积字符的特征图如图3所示。他们改进后的AlexNet和GoogleNet网络结构如图4和图5所示,与原来的结构相比,他们在输入层进行了改进,使用特征图像作为输入层,最佳综合网络结构的识别结果在CASIA-HWDB数据集上达到了96.74%,绝对超过了人类的识别水平(96.13%)。图3“冀”字特征图图4离线手写汉字识别AlexNet结构图图5离线手写汉字识别GoogleNet结构图开始研究对包含序列信息的文本行的识别[4]。针对这个问题,一个很有潜力的解决方案是应用神经回归网络(RNN)模型、LSTM、BLSTM(双向长短期记忆)等模型,因为这些模型对序列数据有很好的建模能力,所以它们适用于用于解决带有序列信息的文本行识别问题。基于LSTM-RNN的方法,在英语、拉丁语等西方语言的文本行识别中取得了不错的效果[5-7]。文献[8]****采用LSTM-RNN模型进行中文文本行识别,也达到了该领域的先进水平。总之,RNN+CNN可以训练出一个端到端的深度学习模型,也是研究文本识别的主要方法。应用文字识别在生活中有着广泛的应用。比如我们比较熟悉的移动设备上的手写识别,手写输入功能已经成为移动设备(手机、pad)的标配。图6移动设备手写识别文本识别实现办公自动化,将纸质文档转换为电子文档。此外,已经应用了文件识别和邮政地址识别。图7证件图像识别此外,文字识别还有很多有趣的应用,比如辅助我们进行图像搜索和分类,AR眼镜实现包括街景文字在内的实时场景翻译。图8场景文字识别未来,文字识别也将有很大的应用市场,如在图像搜索引擎、自动驾驶、金融保险、AR、智能机器人、教育医疗等领域[9]。而且它还能产生很多创新??的应用,比如让盲人认识世界,让盲人看大片。结语目前人工智能中有不同的识别引擎,相当于用不同的眼睛来解决视觉感知问题,而文本识别作为人工智能中典型的模式识别问题,经过几十年的发展取得了长足的进步。不错的成就,但不够聪明或不够通用。在手写、表格、名片、场景文字等诸多方面还是值得研究的,用一个通用的、统一的方案来解决这个问题,让文字识别的眼睛真正称得上是智能眼睛在人工智能中。眼睛。参考文献:[1]金连文,钟卓耀,杨钊,等。深度学习在手写汉字识别中的应用综述[J].自动学报,2016,42(8):1125-1141.[2]YangW,JinL,LiuM.基于路径签名特征、DropStroke和深度CNN的汉字级作者识别[J].2015:546-550.[3]ZhongZ,JinL,XieZ.HighperformanceofflinehandwrittenChinesecharacterrecognitionusingGoogLeNetanddirectionalfeaturemaps[C]//文档分析与识别国际会议。IEEE计算机协会,2015:846-850.[4]廖男,石B,白X,等。TextBoxes:具有单个深度神经网络的快速文本检测器[J]。2016.[5]FrinkenV,UchidaS.DeepBLSTMneuralnetworksforunconstrainedcontinuoushandwrittentextrecognition[C]//国际文档分析与识别会议。IEEE计算机学会,2015:911-915.[6]RawlsS、CaoH、KumarS等人。CombiningConvolutionalNeuralNetworksandLSTMsforSegmentation-FreeOCR[C]//Iapr文档分析与识别国际会议点火。IEEE计算机学会,2017:155-160.[7]SimistiraF、UlhassanA、PapavassiliouV等。RecognitionofhistoricalGreekpolytonicscriptsusingLSTMnetworks[C]//国际文档分析与识别会议。2015:766-770.[8]MessinaR,LouradourJ.使用LSTM-RNN进行无分段手写中文文本识别[C]//文档分析与识别国际会议。IEEE,2015:171-175.[9]https://v.qq.com/x/page/u0516hq8ql5.html。【本文为《中国保密协会科技分会》专栏作者原创稿件,转载请联系原作者】点此查看该作者更多好文
