OCR工程师一定知道这个OCR开源项目:PaddleOCR。短短几个月,累计Star数超过7.2K,频频登上GithubTrending日月榜。称其为OCR方向最火的repo绝对不为过。12月带来了四项新发布升级,核心内容先睹为快:全新数据合成工具Style-Text:可以批量合成大量与目标场景相似的图像,并在多场景下进行验证,效果提升15%以上。新发布的半自动数据标注工具PPOCRLabel:有了它,数据标注工作更有效,标注效率相比labelimg提升60%以上。社区小规模测试好评如潮。多语言识别模型效果升级:中文、英语、韩语、法语、德语、日语识别效果均优于EasyOR。PP-OCR开发体验再次升级:支持动态图开发(更方便训练调试)、静态图部署(预测效率更高),鱼与熊掌可兼得。PaddleOCR的历史业绩回顾先来看看PaddleOCR今年开源短短几个月在GitHub上的表现:6月发布8.6M超轻量级模型,GitHubTrending全球趋势榜排名第一。8月开源CVPR2020登顶SOTA算法,再登GitHub趋势榜!10月,PP-OCR算法发布,3.5M超轻量级模型开源,paperswithcode趋势榜排名第一。广大GitHub开发者自然理解。可以直接看到3.5M超轻量机型的效果图。,绝对杠杆。火车票、表格、金属铭牌、翻转图片、外语,一应俱全。3.5M机型能达到这样的识别精度,绝对是良心之作!传送门:https://github.com/PaddlePaddle/PaddleOCR那么最新的12月更新到底给大家带来了哪些惊喜呢?最新发布的OCR数据合成工具:Style-Text与传统的数据合成算法相比,Style-Text可以实现特殊背景下的图像风格迁移。它只需要少量的目标场景图像就可以合成大量的数据。效果图如下:1、同背景批量数据合成2、同文本批量数据合成3、图片前景背景分离除了拉风的效果,使用这样的合成数据和真实数据一起训练可以显着提高特殊场景的性能指标。比如:怎么样,绝对是黑科技。该能力的核心算法基于百度自研文本编辑算法《Editing Text in the Wild》。论文地址:https://arxiv.org/abs/1908.03047不同于常用的基于GAN的数据合成工具,Style-Text的主要框架包括①文本前景风格迁移模块、②背景提取模块、③融合模块。经过这三个步骤,就可以快速实现图文样式的迁移。超级OCR数据标注工具:除了数据合成,PPOCRLabel一直是深度学习开发者关注的焦点。从成本和时间上来说,提高贴标效率,降低贴标成本是非常重要的。PPOCRLabel通过内置高质量的PPOCR中英文超轻量级预训练模型,可以实现OCR数据的高效标注。CPU机器也运行得很好。话不多说,直接看PPOCRLabel效果演示:用法也很简单,适当提高60%-80%的标注效率。我只能说,真的很好吃。最佳多语言模型效果的简要比较。下面简单对比一下目前主流OCR开源库的核心能力:中英文模型性能与功能对比。其中,多语言识别模型准确率对比(仅EasyOCR提供)测试数据及环境说明:中英文场景:针对OCR的实际应用场景,包括合同、车牌、铭牌、火车票、测试单、表格、证件、街景文字、名片、数字展示等,采集了300张图片,每张图片平均有17个文本框,PaddleOCR的F1-Score超过0.5,已经很不错了。多语言场景:PaddleOCR选用开源数据ICDAR2017-MLT(多语言文本识别测试集),提取法文、德文、日文、韩文数据作为评估集。测试图片大多来自自然场景,比如广告牌、路标、海报等。PP-OCR开发经验再升级动态图和静态图是深度学习框架常用的两种模式。在动态图模式下,代码编写和运行方式符合Python程序员的习惯,易于调试。但是在性能方面,Python的执行开销较大,与C++有一定的差距。与动态图相比,静态图在部署方面更具性能优势。在编译执行静态图程序时,可以在C++端重新解析并执行预构建的神经网络,无需Python依赖,可以对整体网络结构进行一些网络结构优化。飞桨动态图新增动态图转静态图功能,方便用户使用动态图编写网络代码。在进行预测部署时,Paddle会分析用户代码并自动将其转换为静态图网络结构,兼顾动态图的易用性和静态图的部署性能。Conscience出品的中英文文档教程就不用多说了,大家去GitHub点star就可以自己体验了:https://github.com/PaddlePaddle/PaddleOCR
