当前位置: 首页 > 科技观察

GithubStar10k,超好用的OCR数据合成和半自动标注工具

时间:2023-03-12 05:06:21 科技观察

1.指导OCR方向的工程师一定要知道这个OCR开源项目:PaddleOCR短短一年就积累了超过10kStars数月以来,频频登上GithubTrending日月榜单,称其为OCR方向的最热repo一点也不为过。近期带来四项新发布升级:核心内容预览:新发布数据合成工具Style-Text:可批量合成大量与目标场景相似的图像,效果提升15以上%在多场景验证中。新发布的半自动数据标注工具PPOCRLabel:有了它,数据标注工作可以事半功倍。与labelimg相比,标注效率提升了60%以上。社区小规模测试好评如潮。多语言识别模型效果升级:在开源测试集评测中,中文、英文、韩文、法文、德文、日文的识别效果均优于EasyOCR。PP-OCR开发体验升级:支持动态图开发(更方便训练调试),静态图部署(预测效率更高),鱼与熊掌兼得。2.PaddleOCR历史表现回顾先来看看PaddleOCR自去年6月开源以来短短几个月在GitHub上的表现:6月发布8.6M超轻量级模型,GitHubTrending全球趋势榜单排名第一。8月开源CVPR2020登顶SOTA算法,再登GitHub趋势榜!10月,PP-OCR算法发布,3.5M超轻量级模型开源,位列Paperswithcode趋势榜第一。广大GitHub开发者自然明白这其中的含金量。大家可以直接看3.5M超超轻量化的效果图,绝对杠杠的。火车票、表格、金属铭牌、翻转图片、外语,一应俱全。3.5M机型能达到这样的识别精度,绝对是良心之作!传送门:Github:https://github.com/PaddlePaddle/PaddleOCR那么最新的12月更新到底给大家带来了哪些惊喜呢?3.一种新的OCR数据合成工具:Style-Text与传统的数据合成算法相比,Style-Text可以实现特殊背景下的图像风格迁移。它只需要少量的目标场景图像就可以合成大量的数据。效果图如下:1.同背景batch数据合成2.同文本batch数据合成3.图片前景背景分离除了炫酷的效果,用这样的合成数据和真实数据一起训练可以显着提高特殊场景的性能指标。以一个场景为例:怎么样,一定是黑科技吧。该能力的核心算法基于百度与华科联合研发的文本编辑算法。风格迁移模块②背景提取模块③融合模块。经过这三个步骤,就可以快速实现图文样式的迁移。4.超级OCR数据标注工具:除了数据合成,PPOCRLabel一直是深度学习开发者关注的焦点。从成本和时间上来说,提高贴标效率,降低贴标成本是非常重要的。PPOCRLabel通过内置高质量的PPOCR中英文超轻量级预训练模型,可以实现OCR数据的高效标注。CPU机器也运行得很好。话不多说,直接看PPOCRLabel效果演示:用法也很简单,适当提高60%-80%的标注效率。我只能说,真的很好吃。5.最佳多语言模型效果简单对比。下面简单对比一下目前主流OCR开源库的核心能力:中英文模型的性能和功能对比。其中,一些多语言模型(仅由EasyOCR提供)的性能和功能(F1-Score)比较是值得的。值得一提的是,目前全球已有开发者通过PR或issue为PaddleOCR提供多语言词典和语料库。PaddleOCR已完成对全球主流语言的广泛覆盖:包括简体中文、繁体中文、英语、法语、德语、韩语、日语、意大利语、西班牙语、葡萄牙语、俄语、阿拉伯语、印地语、维吾尔语、波斯语、乌尔都语、塞尔维亚语(拉丁语)、欢迎奥克语、马拉地语、尼泊尔语、塞尔维亚语、保加利亚语、乌克兰语、白俄罗斯语、泰卢固语、卡纳达语、泰米尔语等更多开发者参与共建。6.升级PP-OCR开发体验。动态图和静态图是深度学习框架中常用的两种模式。在动态图模式下,代码编写和运行方式符合Python程序员的习惯,易于调试。但是在性能方面,Python的执行开销较大,与C++有一定的差距。与动态图相比,静态图在部署方面更具性能优势。在编译执行静态图程序时,可以在C++端重新解析并执行预构建的神经网络,无需Python依赖,可以对整体网络结构进行一些网络结构优化。飞桨动态图新增动态图转静态图功能,方便用户使用动态图编写网络代码。在进行预测部署时,Paddle会分析用户代码并自动将其转换为静态图网络结构,兼顾动态图的易用性和静态图的部署性能。7.良心出品的中英文文档教程就不用多说了。访问GitHub点star后自己体验一下:https://github.com/PaddlePaddle/PaddleOCR