当前位置: 首页 > 科技观察

8.6M超轻量中英文OCR模型开源,训练部署一条龙

时间:2023-03-13 01:31:53 科技观察

8.6M超轻量级中英文OCR模型开源,训练部署一站式。要说生活中最常见、最便捷的AI应用技术,OCR(OpticalCharacterRecognition)就是其中之一。日常办理各种业务中的身份证识别,自动驾驶车辆的路标识别,都离不开它的支持。作为开发者,各种OCR相关的需求自然是少不了的:卡片识别、票据识别、汽车场景、教育场景的文字识别……那么,这个模型的大小只有8.6M,无需GPU也能跑起来。一个开源的通用OCR项目,提供从自定义训练到多硬件部署的全套开发包,让我知道?话不多说,先看看效果吧。可以看出,这种超轻量级模型无论文字是横排还是竖排,都有很好的识别效果。难度略高,现实生活中经常遇到的场景也不是问题:那么,如果情况再复杂一点,这么小的模型能hold住吗?毕竟在实际应用场景中,图片中的文字难免会出现字符弯曲、模糊等诸多问题。比如不高清的路牌:主体部分基本识别正确,只有小英文字确实模糊,识别效果不理想。看看文字背景复杂的图片识别效果:错字扣一分。满分10分,可得9分。事实上,在OCR项目的实际落地过程中,开发者往往会面临两个痛点:1.无论是移动端还是服务器端,需要识别的图片数量往往非常大,都希望模型越小越好,具有更高的准确性和更快的预测速度。快的。GPU太贵了,不如用CPU跑起来更经济。在满足业务需求的前提下,模型越轻,占用的资源就越少。2、在实际业务场景中,OCR面临着各种各样的问题。业务场景的个性化往往需要自定义数据集的再训练,硬件环境的多样化需要丰富部署方式的支持。再加上收集数据等脏活累活,使得项目实施中的大部分时间都花在了算法研发以外的环节上。急需完整、全流程的解决方案,以加快研发进度,节省宝贵的研发。时间。也就是说,超轻量级模型及其全流程解决方案,尤其是对于计算能力和存储空间有限的移动终端和嵌入式设备,可以说是刚需。在这个开源项目中,开发者还提供了一个可以直接测试的demo。在量子比特的实际上手测试中,手机demo上这样一个不到10M的模型,基本可以秒出效果。在中文公开数据集ICDAR2017-RCTW上,图片长边尺寸限制为960px,测试数据和测试条件相同。该项目与曾登上GitHub热榜的Chineseocr_Lite(5.1kstars)最新发布的10M模型进行对比。测试和比较。在模型大小、准确率和预测速度方面,结果如下:对于8.6M超轻量级模型,V100GPU单卡平均预测时间为57ms,CPU平均预测时间为319ms。Chineseocr_Lite的10M模型,V100单卡预测速度为230ms,平均CPU预测时间为739ms。当然,模型预测速度的提升不仅仅是因为模型尺寸变小了,更离不开算法和框架的深度适配和优化。项目中给出的Benchmark如下:作为一个面向GitHub编程的程序员,突然觉得老大对各种OCR需求不太满意。而且这款8.6M的超轻量级开源机型得到了各大厂商的背书。因为出品方不是别人,正是国内AI开发一哥百度,他们将这个最新的开源OCR工具库命名为:PaddleOCR。GitHub地址:https://github.com/PaddlePaddle/PaddleOCR8.6M如何将通用的OCR模型提炼成PaddleOCR发布的超轻量级模型,主要由4.1M的检测模型和4.5M的识别模型组成。其中,检测模型的Base模型采用DB算法,文本模型的Base模型采用经典的CRNN算法。鉴于MobileNetV3在端侧系列模型中的优越性能,两种模型都选择使用MobileNetV3作为骨干网络,初步可以将模型尺寸缩减90%以上。此外,开发者还采取了减少特征通道数量等策略进一步压缩模型尺寸。虽然模型很小,但用于训练的数据集却相当大。根据项目方给出的数据,该模型使用的数据量(包括合成数据)在百万到千万量级。不过可能有开发者会问,在一些垂直场景下,通用的OCR模型精度可能达不到要求,算法模型在实际项目部署中会遇到各种问题,怎么办?PaddleOCR提供了非常全面的从训练到部署的一站式指导,堪称“最全的OCR开发者礼包”。《最全的OCR开发者大礼包》△大礼包目录,堪称业界最全面的定制培训支持OCR业务其实很特殊,用户的需求很难通过通用模式满足,之前开源的Chineseocr_Lite也不支持用户培训。为了方便开发者使用自己的数据自定义超轻量级模型,除了8.6M的超轻量级模型,PaddleOCR还提供了2种文本检测算法(EAST、DB)、4种文本识别算法(CRNN、Rosseta),STAR-Net,RARE),基本可以覆盖常见OCR任务的需求,算法还在不断丰富中。尤其是《模型训练/评估》中的“中文OCR训练与预测技巧”,更是让人眼前一亮。点开看《中文长文本识别特殊处理,不同主干如何替换等实用业务技巧》,挺符合开发者项目实战中的炼丹需求。打通预测部署的全过程,对开发者更友好。PaddleOCR提供移动端(含iOS、AndroidDemo)、嵌入式终端、大数据离线预测、在线服务预测等多种预测工具组件支持,可满足多种工业级应用场景。数据集汇总项目帮助开发者整理常用的中文数据集、标注和合成工具,持续更新中。目前收录的数据集包括:5个大型通用数据集(ICDAR2019-LSVT、ICDAR2017-RCTW-17、中文街景文字识别、中文文档文字识别、ICDAR2019-ArT)大型手写中文数据集(自动化所、中文科学院-手写中文数据集)垂直多语言OCR数据集(中国城市车牌数据集、银行信用卡数据集、验证码数据集-Captcha、多语言数据集)也整理了常用的数据标注工具(labelImg、roLabelImg、labelme),常用数据合成工具(text_renderer、SynthText、SynthText_Chinese_version、TextRecognitionDataGenerator、SynthText3D、UnrealText)并开源,受到了开发者的广泛关注,大量开发者投入到项目建设中,贡献内容。真是干货满满。体验一下?看到这里,是不是心动了呢?如果你还是眼见为实,PaddleOCR提供了在线demo,可以在网页版和手机上试用。有兴趣的可以留着下方传送门自己体验哦~传送门:项目地址:https://github.com/PaddlePaddle/PaddleOCR网页版Demo:https://www.paddlepaddle.org.cn/hub/scene/ocr手机演示:https://ai.baidu.com/easyedge/app/openSource?from=paddlelite