爬虫遇到无法识别的验证码?PDF中的扫描文档让您知道从哪里开始?您的公司需要OCR但又不想花钱吗?我写论文的时候只想复制一段参考文献,但是下载图书馆要收费?再也不用担心这些了!加油吧朋友们,这个适合人类消费的离线中文OCR项目,解决你所有的烦恼!今天的主角是github上的这个开源项目:TrWebOCR介绍项目是基于开源离线OCR项目Tr构建的,解决了Tr不支持并发的问题,并提供了网页和web界面供使用,所以无论是日常使用或者从其他项目中调用也很方便。结果人家不说黑话,就知道是骡子还是马出来遛弯了!下面是两个可能比较常用的场景:证件识别和验证码。文档识别的置信度基本在99%,验证码识别的置信度也在72%以上。如此简约的界面、超高的识别率、强大的功能,你心动了吗?安装的东西再好,安装要花半天时间,就足以让很多人望而却步了。因此,它非常容易部署。就算你想部署在自己的Windows或者MacOS上也没有问题,通过Docker可以完美解决~在Linux服务器上部署在服务器上部署只需要3步:安装python3.7推荐使用miniconda)执行install.pythoninstall.py安装依赖包pipinstall-rrequirements.txt搞定!运行main.py后,web服务默认运行在8089端口。如果看到如下输出,说明操作成功:$pythonbackend/main.py>tr1.5.0https://github.com/myhub/tr>serverisrunning:0.0.0.0:8089如果有报错,可以参考项目的wiki解决。在Docker上部署甚至更容易。此方法适用于非Linux用户或环境干净的用户。项目提供了一个Dockerfile,简单的构建运行即可运行!编译Dockerfile$dockerbuild-tTrWebOCR:latest。运行一个容器$dockerrun-itd-p8089:8089--nametrwebtrweb-ocr:latest/bin/bash这里将容器的8089端口映射到物理机的8089端口,但是如果你不喜欢映射,运行后去掉-p8089:8089,就可以通过Docker容器的ip访问了。配置要求最后一点也是最重要的一点。该项目不需要太高的配置!!!一台1核2G的机器都能跑!但是如果你的项目对并发要求比较高的话,还是要使用配置更高的机器~
