这么好用的离线OCR项目，送给你！

时间：2023-03-26 11:50:31 Python

爬虫遇到无法识别的验证码？PDF中的扫描文档让您知道从哪里开始？您的公司需要OCR但又不想花钱吗？我写论文的时候只想复制一段参考文献，但是下载图书馆要收费？再也不用担心这些了！加油吧朋友们，这个适合人类消费的离线中文OCR项目，解决你所有的烦恼！今天的主角是github上的这个开源项目：TrWebOCR介绍项目是基于开源离线OCR项目Tr构建的，解决了Tr不支持并发的问题，并提供了网页和web界面供使用，所以无论是日常使用或者从其他项目中调用也很方便。结果人家不说黑话，就知道是骡子还是马出来遛弯了！下面是两个可能比较常用的场景：证件识别和验证码。文档识别的置信度基本在99%，验证码识别的置信度也在72%以上。如此简约的界面、超高的识别率、强大的功能，你心动了吗？安装的东西再好，安装要花半天时间，就足以让很多人望而却步了。因此，它非常容易部署。就算你想部署在自己的Windows或者MacOS上也没有问题，通过Docker可以完美解决~在Linux服务器上部署在服务器上部署只需要3步：安装python3.7推荐使用miniconda）执行install.pythoninstall.py安装依赖包pipinstall-rrequirements.txt搞定！运行main.py后，web服务默认运行在8089端口。如果看到如下输出，说明操作成功：$pythonbackend/main.py>tr1.5.0https://github.com/myhub/tr>serverisrunning:0.0.0.0:8089如果有报错，可以参考项目的wiki解决。在Docker上部署甚至更容易。此方法适用于非Linux用户或环境干净的用户。项目提供了一个Dockerfile，简单的构建运行即可运行！编译Dockerfile$dockerbuild-tTrWebOCR:latest。运行一个容器$dockerrun-itd-p8089:8089--nametrwebtrweb-ocr:latest/bin/bash这里将容器的8089端口映射到物理机的8089端口，但是如果你不喜欢映射，运行后去掉-p8089:8089，就可以通过Docker容器的ip访问了。配置要求最后一点也是最重要的一点。该项目不需要太高的配置！！！一台1核2G的机器都能跑！但是如果你的项目对并发要求比较高的话，还是要使用配置更高的机器~

上一篇：半个小时，把你的SparkSQL模型变成在线服务

下一篇：Python基础（四）

这么好用的离线OCR项目，送给你！相关文章