提示：如何在Linux上从图像和PDF中提取文本

时间：2023-03-20 19:39:08 科技观察

gImageReader是Tesseract开源OCR引擎的前端。Tesseract最初由HP开发，然后在2006年开源。基本上，OCR（光学字符识别）引擎允许您扫描图片或文档(PDF)中的文本。默认可以检测多种语言，也支持Unicode字符扫描。然而，Tesseract本身是一个没有任何GUI的命令行工具。因此，这里gImageReader可以帮助任何用户利用它从图像和文件中提取文本。在提及我在测试期间使用它的经验时，让我强调一些关于它的事情。gImageReader：TesseractOCR的跨平台前端为了简化工作，gImageReader可以轻松地从PDF文件或包含任何类型文本的图像中提取文本。无论是拼写检查还是翻译都需要它，它应该对特定的用户群有用。gImageReader功能：从磁盘、扫描设备、剪贴板和屏幕截图添加PDF文档和图像能够旋转图像通用图像控件可调亮度、对比度和分辨率直接通过应用程序扫描图像能够一次处理多个图像或文件手动或自动识别区域定义识别纯文本或hOCR文档编辑器显示识别的文本可以拼写检查提取的文本从hOCR文档转换/导出为PDF文档将提取的文本导出为.txt文件跨平台（Windows）在Linux上安装gImageReader注意：您需要明确安装用于从软件管理器中的图像/文件检测的Tesseract语言包。您可以在某些Linux发行版（例如Fedora和Debian）的默认存储库中找到gImageReader。对于Ubuntu，您需要添加一个PPA，然后进行安装。为此，您需要在终端中输入以下内容：linuxmi@linuxmi:~/www.linuxmi.com$sudoadd-apt-repositoryppa:sandromani/gimagereaderlinuxmi@linuxmi:~/www.linuxmi.com$sudoaptupdatelinuxmi@linuxmi:~/www.linuxmi.com$sudoaptinstallgimagereadertesseract-ocr-engtesseract-ocr-engtesseract-ocr-chi-simtesseract-ocr-chi-tra-ylinuxmi@linuxmi:~/www.linuxmi.com$sudoaptinstalltesseract-ocr-chi-sim-verttesseract-ocr-Chi-tra-vert-y你也可以从他们的构建服务中为openSUSE找到它，AUR将是ArchLinux用户的地方。所有存储库和包的链接都可以在他们的GitHub页面中找到。使用gImageReader的经验gImageReader是一个非常有用的工具，可以在需要时从图像中提取文本。当您尝试使用PDF文件时，效果很好。对于从智能手机拍摄的照片中提取图像，检测接近，但有些不准确。也许当您扫描某些内容时，识别文件中的字符可能会更好。因此，您必须亲自尝试一下，看看它对您的用例的效果如何。我在Ubuntu20.04.2LTS上试过了。操作步骤打开gImageReader添加pdf识别语言选择多种语言==>简体中文[chi_sim]+英文[eng]复制或保存识别文字操作结果参考下图：刚刚在管理语言时遇到问题设置，但没有得到快速修复。如果遇到此问题，您可能需要对其进行故障排除并了解??有关如何解决它的更多信息。除此之外，它工作正常。永久链接：https://www.linuxmi.com/linux-ocr-gimagereader-pdf.html

上一篇：试驾技术（TDD）系列之二：TestNG参数化详解

下一篇：说说一个C#商业程序的反反调试

提示：如何在Linux上从图像和PDF中提取文本相关文章