对于许多人来说,将PDF转换为可编辑的文本是一个僵化的方法,但这并不是一种简单的方法。在本文中所述的项目中,来自K1 Digital的高级机器学习工程师Lucas Soars试图自动使用OCR自动转录PDF PDF Slide(光学字符识别)。转录效果还不错。
传统的讲座通常伴随着一组PDF幻灯片。从本质上讲,如果您想记下此类讲座,则需要复制并粘贴PDF的大量内容。
最近,来自K1 Digital的高级机器学习工程师Lucas Soares一直在尝试通过使用OCR(光学角色识别)自动转录PDF幻灯片,以直接在Markdown文件中操作其内容,以免手动复制和粘贴和粘贴PDF内容以实现和实现此过程的实现。
留给项目作者卢卡斯·苏亚雷斯(Lucas Soares)。
为什么不使用传统的PDF转移?
卢卡斯·苏亚雷斯(Lucas Soares)发现传统工具通常会带来更多问题,需要时间来解决它。,因此他决定尝试使用目标检测和OCR解决。
基本过程可以分为以下步骤:
基于深度学习的OCR将PDF转录为文本
将PDF转换为图像
SOARES使用的PDF幻灯片来自David Silver的增强学习(请参阅以下PDF幻灯片地址)。使用“ PDF2Image”软件包将每个幻灯片转换为PNG图像格式。
pdf幻灯片示例.address:https://www.davidsilver.uk/wp-content/2020/03/intro_rl.pdf
代码显示如下:
处理后,所有PDF幻灯片都转换为PNG格式图像:
测试和识别图像中的文本
为了检测和识别PNG图像中的文本,SOARES使用OCR.Pytorch库中的文本检测器。根据说明,下载模型并将模型保存在CheckPoints文件夹中。
代码显示如下:
设置输入和输出文件夹,然后遍历所有输入图像(转换后的PDF幻灯片),然后在OCR模块中运行检测和识别模型通过SINLE_PIC_PROC()函数,最后将输出文件保存到输出文件夹中。
其中,识别了继承的继承(继承)pytorch ctpn模型,继承了Pytorch CRNN模型,这两种模型都存在于OCR模块中。
样本输出
代码显示如下:
下图是原始的PDF幻灯片,右侧是转录后的输出文本。转录后的精度非常高。
文本识别输出如下:
通过上述方法,您最终可以获得非常强大的工具来转录各种文档,从检测和识别手写笔记到检测和标识照片中的随机文本。它具有其自己的OCR工具来处理某些文本内容,这比依靠外部软件来转录文档。