当前位置: 首页 > 网络应用技术

每天一个提示,Python可以轻松地实现PDF来发短信,再见,复制和粘贴

时间:2023-03-08 11:42:32 网络应用技术

  对于许多人来说,将PDF转换为可编辑的文本是一个僵化的方法,但这并不是一种简单的方法。在本文中所述的项目中,来自K1 Digital的高级机器学习工程师Lucas Soars试图自动使用OCR自动转录PDF PDF Slide(光学字符识别)。转录效果还不错。

  传统的讲座通常伴随着一组PDF幻灯片。从本质上讲,如果您想记下此类讲座,则需要复制并粘贴PDF的大量内容。

  最近,来自K1 Digital的高级机器学习工程师Lucas Soares一直在尝试通过使用OCR(光学角色识别)自动转录PDF幻灯片,以直接在Markdown文件中操作其内容,以免手动复制和粘贴和粘贴PDF内容以实现和实现此过程的实现。

  留给项目作者卢卡斯·苏亚雷斯(Lucas Soares)。

  为什么不使用传统的PDF转移?

  卢卡斯·苏亚雷斯(Lucas Soares)发现传统工具通常会带来更多问题,需要时间来解决它。,因此他决定尝试使用目标检测和OCR解决。

  基本过程可以分为以下步骤:

  基于深度学习的OCR将PDF转录为文本

  将PDF转换为图像

  SOARES使用的PDF幻灯片来自David Silver的增强学习(请参阅以下PDF幻灯片地址)。使用“ PDF2Image”软件包将每个幻灯片转换为PNG图像格式。

  pdf幻灯片示例.address:https://www.davidsilver.uk/wp-content/2020/03/intro_rl.pdf

  代码显示如下:

  处理后,所有PDF幻灯片都转换为PNG格式图像:

  测试和识别图像中的文本

  为了检测和识别PNG图像中的文本,SOARES使用OCR.Pytorch库中的文本检测器。根据说明,下载模型并将模型保存在CheckPoints文件夹中。

  代码显示如下:

  设置输入和输出文件夹,然后遍历所有输入图像(转换后的PDF幻灯片),然后在OCR模块中运行检测和识别模型通过SINLE_PIC_PROC()函数,最后将输出文件保存到输出文件夹中。

  其中,识别了继承的继承(继承)pytorch ctpn模型,继承了Pytorch CRNN模型,这两种模型都存在于OCR模块中。

  样本输出

  代码显示如下:

  下图是原始的PDF幻灯片,右侧是转录后的输出文本。转录后的精度非常高。

  文本识别输出如下:

  通过上述方法,您最终可以获得非常强大的工具来转录各种文档,从检测和识别手写笔记到检测和标识照片中的随机文本。它具有其自己的OCR工具来处理某些文本内容,这比依靠外部软件来转录文档。