当前位置: 首页 > 网络应用技术

OCR+NLP信息提取在金融和物流行业的应用中

时间:2023-03-06 22:02:08 网络应用技术

  文本是传递信息的有效方法。使用OCR技术来提取文本信息是各个行业向数字智能的智能转换的第一步。同时,为了响应OCR提取的大量文本信息,可以最大化文本信息的价值。对NLP Technology.NLP技术的进一步处理和理解可以提高OCR的准确性,并从文本中提取关键信息,构建知识图,并构建搜索,建议,问答系统等。

  尽管各个行业的智能行业的升级一直在全面展开,但它在实际应用程序中遇到了许多困难,例如:数据样本不足,模型的准确性低和预测延迟。来自数据准备,模型培训和模型培训的优化到模型部署过程的案例教程。

  我听说文档和代码是开源的,来了??

  https://github.com/paddlepaddle/awesome-deeplearning

  OCR+NLP系列技术困难

  市场上有许多开源OCR和NLP产品,但是如果您想直接使用这些工具,您将面临诸如不一致的基础框架,串联的高难度以及无法保证的问题。PADDLECR和PADDLENLP是开发库对于行业。它们基于最新版本的开源框架框架,该框架可以无缝集成OCR和NLP技术。

  今天,我们应该看看OCR + NLP信息提取技术在研究报告和物流快递订单中的应用。

  OCR+NLP财务报告分析

  目前,许多投资机构通过研究报告对股票,资金和行业做出判断,以便公众了解热点方向和领先的公司。但是,分析和学习研究报告通常会花费大量时间,而研究报告的数量越来越多。报告还使研究报告的智力分析需求不断改进。在这里,我们使用命名实体识别技术在研究报告中自动提取关键信息。例如,“中国银行成立于1912年”。它包括实体信息,例如组织,场景事件和时间。

  ▲OCR+NLP管道

  命名实体识别和研究报告数据的频率统计数据的总体过程如上图所示。首先,研究报告PDF数据以图像格式分为图像格式,然后使用PP-OR [1] [1]在研究报告数据集中微调PP-OR [1]的检测模型,以使用现有识别模型获得文本信息。PP-OCR是Baidu在Paddleocr的Baidu自我开发的Star Model中的Star Model系列。

  ▲PP-OR管道

  完成OCR认可的文本后,请致电PaddlenLP中的任务流API提取文本信息中的组织实体。在本文中,这些实体的频率统计信息可以最初确定当前研究报告分析的热点机构。

  ▲任务流使用示意图

  目前,任务流API支持两个主要任务:中文单词部门,单词 - 命名,语法分析,文本错误,情感分析,产生问答,智能写作,智能写作和智能写作,包括中文细分,polymarking)诗歌可以单击一次。

  物流快递列表信息提取

  十一点即将到来,许多人一定已经准备了一个完整的购物车。last年,双重营业额为4982亿元人民币,而国家快递企业企业总共处理了39亿高速公路。背后是物流行业的工作量突然增加。除了全面负载的高速公路外,还有一个繁忙的快递兄弟。无论是企业的业务摘要还是信息的填充,关键信息智能提取是必不可少的。他们都使用命名的实体识别技术。

  命名实体有三个解决方案:字符串匹配,统计语言模型和序列标签。前两种方法需要提前构建字典,以保存所有实体,并找到新单词,变体等。在这种情况下,当前的主流方法 - 序列标记。

  该数据集包括1600套培训集,200次训练集和200套测试组,这些测试套件标有生物系统。

  ▲示例

  对于轻巧和高精度的需求,可以选择RNN+CRF解决方案。PRE -Training模型还可以通过模型压缩,移动静态加速和其他方法来满足准确性和性能的要求。我们使用了Ernie -gram [2] + CRF以获得最佳结果。

  此外,可以将命名实体识别技术应用于提取各种关键信息的提取,例如电子商务审查中的产品名称,电子发票中的头部信息,收入证书中的金额和犯罪放置在法律文献中。与关系提取和事件提取技术相关,您还可以构建知识地图和问答系统。

  Baidu AI开发人员社区https://ai.baidu.com/forum,为全国各地的开发人员提供了一个平台,以进行交流,分享和回答问题,以便开发人员将不再在研究和开发的道路上“单独战斗”。通过连续的通信和讨论找到更好的技术解决方案。如果您想尝试各种人工智能技术并开发应用程序方案,并迅速加入Baidu AI社区,那么您对AI的所有想象都可以在这里实现!