当前位置: 首页 > 科技观察

保险政策:通过混合自然语言处理进行文档聚类_0

时间:2023-03-13 16:10:52 科技观察

保险政策:通过混合自然语言处理进行文档聚类,同时利用高级符号推理。保险文件和政策:一个复杂的用例众所周知,高达87%的数据科学项目未能从概念验证到生产;保险领域的自然语言处理(NLP)项目也不例外。他们必须克服一些不可避免地与这个空间及其复杂性相关的困难。主要困难源于:保险相关文件的复杂布局。缺乏具有相关注释的大型语料库。布局的复杂性如此之大,以至于相同的语言概念可能会根据其在文档中的放置位置而彻底改变其含义和价值。让我们看一个简单的例子:如果你试图建立一个引擎来识别政策中是否有“恐怖主义”覆盖范围,你将不得不分配一个不同的值,不管它被放置在哪里:(1)子限制部分声明页面。(2)政策的“除外责任”部分。(三)增加一项或多项保险背书。(4)在报道中添加对特定内容的背书。缺乏高质量、大小合适的带注释保险文件语料库与注释此类复杂文件的固有难度以及注释数万份保单所需的工作量直接相关。而这只是冰山一角。除此之外,还必须考虑规范保险概念的需要。语言规范化:保险业中一种无形但强大的力量在处理数据库时,概念的规范化是一个很好理解的过程。它对于保险领域的NLP也至关重要,因为它是应用推理和提高注释过程速度的关键。规范化概念意味着在相同的标记语言元素下进行分组,这可能看起来非常不同。虽然有很多例子,但最重要的例子来自针对自然灾害的保单。在这种情况下,不同的子限制将适用于不同的洪水区。洪水风险最高的地区通常被称为“高风险洪水区”。这个概念可以表示为:(1)一级洪水区(2)洪水危险区(SFHA)(3)洪水区A等。在实践中,任何保险范围都可以有很多可以组合在一起的条款,甚至有根据特定地理区域及其固有风险,为最重要的自然灾害(I、II和III)提供两层或三层保险。将其乘以可以找到的所有可能元素,变体的数量很快就会变得非常大。这导致机器学习注释器和自然语言处理(NLP)引擎在尝试检索、推断甚至标记正确信息时遇到困难。新型语言聚类:混合方法解决复杂自然语言处理(NLP)任务的更好方法是基于混合(机器学习/符号)技术,该技术可改善保险工作流结果和生命周期,然后由符号引擎继承。虽然传统的文本聚类在无监督学习方法中用于推断语义模式并将具有相似主题的文档、具有相似含义的句子等分组在一起,但混合方法却大不相同。使用预定义的规范化值,通过在标记数据上训练的机器学习算法,在粒度级别创建微语言集群。一旦推断出微语言聚类,它就可以用于进一步的机器学习活动或用于驱动基于符号层的推理逻辑的混合管道。这符合传统的编程黄金法则:“分解问题”。解决复杂用例(就像保险领域中的大多数用例)的第一步是将其分解为更小、更可接受的块。混合语言集群可以完成哪些任务以及它的可扩展性如何?符号引擎通常被标记为极其准确但不可扩展,因为它们不具备机器学习的灵活性来处理训练阶段未见过的情况。然而,这种类型的语言聚类通过利用机器学习来识别概念解决了这个问题,然后将其传递给管道中下一个符号引擎的复杂而精确的逻辑。可能性是无限的:例如,一个符号步骤可以根据概念属于哪个文档段来改变机器学习识别的内在价值。下面是一个使用“分割”(将文本分割成相关区域)的符号过程的示例,以了解如何使用机器学习模块提供的标签。想象一个模型需要了解某些保险是否被排除在100页的政策之外。机器学习引擎将首先聚合所有可能的艺术变化范围:FineArtsWorkofArtisticItemsJewelry(Jewelry)等等。接下来,管道的标志部分将检查“Exclusions”部分是否提到“Arts”标签,以查看该政策是否被排除在政策之外,或者是否被涵盖(作为子限制列表的一部分).得益于此,机器学习标注者不必担心根据它们在策略中的位置为所有“Arts”变体分配不同的标签:他们只需要为它们的变体标注“Arts”的归一化值,这将服务于作为一个微语言集群。复杂任务的另一个有用示例是数据聚合。如果混合引擎设计用于提取特定于覆盖范围的子限制,以及覆盖规范化问题,则需要处理额外的复杂层:用于聚合的语言项的顺序。考虑到手头的任务不仅是提取特定覆盖范围的子限制,而且还提取其限定符(每个事件、聚合等)。这三个项目可以按几种不同的顺序排列:美术每件100,000美术每件100,000每件100,000美术100,000美术美术100,000在聚合数据的同时利用所有这些排列可以显着增加机器学习模型的复杂性。另一方面,混合方法会让机器学习模型识别归一化标签,然后让符号推理根据来自机器学习部分的输入数据识别正确的顺序。这些只是两个例子,表明可以在可扩展的机器学习算法之上应用无限量的复杂符号逻辑和推理来识别规范化概念。更易于构建和维护的可扩展工作流除了可扩展性之外,符号推理还为整个项目工作流带来了其他好处:无需为需要实施和维护的复杂任务实施不同的机器学习工作流。标签。此外,与重新训练多个模型相比,重新训练单个机器学习模型更快且资源占用更少。由于业务逻辑的复杂部分是以符号方式处理的,因此数据注释者可以更容易地将人工注释添加到机器学习管道中。出于上述同样的原因,测试人员也更容易直接向机器学习标准化过程提供反馈。此外,由于语言元素由工作流的机器学习部分标准化,因此用户将有一个较小的标签列表来标记文档。符号规则不需要经常更新:经常更新的是机器学习部分,这也可以从用户反馈中受益。结论保险领域复杂项目中的机器学习可能会受到影响,因为推理逻辑很难压缩成简单的标签;这也使注释者的生活更加困难。文本位置和推论可以极大地改变具有相同语言形式的概念的实际含义。在纯机器学习工作流程中,逻辑越复杂,通常需要越多的培训文档才能达到生产级准确性。出于这个原因,机器学习需要数千(甚至数万)个预先标记的文档来构建有效的模型。可以通过采用混合方法来降低复杂性:机器学习和用户注释创建语言集群/标签,然后将其用作符号引擎实现其目标的起点或构建块。一旦经过验证,用户的反馈可用于重新训练模型,而无需更改最精细的部分(可由工作流的符号部分处理)。原标题:InsurancePolicies:DocumentClusteringThroughHybridNLP,作者:StefanoReitano