阿里妹攻略:批改作文、同声翻译、制作海报……人工智能技术已经越来越多地应用在我们的日常生活中。在法律事务领域,除了LawGeex在国外很多法律领域的应用,国内目前还没有成熟的运营产品。 近日,阿里巴巴信息平台企业数据智能部工程师悄悄解锁了这一成果。下面我们一起来看看吧。 AI与法务,会擦出怎样的火花? 最近在阿里巴巴内部举办了这样一场特别的“比赛”。8名专业律师一周完成600份在线协议的审核,而人工智能只用了1秒,而在这600份协议中,标记问题的准确率达到了100%。 这是阿里巴巴信息平台企业数据智能部工程师自主研发的智能合约诊断系统,在互联网在线协议审查中用AI代替法律事务。人工智能如何应用于法律领域?它背后的技术原理是什么?下面是我们的解决方案。 背??景 互联网背景下的消费者权益保护成为社会关注的新焦点。这包括消费者与运营商签署的客户服务协议、用户隐私协议以及其他互联网在线协议等问题。由于阿里巴巴业务线众多,此类协议的审核和更新是一项庞大的工程。 目前人工审核一份在线协议的平均时间在30分钟左右,而且由于文字量大、规则多,人工审核不可能100%覆盖,人工审核的标准也不高够均匀。有没有可能让AI代替法律审计工作?在此背景下,智能合约诊断系统上线。 这个智能合约诊断系统主要做了两件事。一是判断不应出现的内容(如:违反法律法规的违禁词、侵犯消费者权益的条款、含糊不清的表述等);是应该出现的内容,给出修改建议或者推荐词。 智能合约诊断系统排查风险点并给出推荐表达式目前做的大部分NLP应用都是基于自然语言处理。例如,社交网络语言更接近人们对话的表达方式。法律术语和自然语言术语之间存在很大差异。法律语言通常有其特定领域的表达规范和逻辑,这与我们通常的自然语言表达有很大不同。这就导致现有的研究成果不能直接应用于法律领域,需要迁移到特定领域。 2。技术与业务场景的差距 如果没有法律领域的相关知识基础,再好的NLP技术也未必能够在法律领域落地。能够将法律领域的需求抽象出来,并与技术相结合,是一个很大的挑战,需要跨领域人才、多领域人才的紧密合作。 3。标注数据的稀缺性 在法律领域,数据非常稀缺,往往涉及敏感信息和商业机密,导致数据无法共享。有些场景只有少量标记数据。 4。准确率要求高 法律领域对算法指标的要求很高,尤其是在某些场景下,对算法的召回率有严格的要求,因为一旦遗漏了关键信息,可能会造成更大的法律风险;另外,法律事务中很多场景对算法的可解释性要求很高,所以算法不仅要知其然,更要知其所以然。 解决方案 在构建系统时,第一步是构建法律领域的行业词典和知识图谱。 只有先教系统理解法律术语,而不是自然语言,才能更好地训练系统理解法律概念。基于阿里巴巴大量在线协议、合同、诉讼等法律文件,大规模无监督短语挖掘方法PhraseMining[1,2]可以自动从文档中提取行业相关性强的短语,如:“Includingbutnot限于”、“委托书”、“过失侵权”等; 同时,法律专家会根据具体业务场景梳理业务规则。该列表以及出现相关停用词的相应推荐词可用于机器学习。例如,“公告后立即生效”的推荐表述为“公告后7日生效”等。这些法律规则的大量输入,在技术上被解析为知识图谱上的点,转化为计算机可以识别的格式。过程。 词向量表示 基于大规模训练的通用词向量可以显着帮助几乎所有的NLP任务。对于法律领域,由于其特定的领域特性,我们在通用词向量的基础上加入了大量法律领域的文献语料,使得学习到的词向量在法律领域的表现更加突出。 普通的词向量模型大多是通过Word2Vec或者GloVe训练出来的。最近的一项研究[3]发现,基于上下文的词向量ELMo可以进一步改进多个NLP任务。 基于上下文的词向量本质上是语言模型的词向量。词向量不仅是词本身的函数,也是句子中其他词和序列位置的函数。在法律事务领域,我们也尝试了ELMo语言模型获取词向量,提升了模型的性能。 冷启动和快速样本标注 标注数据一直是机器学习问题中最重要的元素之一。只有拥有大量的标注数据,才能训练出更好的模型。然而在法律领域,标注数据的获取成本非常高,需要由具有法律专业知识的人进行标注。 为了在效率和成本之间取得平衡,我们首先根据专家输入的规则和知识图谱构建了一个基于规则系统的自动标注服务,可以自动标注股票数据。另一方面,可以替换关键词自动生成标注数据。例如:“一经公布,立即生效”,可以将“立即”换成“马上”、“马上”、“马上”等,这样就可以产生大量的标注数据。 主动学习。毕竟规则是有限的。虽然可以解决一些问题,但是不能解决模型的泛化能力。最终还是需要依赖一些人工标注。为了降低人工标注的成本,可以采用主动学习的方法。每次只需要人工标注最不确定的那几个样本,就可以大大提高模型的性能。 多模型组合 文本分类技术也经历了从传统的基于规则和人工特征到现在基于深度学习的技术的演进过程。目前比较流行的技术方案有基于RNN的序列模型、基于CNN的模型,以及在此基础上演化出的各种变体,比如结合注意力机制,使用预训练的词嵌入(WordEmbedding)等方法。 在法律事务的垂直领域,我们使用ELMo构建领域特定的词向量作为模型的输入,针对在线协议审查的具体问题设计了一个结合CNN和RNN的深度神经网络:C-GRU模型。既充分捕捉了核心词与周围词的关系,又解决了长句依赖的问题。 深度学习模型可以较好的解决违规表达的分类问题,但由于该模型对用户来说是一个黑盒子,可解释性较差。在线协议的智能审核,不仅需要找出违规条款,还需要定位到导致违规的具体词,需要改成什么样的词才能成为推荐表达。 因此,我们最终的解决方案采用深度学习模型来负责高召回率,并检测所有可能产生非法表达的术语。然后利用句法分析和规则方法对词条进行分析,定位具体违规表达的位置和推荐表达方式。该方案的优势在于利用深度学习提高召回率,利用规则进行精准定位。 目前的在线方案AI诊断系统,不仅大幅提升了方案审核效率,还实现了秒级审核速度,平均准确率超过94%,相当于节省了130个人工日每年工作。 未来计划 近年来,以深度学习和自然语言处理为代表的人工智能技术取得了重大突破,也开始在法律智能领域崭露头角,引起了学术界和工业界的广泛关注。智能合约诊断只是我们在智能法务领域迈出的第一步。此外,合同、诉讼文书、裁定文书等方面的工作也在推进中。 在技术方面,我们进一步与阿里巴巴机器智能技术(MIT)合作,在行业知识图谱构建、机器阅读理解、信息抽取技术在法律领域的应用等方面加强研究和探索。沉淀法律领域基础数据资源,构建具有领域特色的自然语言处理平台,共同服务多元化法律业务。 除了自然语言处理技术,我们还将加大对音视频技术的投入,例如图像识别、光学字符识别(OCR)、手写字符识别、ASR等,用于处理不同类型的法律材料,解决自然语言处理上游的多源信息输入问题。我们的最终目标是打造全链路、全能力的合法AI能力。 相信法律AI能力的建设和提升可以服务于广大普通用户、律师、法院等法律行业从业者。
