当前位置: 首页 > 科技观察

“郁金香”打造智能问答助手,畅通疫情防控期间政务信息获取渠道

时间:2023-03-15 11:12:51 科技观察

面对突如其来的疫情,公众更加注重及时性、透明性、及时性信息传递的效率。在此背景下,北京市经济和信息化局、CCF大数据专家委员会联合北京致远人工智能研究院,共同举办科技战疫大数据公益挑战赛。一支名为“郁金香”的算法团队在595支参赛队伍中表现突出,在A榜和B榜均取得了不错的成绩。据悉,郁金香是一支在算法和工程方面具有丰富经验的行业团队。其成员主要是群智公司的成员,也有英信科技的强力外援。成员均为NLP深度学习、信息检索/互联网搜索、数据挖掘等领域资深专家。整个算法开发从立项到评估结束历时30天。本次大赛通过DataFountain平台举办,围绕“疫情政务问答助手”的主题展开。疫情政务问答助手旨在通过惠民利企的政策数据采集和处理,通过人机对话问答,快速准确定位相关政策文件及其中的相关内容,返回给用户。帮助各行业企业准确把握相关政策,更好地复工复产。疫情政务问答是一项综合了全文检索和阅读理解的复杂任务。列出与问题最相关的内容。这与人类搜索文档的过程类似:为什么这份文档与问题最相关?就是因为里面有这么一段话,最能回答要解决的问题。针对性强:面对“疫情政务问答”的复杂性对于学术界机器阅读理解任务的大部分数据集,问答所在的文档往往是直接对应的,阅读理解模型不需要在大量文档中搜索相关文档。但在实际场景中,对于用户给出的问题,首先我们需要判断答案在哪个文档中,然后通过阅读理解模型才能找出真正的答案。而这个答复文档往往需要通过检索的步骤得到。因此,在回答有关疫情的政务问答任务中,有两个因素会影响任务效果:一是检索模块可能无法保证准确召回包含答案的文件;第二,在可能包含答案的召回文件中,正确答案的位置不确定。而且政府文件一般都很长,答案也可能很长,也会增加任务的难度。在信息检索和认知智能方面的深厚经验和快速迭代改进模型的能力是郁金香团队成功的两个关键。郁金香团队采用了基于ElasticSearch的全文检索模块和基于Transformer结构的阅读理解模型解决方案,在问题理解、内容搜索、答案提取等多个环节全面展示了其综合算法能力。问答系统主要分为“信息检索”和“阅读理解”两部分。《郁金香》在设计疫情政务问答系统时,以竞争为目标,以实用性为导向,针对疫情文本的领域特殊性,在整个方案的细节上进行了多重优化。总体方案在比赛中取得了优异的成绩,再次验证了相关文本理解技术总体方案的先进性。在比赛中,郁金香团队攻克了几大技术难题:问题一:中文分词是中文自然语言理解中的一项基础技术,其准确率直接影响下游任务的效果。在ES中,ik是常用的中文分词工具。但由于政务文本领域的特殊性,ik工具的作用受到很大限制。回应一:针对政府文件的特殊性,郁金香团队使用多种语义理解工具来理解文件的语义信息,通过对文件的深入分析,提取实体名词、长名词、专有名词、生词等关键要素,构建自定义词典,保证实际分词效果。难点2:检索模块中常见的错误召回是由不匹配的事件主体引起的。比如有人问:“苏州市是如何推进政务服务网上办理的?”搜索结果可能为其他地区“推进政务服务网上办理”的相关内容。回应2:在政务问答请求中,文本的事件主题往往是唯一且一致的。因此,在文本理解上,郁金香团队提取了事件主题,确保事件主题匹配。同时,为了避免强规则过滤造成误杀,该方案将事件体放入新的索引域中。如果查询时在问句中可以查到事件主题,则增加事件主题索引字段的查询。另外,对于请求中的行政区划事件主体,专门设置了对其上级行政区划的容错处理。问题三:赛题训练数据小,阅读理解模型泛化能力有限。应对三:郁金香团队采用集成学习技术,实现了全面的融合模型解决方案。集成模型包含近20个基础模型,智能分配不同模型的权重。权重的分布取决于模型在验证集上的表现。对于用全量数据训练的模型,它的权重更高。同时加入快速梯度法(FGM)算法生成对抗样本,进一步提升模型的泛化能力。问题四:政府文件往往很长,远远超过阅读理解模型的长度限制。对于阅读理解任务,需要将长文档截断为多个文本片段。然而,简单的定长截断很容易导致答案丢失和断章取意。Response4:郁金香团队发现大部分答案都在一个句子里,所以采用了基于中文句子的分词算法进行文本预处理。具体地,以中文句子从句之后的句子序列为基础文本片段,指定最长的子段落为满足最长序列长度的最长连续句子序列,得到满足条件的片段。然后,通过衡量两个子段之间的交集程度,优化子段的整体冗余度,选择合理的子段,保证消除冗余的同时降低答案丢失的风险。多点开花:智能语义搜索引擎的应用,智能问答系统的解决方案,不仅在比赛中表现出色,还实现了在智能搜索和智能问答中的应用。该方案采用自然语言作为交互形式,大大提升了用户体验。据了解,中国基金研究报告智能检索系统是该方案的典型应用之一。券商研报对股民价值高,但篇幅长、文字多,投资者获取对自身有利的投资参考往往费时费力。今天,这个研报智能搜索系统可以帮助投资者更快更快速的搜索,通过NL2SQL结合研报问答助手的阅读理解,对预评级、跟进报告、趋势图、研报纪要等的搜索意向,研究报告中的投资建议,更轻松,更高效地阅读研究论文。只需一道日常用语提问,实时展示相关重点内容,大大提高信息获取效率。此外,基于该技术方案的智能语义搜索引擎产品,支持不同行业、不同领域的场景扩展。该产品将行业知识库与知识图谱融合,并集成问答助手模型,通过自然语言“问答”语义输入,为用户提供更精准的智能搜索服务。对政府而言,该搜索引擎可帮助政府构建智能信息综合应用平台,实现政府海量数据的治理、语义分析、智能查询;针对电商,支持精准检索电商领域的目标商品,可以推荐更个性化的搜索结果;面向媒体,支撑大型媒体网站应用场景,深度整合海量信息,深度挖掘数据价值;机构提供更全面准确的财务数据和信息;针对公安,基于公安系统行业特点,可为公安行业提供信息检索、问题研判、知识管理平台。传统搜索引擎一般通过简单机械的条件组合查询,交互体验差,列表形式过于单一,对多源异构数据的处理能力不足。相比之下,智能语义搜索引擎产品支持融合多源异构数据,呈现多种形式的搜索结果,支持自然语言的“问答式”语义输入,搜索功能强大,搜索结果更便捷。【摘要】基于语义理解的智能对话和智能搜索越来越深入到我们的日常生活中。展望未来,相关应用将能够依托建立在世界基础上的庞大知识图谱,结合语义理解,为用户提供前所未有的便捷体验。与传统的检索技术相比,基于语义理解的智能对话和智能检索为人机交互提供了更智能、更高效、更具同理心的交互方式。当搜索不再局限于几个关键词的形式,当搜索引擎逐渐加深与各个垂直领域的联系时,智能对话和智能搜索可能真正“无处不在”。