一、行业搜索背景1、达摩院自然语言智能大图上图为达摩院自然语言处理智能技术框图,其中从下到上依次为:NLP数据、NLP基础词法、句法语义、分析技术、上层NLP技术行业应用:达摩院除了做基础研究,还赋能阿里巴巴集团,结合阿里云赋能行业。很多赋能的行业场景都是搜索。2、行业搜索的本质面向行业和面向消费者的互联网搜索本质是一样的:用户有信息获取需求,同时有信息资源库,两者通过搜索引擎架起桥梁.以电商场景为例。例如,用户在电商中搜索aj1NorthCarolinabluenewsneakers。为了更好地理解这样一个用户的查询,需要进行一系列的工作:查询理解分析:NLP纠错、分词类别预测、实体识别词权、查询重写等技术(离线)文档分析:NLP分析、质量效率分析、检索和排序:通过对query的分析和文档分析,结合搜索引擎自身的一些检索和排序机制,可以达到桥接两者的目的。3.如果按搜索范式对行业搜索链接进行分类,一般分为稀疏检索和密集检索。稀疏检索:传统上是基于词或词来构建倒排索引,并以此为基础构建查询理解的一系列能力,包括一些文本相关性排序等;密集检索:随着预训练语言模型的兴起,基于预训练库实现单塔和双塔模型,再结合向量引擎建立搜索机制。一般搜索分为这样一个环节:召回、排序(粗排序、细排序、重排)。召回阶段:传统稀疏检索关键词召回密集检索向量召回,个性化召回粗排序阶段:使用文本相关性(静态)分数进行过滤细排序阶段:相对复杂,会有相关模型,可能结合业务效率模型(LTR)从左到右,模型复杂度和效果精度变高。从右到左,处理文档的数量增加。以淘宝电商为例,召回(十亿)、初排序(几十万)、精细排序(百、千)、重排(十)。搜索生产环节是搜索效果与工程效率之间的折衷系统。随着计算能力的提升,复杂的模型开始被向前取代。比如精排版的模式,现在会慢慢沉入粗排甚至召回的阶段。搜索效果评估:recall:recallornoresultrate排序:relevance,conversionefficiency(closertobusiness)relevance:NDCG,MRR转化效率:click-throughrate,conversionrate4,消费互联网和工业互联网在不同行业场景下搜索有区别很大,这里分为消费互联网搜索和产业互联网搜索:用户群体和UV:消费互联网搜索UV很大,而产业互联网是面向政府和企业内部员工的。搜索追求指标:消费互联网除了追求可搜索、精准搜索外,还追求高转化率。在工业互联网中,更多的是信息匹配的需求,所以重点关注召回和关联。工程系统需求:消费互联网QPS要求会很高,会积累大量的用户行为,需要实时日志分析和实时模型训练。工业互联网的要求会更低。算法方向:消费互联网将从线下、近线、线上的海量用户行为分析和建模中获得更大收益。工业互联网的用户行为是稀疏的,所以会更注重内容理解,比如NLP或者视觉理解。研究方向包括低资源和迁移学习。2.相关技术研究搜索与系统框架紧密耦合:包括离线数据、搜索服务框架(绿色部分)、搜索技术算法体系(蓝色部分),其基础是Alicemind预训练语言模型系统,也将进行文档分析、查询理解、关联等。1.AliceMind系统AliceMind是达摩院构建的分层预训练语言模型系统。包含一个通用的预训练模型,多语言、多模态、对话等,是所有NLP任务的基础。2.分词搜索的分词能力(原子能力)决定了检索索引的粒度,也关系到后续的相关性和BM25粒度。对于任务特定的任务,如果自定义一些预训练,它可以比通用预训练更好。比如最近的研究希望在原生的BERT预训练任务中加入无监督的统计信息任务,比如统计单词,Gram粒度,或者边界熵,然后在预训练中加入mse-loss。在CWS/POS、NER(右图)上,很多任务都达到了SOTA。另一项研究是跨学科的。每次标注数据和构建监督任务的成本都非常高,因此需要构建跨域的无监督分词机制。以右下角的表格为例。与开源分词相比,电商分词的质量有了明显的提升。该方法也发布到ACL2020。识别关键短语和类型。同时,搜索知识图谱的构建也依赖于NER功能。寻找NER也面临一些挑战。主要原因是query往往比较短,context不够。例如,电子商务中的查询实体是高度模糊和知识渊博的。因此,近年来NER核心的优化思想是通过上下文或知识的引入来增强NER的表示。2020年和2021年完成了implicitenhancementcomboembedding的工作。现有词提取器或GLUE表示的动态融合可以承载许多业务任务以实现SOTA。2021年,研发将基于显式搜索增强。对于文本,增强的上下文将通过搜索引擎获得并集成到转换器结构中。这项工作发表在ACL2021上。基于这项工作,我们参加了SemEval2022多语言NER评测,获得了10项冠军和最佳系统论文。Retrievalenhancement:除了输入句子本身,额外的上下文被检索并concat到输入,结合KLloss来帮助学习。在许多开源数据集中获得SOTA。4.自适应多任务训练BERT本身非常有效,但实际生产中的GPU集群很少,每个任务都必须以推理性能为代价来完成。我们思考是不是只能做一次inference,在encoder之后,每个task都可以自己适配,这样可以得到更好的结果。一种直观的方法是通过元任务的框架来合并NLP查询分析任务。但是传统的元任务是均匀采样分布。我们提出了MOMETAS,一种基于自适应元学习的方法来适应不同任务的采样。在学习多个任务的过程中,我们会使用验证数据分阶段进行测试,看看不同任务学习的效果。奖励反过来指导先前训练的抽样。(下表)结合这种机制在很多任务上相比UB(UniformDistribution)有很大的提升。将上述机制应用到多行业搜索的场景中,带来的好处是只需一次BERT编码和存储,就可以直接复用到下游的多个任务中,可以极大地提升性能。5.SearchandRecall预训练语言模型深度检索无非是双塔或单塔。一般的训练范式是监督信号和预训练模型。执行微调以获得嵌入并表示查询和文档。最近的优化路线主要是数据增强或者难样本挖掘,另外就是优化预训练的语言模型。原生BERT并不是特别适合用于搜索的文本表示,因此有用于搜索文本表示的预训练语言模型。其他优化是多视图文本表示和特殊损失设计。与原生BERT的随机采样相比,我们结合搜索词权重,增加词权重较高的词来提高采样概率,学习到的表示更适合搜索召回。另外,增加句级比较学习。结合这两种机制,提出了ROM的预训练语言模型。在MSMARCO中做实验,相比之前的做法可以达到最好的效果。在实际的场景搜索任务中,也能带来很大的提升。同时,模特也参与了MS刷单。6.除了ROM的recall阶段,HLATR重排模型在refinement和rearrangement阶段提出了一套listawareTransformerreranking,即将refinement和众多分类器的结果通过Transformer有机融合在一起。很大的推动力。结合ROM和HLATR这两个方案,从3月到现在(7月)依然是SOTA的结果。三、行业搜索应用1、地址分析产品达摩院开发的地址分析产品的背景是各行各业都有很多通讯地址。中国的邮寄地址有很多特点,比如在口语表达上有很多默认值。同时,地址本身是人也是物,是连接客观世界众多实体的重要实体单位。因此,在此基础上,建立了一套地址知识图谱,提供分析、补全、搜索、地址分析等功能。这是产品的技术框图。从下到上,包括地址知识图谱的构建和地址预训练语言模型,包括基于搜索引擎的框架拼接整个链路。上述基准能力以API的形式提供,并封装到行业解决方案中。这套技术中比较重要的一点就是地理语义的预训练语言模型。地址在文本中表示为字符串,但在空间中往往表示为经纬度,地图中也有对应的图片。因此,将这三种模态的信息有机地融合成一个多模态地理语义语言模型,以支持寻址中的任务。上面提到,我们需要做很多与地址相关的基础能力,比如分词、纠错、结构化分析等。核心环节是桥接地理预训练语言模型,解决基础任务,触发搜索引擎。比如你搜索哲一医院,你可能会对其进行结构化、同义词纠错、向量化的词项加权、Geohash预测等。根据分析结果召回。此链接是文本检索、拼音检索、矢量检索和地理检索的标准搜索链接。召回之后是多阶段排序,包括多粒度特征融合。地址搜索系统的直观应用是在填写地址后使用建议场景,或者在高德地图中搜索,需要映射到空间中的一个点。接下来再介绍两个工业化的应用方案。首先是新零售FamilyID。核心要求是维护客户管理系统。但是各个系统的用户信息没有打通,无法实现有效的整合。比如某品牌厂家销售一台空调,家庭成员因购买、安装、维修登记了各种地址和手机号,但对应的地址其实都是一样的。已建立的地址搜索归一化技术将不同表示的地址归一化,生成指纹,将不同的用户ID聚合到Family概念中。通过家庭聚合的概念,可以更好的实现新零售下的渗透分析、广告触达等营销活动。另一个应用场景是119、129、紧急求救等智能报警应用。因为涉及老百姓的人身财产安全,分秒必争。希望通过结合语音识别和文本语义理解技术来提高这种效率。(左例)场景有很多特点,比如ASR音译错别字,不流畅,口语化。目标是根据自动语音转录分析推断警报的位置。我们提出了一整套系统解决方案,包括对话理解的流畅口语纠错、意图识别,以及从召回到粗排序到细排序的搜索机制的组合,最终实现地址推荐。环节比较成熟,全国上百个城市的消防系统已经实施;消防员可以从报警对话中识别出具体位置,结合推荐、匹配、地址围栏确定具体位置,并据此报警。2.教育图片搜索问题接下来介绍教育行业的图片采集业务。ToC和教师端的需求也很大。照片搜索问题有几个特点。它有一个增量更新的问题库,并拥有庞大的用户群。另外,不同学科、不同年龄段对应的领域,知识面很广。同时,它是一个多模态的算法,从OCR到后续的语义理解、搜索等环节。近年来,已经为照片采集建立了一套完整的从算法到系统的链接。例如,手机拍照、OCR识别后,会进行拼写纠错、主题预测、分词、词重等一系列工作,帮助实现检索。由于OCR没有识别英文的空位,所以训练了一套K12英文预训练算法模型来切分英文。同时,题材和话题类型不明,需要提前预判。使用多模态,结合图像和文本来理解意图。照片搜索问题与普通用户搜索不同。用户搜索往往有相对较短的查询,图片搜索问题往往是一个完整的问题。标题中有很多词并不重要,需要做词权分析,将不重要的词丢弃或排序以降低其权重。在图片搜索场景中最明显的优化效果是向量召回。对于性能需求,不能使用OR召回机制,需要使用AND逻辑。对应的特点是召回率比较小。为了提高召回率,需要术语加权和纠错等冗余模块。(右图)通过文本加向量进行多路召回的效果比纯或逻辑还要好,延迟降低了10倍。图片搜索环节包括图片矢量召回、公式召回、个性化召回。提供了两个示例。第一个是纯文本的OCR结果,(左栏)旧的结果是基于ES,简单的ORrecall,加上BM25的结果,(右栏)multi-wayrecall和correlationrecall后的链接得到了很大的提升改进了。二是照片含有图文,多路结合图片回忆。3、电力知识库统一搜索企业搜索中存在大量的半结构化和非结构化数据,提供统一搜索,帮助企业整合数据资源。不仅是电力,其他行业也是如此。这里的搜索不再是狭义的搜索,还包括文档的预处理,文档的AI和知识图谱的构建,以及后续问答的桥接能力。以上是在电力知识库中创建一套制度标准文本的示意图,从结构化到检索到应用。
