随着信息化的发展,海量数据中隐藏和分布着大量有价值的知识,影响了人们获取知识的效率。如何处理复杂的非结构化数据文本数据成为一个问题。近期,HMSCore机器学习服务6.5.0版本新增在线文本实体抽取能力,可以检测文本中是否存在日期、姓名、专有名词等实体信息,并抽取此类实体,即自动提取的能力处理非结构化自然语言文本数据。比如在影视行业的应用中,往往会有大量的影评、资讯等内容。利用在线文本实体抽取能力,可以快速抽取结构信息,帮助构建知识图谱,便于用户清晰理解。此外,文本实体抽取能力在问答系统、信息索引、知识图谱构建等领域应用更为广泛。问答系统问答系统是信息检索系统的一种高级形式,能够以准确、简洁的自然语言回答用户提出的问题。在实现问答系统的过程中,需要利用文本实体抽取能力,识别出问题和知识库中的实体信息,进而匹配多种算法模型,得到准确的答案。信息索引利用在线文本实体抽取能力,可以将具体的实体信息命名为索引和超链接。例如,用户在评论中提到的专有名词可以生成超链接,方便其他用户检索和了解相关内容。知识图谱构建知识图谱是由实体、关系和属性组成的数据结构,即具有有向图结构的知识库。提取文本实体的能力作为底层能力,在构建知识图谱的过程中发挥着极其重要的作用。例如构建音乐知识图谱,首先需要从大量的文本数据中提取歌手、歌曲、歌词、影视等相关信息,然后构建知识图谱。目前,华为机器学习服务在线文本实体抽取能力支持姓名、货币、片名、网页链接等16种实体类别,可根据实际语义场景应用于不同类型的应用。集成步骤详细准备步骤请参考华为开发者联盟官方网站。集成配置apigateway认证基于Apigateway的认证机制:"paths":{"/entityExtract":{"post":{"operationId":"entityExtract","parameters":[{"in":"body","name":"req","required":true,"schema":{"$ref":"#/definitions/NerEnterReq"}},{"name":"X-Request-ID","in":“header”,“required”:true,“type”:“string”},{“name”:“X-Package-Name”,“in”:“header”,“required”:true,“type”:"string"},…],"responses":{"200":{"description":"responseof200","schema":{"$ref":"#/definitions/ResponseEntityNerBodyVo"}}}}}创建在线文本实体构造函数//使用自定义参数配置创建语言检测器。MLRemoteNerSettingsetting=newMLRemoteNerSetting.Factory().setSourceLangCode("zh").create();MLRemoteNerner=MLNerFactory.getInstance().getRemoteNer(setting);执行文本实体提取。在线文本实体提取异步方法示例代码:ner.asyncEntityExtract(input).addOnSuccessListener(newOnSuccessListener
