数据作为机器学习的基础,从GB、TB到PB增长了无数倍,现在更大的业务场景,没有TB级的数据无法提供高效的体验。那么数据应该如何管理,又应该如何与模型、算力相结合呢?在本文中,我们将了解一下什么是HAO数据治理模型,看看公安数据是如何被监管的。近日,明略科技与合肥工业大学的研究人员在中文核心期刊《软件学报》发表了一篇关于数据治理的论文。引入数据治理的概念,对数据清洗、交换和集成进行具体分析,从而提出一种新的大数据治理框架“HAO治理”模型。论文地址:http://www.jos.org.cn/1000-9825/5854.htm数据治理真的很重要吗?智能是建立在数据的基础上的,而数据又是建立在大量的人工和工程努力的基础上的,所以人工智能还是有相当一部分“人工”的??。数据采集??需要手动判断数据源,或者手动编写爬虫;数据处理需要观察数据,手动编写整个清洗过程;数据标注需要看如何根据具体业务对数据进行标注。这些过程是劳动密集型的,如果处理路径不清晰,有时甚至会导致重复或冗余的人工工作。因此,如果事先确定一个具体的处理流程,如何管理数据、如何分配计算能力、如何部署模型,整个开发过程可以减少大量的人力成本和工程负担。作为论文第一作者,明略科技集团首席科学家、明略科学院院长吴新东教授表示:“数据治理的本质是对一个组织(企业或政府)的数据进行评估、引导和引导。部门)从采集整合到分析管理利用,监管过程通过提供数据服务创造价值,数据治理可以管理数据战略资产,通过从采集汇总到处理应用的一整套治理机制,提升数据质量,实现数据共享,实现价值最大化。”既然这么重要,就需要一个框架,就像DL模型一开始是手工写的,但成为主流之后,就需要TensforFlow这样的框架。吴新东等研究人员分析了各种模块在详细介绍数据治理,并表示数据治理从来都不是一次性的,每个组织都必须采取很多小的,一个实现长期目标的可实现和可衡量的步骤。因此,如果我们想要降低数据治理的成本,优化部署数据、模型和算力,就需要一个成熟的框架。下面我们聚焦“HAO治理”模型的概念和过程,从公安数据治理的角度,看看这个框架在实际应用中是什么样子的。什么是HAO治理模型?如前所述,数据治理是从数据收集到应用处理的管理机制,框架规定了数据的流程、原则或定义。比如我们现在有一堆图像数据集,那么从图像来源、图像采集到图像存储,首先要确定数据的访问方式。后期由于这些图像用于多个任务,需要确定标准化形式,并做一些清洗和预处理;当然,标注还是要根据任务来定。最后,这些图像数据应该统一提供给不同的模型和任务来构建不同的服务,这部分也应该统一管理。明略科技设计的“HAO治理”模型将从大数据出发,为“HI”(人类智能)、“AI”(人工智能)和“OI”(组织智能)的协同智能提供数据治理支持。举个HAO的例子:HAO的智能输入不仅包括各种传感器,还包括人的主观感受。后续的雾计算将对所有信息进行分析,将机器计算/推理的结果与人的分析相匹配,形成概率与规则有机协调的优化判断。人、机器和组织结合在一起,他们的数据和判断相互辅助,从而最大限度地发挥数据的使用能力。整个人机协作系统非常复杂,需要一个成熟的治理框架来规范数据和算力的分布。这样的系统需要满足完善的数据访问机制、标准化的数据处理流程、多元集成的数据组织模式和多种数据服务模式等要求。其中,数据服务模式可为用户提供查询检索、比对排序等基础数据服务,也可为专业人员提供挖掘分析、专家建模等智能数据服务。下图为HAO智能的蓝图设计,主要包括感知、认知和行动三部分。总的来说,整个过程会从大数据环境出发,基于大数据、人类专家系统、人工智能和组织智能生成相应的知识图谱,从而将大知识应用于人机协作。此外,“HAOGovernance”是一个实用的系统,因此需要模块化的数据源和治理功能,需要更快速、更灵活地构建新功能。什么是“HAO治理”模式?“HAO治理”模型主要由三部分组成,即数据接入模块、数据治理模块和数据服务模块。其中,数据访问需要进行采集、聚合等操作,构建异构大数据。其次,数据治理模块主要对数据进行一系列的预处理过程,构建更易于建模的数据。最终的数据服务模块通过分析处理,对外提供各种新的能力。1.数据访问一般来说,现实世界中的数据主要分为结构化和非结构化,这些图像、文本等数据需要统一访问和管理。对于数据源之上的接入模块,主要完成不同类型的抽取和聚合任务配置,包括异构数据库之间的数据传输和聚合,不同类型的文件数据和服务接口之间的相互传输。2.数据治理接入后的数据比较杂乱,本身就携带了一些冗余或缺失的信息。因此,数据治理模块主要包括对池化数据库中的数据进行数据清洗和数据标准化,必要时进行主题划分和数据关联,然后进行数据集成。治理后的数据汇集到数据共享中心,用于后续建模。其中,我们比较熟悉的是数据清洗,对数据进行审核和校验,过滤不合规的数据,删除重复数据,纠正错误数据,完成格式转换。3、数据服务数据治理的目标是提供一个可以直接使用、易于管理的数据库。它最终为各种模型提供了学习基础。模型最终还需要提供各种智能化服务,所以这部分也要进行标准化管理。在数据治理模块的基础上,数据服务模块会初步构建一个基于数据共享中心的知识图谱。不仅为用户提供模型管理、模型探索、数据探索等数据服务,还为专业人士提供挖掘分析、专家建模等智能数据服务。核心知识图谱是由节点和边组成的巨型知识网络。节点代表实体,边代表实体之间的关系。每个实体还通过键值对描述实体的内在特征。领域专家可以基于知识图谱中的实体、关系等核心数据进行建模,进行高层次的数据挖掘分析和处理。通过统一数据访问、治理和服务模块,构建“HAO治理”模型,规定最通用的处理流程。吴新东教授表示:“只有通过多维感知连接优质数据,运用数据治理技术,才能进行知识的智能抽取,基于知识图谱和暴力挖掘的知识多维分析推理。开展决策模型建设,实现从数字化、网络化到智能化的转变。公安数据治理应该是什么样的?上面介绍了“HAO治理”模型的主要概念,那么应用到现实世界中会是什么样子呢?可以进一步降低人工成本。成本?在论文的最后部分,研究人员以公安数据治理为例,介绍了整体流程和框架是什么样子的。我们先看图。下图13描述了公安数据治理框架。平台架构主要包括数据存储、数据计算、数据管理和数据应用四部分。它将不同的数据按应用划分成不同的专题或专题数据库,如常住人口专题数据库或企业信息专题数据库等。同时,不同的数据最终可以形成一张知识图谱,相当于构建了一个庞大的背景知识。这张图看似很复杂,其实分为存储、计算、管理和应用四个部分。数据存储:基于分布式大数据存储平台;数据计算:这是数据治理最重要的部分,包括数据探索、提取、清洗、转换、集成等;数据管理:综合数据统一维护管理;数据应用:这是数据价值最直接的体现。我们可以通过自然语言处理等技术对数据进行深度分析。从上图我们可以看出整个工作流程从预处理到分析挖掘大致分为7个部分。不同的部分会调用不同的数据知识库,最终的分析和挖掘才是我们想要得到的结果。在整个过程中,除了对数据进行各种操作和处理之外,还需要创造新的知识表示方法。例如,按照一定的主题关联数据构建模型,公安数据治理以人、物、时空、组织、虚拟标志、案例为主题构建模型。此外,知识图谱可以根据目标数据分为实体、事件和关系三种类型,从而建立数据之间的关系。在公共安全场景中,我们可以构建一个以人为中心的实体的简单知识图谱,如下所示。其中,我们需要建立人与电话号码的关系,人与护照的关系,人与人之间的关系等等。以上是公安数据治理的简要架构。吴新东教授表示:“明略科技提出这样的数据治理框架,希望构建一个从感知到认知到行动的反馈闭环,将人、机器和组织的智能融合在一起,为企业和组织提供高具有分析和决策能力的人工智能应用水平。”
