当前位置: 首页 > 网络应用技术

netease实践中的数据标准

时间:2023-03-07 16:14:13 网络应用技术

  在生活中,标准与我们密切相关。您吃的食物必须符合国家标准,而汽车排放只能在道路上行驶。计算机界面可以符合与外围设备连接的统一标准。在数据世界中,数据标准同样重要。我们希望真正应用数据标准来练习以帮助客户解决诸如资产不足的,难度困难的数据质量等问题,以及低数据开发效率,因此NetEase开始构建数据标准。

  基于我们对数据标准的理解,本文将根据建立标准的标准和流程以及数据治理过程中标准的特定实践来解释标准制品的建立和引入标准管理产品。我希望与每个人的新理解能够与所有人相撞。

  在实际的工作生产中,我们通常将通过国家标准,地方标准,行业标准等进行特定的活动,以确保我们的一代流程满足监管要求并促进上游和下游协作。因此,我们将看到以下标准指南文件

  同样,数据标准也将以文档的形式存在。除了由国家标准定义的标准和标准的定义外,为了促进使用相同的数据构建规范,内部企业通常会使用文件来定义各个部门的数据标准,以达到触及式共识。

  尽管文件是标准的标准形式,但该文件是非结构化的。在实际应用中,我们只能理解和提取文档中的内容,以将标准应用于产品设计和流程活动。标准约束。

  根据Xintong Institute发布的“数据标准管理实践”:数据标准是指内部和外部使用以及内部和外部使用的一致性和准确性的标准化约束。

  毫无疑问,这是正确的。但是,我们还需要练习标准。以中央平台为例,我们知道数据中的数据强调了资源集成。在数据级别上,数据级的各个岛屿散布在isservice功能中的岛屿数据,这是一项艰巨的任务。很难通过协议和默认信任相关方确保数据的价值以形成真实的数据资产。

  因此,基于这一点,数据标准将扩展。首先,从狭窄的数据标准(指基本数据本身的标准化约束,例如数据格式,类型,值域等)到整个数据到整个数据标准桌面级别(包括各个阶段的治理标准化约束);第二个是管理方法的扩展。数据标准不再是指一系列数据标准化文档,而是一组规范要求,过程系统和技术工具。该系统由标准化,配方,释放,执行,检查和维护组成,以完成数据的标准化和标准降水。

  在谈论价值之前,让我们谈论我们的头痛问题。每个人都在谈论数据标准,但是数据标准是否确实适用?我们持有一堆标准文档。我们希望企业的内部晋升能遵循此标准,但是执行的结果是什么?

  当数据集成了多源异质数据时,矮人开发人员可以真正了解这些数据的实际业务含义吗?如果理解成本高,开发人员可能会有偏见。

  最后,数据集成并可以开始构建位置。如何确保数据的每一层都符合质量要求。它是开发开发的个人质量吗?称为公共模型层?

  然后,在Digang的发展完成后,我们需要向外界开放。实际上,我们不仅要开发他们的数据,而且还需要开发其元数据信息来帮助数据的数据快速使用所需的数据。研发个人知道数据是什么,何处以及如何使用它,它不能称为数据资产。

  有很多问题,仅在此处列出。当然,这些问题可以解决,解决方案是数据标准。解决方案的过程可能需要很长时间,因为从管理到着陆的标准实施并不容易。它需要从意识形态上进行转变,但是我们必须始终正确地做事。

  下面列出了一些值,但是在实际的申请过程中可以找到更多的可能性。

  值1:建立统一的数据视图

  建立一般的元模型规范,支持用户定义的扩展,抽象信息以提取多组合异质数据表,并形成一个统一的元数据层。所有数据的开发完成后,将发布给数据的统一数据目录发布到数据之后通过不同维度的数据目录进行标准维护,多维筛选,以满足各种用户的检索需求,并实现管理,可用和检查资产的目标。

  价值2:建立统一的数据认知

  首先,使用标准来完成多种源数据的标准化描述。尽管只要输入我们的平台,不同系统中的数据数据称为奇怪,我们将提供一个统一的名称,以便管理人员,开发人员和用户将建立对统一识别的统一识别。仓库将数据标准与表字段联系起来,该方向旨在统一含义并为未来的数据处理提供信息;对于仓库的内表,需要在模型设计的开头引用标准。我们知道将数据项合并为获得模型。数据元是标准数据项。设计模型设计时,您只需要从池中选择所需的字段以组装所需的型号。

  价值3:建立质量审核系统

  现有的质量审核通常是根据业务需求手动制定的,不同人员的认知偏差将使数据质量难以控制。DATA标准会根据数据元素的要求自动生成质量审计规则数据元素。当表的字段绑定到数据元素时,可以根据数据元素的质量信息自动生成审核任务,并确保源定义的一致性。

  我们知道该工具的最终目的是降低成本和提高。效率提高取决于过程规范。该过程已经足够标准化,并且可以在一定程度上自动散发该过程。因此,未来的数据治理趋势应集中在过程自动化和舞台智能上,这两个点需要由数据标准支持。

  在舞台上,预计智能期望将在过程的各个阶段提供明智的识别能力,例如该领域的真实含义(安装数据标准),资源分类和枚举价值,以减少手动参与在短期内,用户从处理器更改为审阅者。从长远来看,用户干预行为托儿所识别模型,提高识别的准确性并降低人工成本;

  过程自动化依赖阶段的结果和手动干预的结果串联连接,并且上游和下游是完美的连接。当上游阶段满足下游访问条件时,可以自动触发该过程操作。当然,该过程还需要统一上游语言。(即数据标准),在实际实践中,可以通过试用操作来验证。

  仍然有很多标准价值。它仅限于长度,但没有描述。您可以不断地发现标准应用程序方案。在谈论标准的价值之后,我们应该如何建立数据标准?

  在早期的业务发展过程中,为了解决当前的业务问题,各种业务线路已经建立了自己的个性化业务系统。为了确保施工过程中的内部通信,本地数据标准或多或少或多或少。一般而言,可以收集现有的国家标准或行业标准,现有标准标有国家标准或出价。为了满足监督的需求,第二个是大大挽救按标准制定的人力;另一方面,考虑到行业的特征并结合了企业的实际需求,标准逐渐实施。

  可以根据数据标准建立的特定6个步骤是:数据标准计划,数据标准公式,数据标准发布,数据标准执行,数据标准检查,数据标准维护。

  标准计划首先需要调查和分析企业的业务和数据,并结合实际数据标准以阐明数据标准的范围。然后根据实际情况逐渐发展。

  3.1.1收集当前标准

  从业务流程开始,确定参与业务流程的业务实体。诸如人类之类的通用企业实体可以收集当前的国家标准。例如,对于公民ID编号,性别标准GB/T 2261.1的规定,行政部门应指GB/T 2260的规定。具有行业属性的商业属性(例如商业银行担保)的规定,可以参考JR的规定/T 0170.1和JR/T 0170.2。

  3.1.2从本地标准到全球标准

  企业的各个业务线(部门)建立的本地标准不适用于引用当前标准或当前标准中不存在。

  此过程可以包括统一的基本数据标准,统一的参考标准以及索引类的统一数据标准。

  3.1.3发现更多数据标准

  发现更多的标准主要用于以下情况。首先,当本地标准不清楚并且没有现有标准时,另一个是企业各种业务线的许多垂直系统,数据量很大,缺乏足够的人力和技术手段,预计将从整体策略的角度制定标准。在对这种情况的回应中,它可以依靠数据标准管理平台(将详细介绍第3节)进行标准识别和拾取。

  通常有两种识别和取货方式:

  首先需要清楚地制定标准,并通过定义数据元素的概念(详细介绍2.2节),确定数据标准所描述的对象类别和特征,然后通过关键字扫描和智能识别技术,扫描Stocksdata,确定与数据元素概念一致的数据收集,并探索集合的字段类型分布,长度范围,值域分布等的集合,从而构建数据元素的描述并形成完整的数据标准。

  第二是,无需清楚地制定某个标准来探索是否有必要为某些数据项制定标准。系统扫描库存数据,遍历选定的数据源类型中的所有字段名称,请提取字段达到重复阈值的名称,并为其制定数据标准。

  3.2.1元数据标准

  元数据标准主要指定了各种元数据和资产平台的方式和组织方法。

  3.2.1.1元模型公式

  数据中泰是企业数字化转型的基础和中央系统。它集成了企业的大型,多源和异质数据,但是多边形异质数据的分化显而易见。如何确保数据经理,用户,开发人员,开发人员,开发人员是一个紧迫的问题,要具有统一的数据认知。良好元素模型的设计是屏蔽基础多边形异质系统的复杂性,并使用统一的语言来使用统一的语言来描述来自不同应用系统的各种数据,并存储在不同类型的数据库中。

  我们知道元数据是数据的数据,元模型与模型的数据描述有关。根据OMG(对象管理组织)提出的四个层元模型结构,可以清楚地表达四个层次的关系:

  可以看出,元数据是一个相对概念。元模型是元数据的元数据。为了使每个人更方便地理解,此处解释了一个例子:

  元模型不仅限于表元素模型,现场元模型,还包括索引元模型,标签元模型等。尽管所描述的元数据类型不同,但管理方法是一致的。在实践过程中,所有内容都可以包含在实践过程中。数据标准是管理的,也可以保留在相应的子系统中。

  3.2.1.2命名和编码规则制定

  命名规则主要用于调节表名称,字段名称,任务名称,指示名称,标签名称等。编码规则主要是用户资产编码,数据元素的内部标识,标签编码,指示器编码等,并指定在特定代码中应使用哪种编码方法。

  因此,需要指定命名和编码元素的范围。首先,选择平台的现有枚举值,例如数据分层,主题域或其他现有类别;第二个是用户可以自定义常数和自定义枚举值;第三,平台提供的可变位置顺序。通过上述命名元素,对组合进行排序以形成命名和编码规则。

  以数据元素为例:

  第一个编码方法可以“指定(常数)自添加序列的+7数字”,可以编码为DE0000001;

  第二种编码方法可以按照分类统一编码,类似于“第一个级别的分类编码+辅助类别编码+三个数据自我添加序列”,例如公民身份编号。信息识别类(001)(001)“”,然后您可以编码为01001001,其他等等。

  3.2.1.3数据目录规范公式

  数据目录提供了灵活的数据组织方法,例如使用数据层和主题域来组织数据的数字仓库开发人员。对于数据经理,他们可能会更加关注资产库存。管理计划。

  在制定数据目录时,我们需要分析用户的需求方案,并在不同方案中为用户提供更合适的数据视角,以促进使用的用户数量。总体上讲,数据源分类,数字位置设计分类和数字位置设计分类和数据安全分类将首先提供。分类的描述信息必须至少包括分类名称,英语名称和内部编码,以促进平台上其他模块的应用。分类方案支持用户在以后的管理过程中的自定义扩展。

  3.2.2基本数据标准

  3.2.2.1根的公式

  该单词的根部更为标准化和统一用于标准命名,并最终将应用于字段命名或其他资产的命名。

  企业可以根据自己的积累来收集根源,以形成自己的根库。在制定数据元和词典时,它们可以根据输入的根自动翻译英文名称。

  完整的根源信息包括三个部分:英语缩写,完整的英语名称和完整的中文名称。完整的中文名称支持多个。它确保用户可以在使用root Translation时获得相同含义的相同含义的相同英语缩写。为了促进统一的管理,需要对统一的管理,需要编码和根的编码和根。

  3.2.2.2数据元公式

  数据元素是基本数据标准的具体表现和数据标准管理的核心。根据数据标准计划,制定数据元素的第一种方法是在结构上提取当前标准,管理平台的使用,第二个IS是根据自己的需求建立企业自己的专业数据元素。

  完整的数据元素应由三个部分组成:对象类别,特征和表示形式。如下图所示,只有当对象类及其特征被绑定时,才能将其从数据元素的概念转换为真实数据元素。

  对象类别:思想,抽象概念或现实世界中事物的收集具有清晰的界限和含义,特征和行为遵循相同的规则来识别它;例如:汽车,人,订单等;

  功能:对象类的某些人,例如颜色,性别,年龄,价格等;

  代表:如果需要的话,值域和数据类型的组合还包括测量的单元或字符集,例如:格式,值域,长度等;

  其中,值域可以直接通过名称或代码值给出,也可以通过参考材料给出,也可以通过绑定数据字典给出。

  因此,完整的数据元素名称应为:“对象类词+特征性单词+表示单词”,例如人类性别代码。

  了解数据元素的含义后,如何制定数据元素?我们可以参考GB/T 18391标准的第1到6部分。有兴趣的朋友可以理解。在这里,我们结合了对数据元素的结构化描述的理解。

  在开发数据元素时,我们通常会从6个方面描述数据元素的基本属性:识别类属性,定义类属性,关系属性,表示属性,管理属性,其他属性,其他属性,如下。,在申请过程中,需要根据企业的实际需求删除和替换。

  3.2.2.3数据字典公式

  数据词典是标准数据标准的反映。通常将其分为原始词典和标准字典。原始词典是指源系统或生产系统中原始项目数据内容的枚举集合。在数据处理过程中,域存在,需要完成标准字典的原始字典映射,并且需要完成字典的标准化已完成。

  数据字典的核心是其代码列表。代码列表必须至少包括两个信息:代码和代码描述。如有必要,可以添加解释字段以补充。

  如何获取代码手表:

  3.2.2.4数据项分类规范制定

  数据项分类类似于数据目录,也是满足不同方案中不同对象的分类需求。数据类别是对字段级别进行分类。

  在制定数据目录时,需要分析用户的需求方案,并在不同方案中提供不同的分类方案。例如,从管理的角度来看,可以根据描述对象和源文件进行分配;从数据安全性的角度来看,可以根据敏感级别和安全级别进行分配,分类方案支持用户自定义以后的管理过程中的扩展。

  在实际应用过程中,特定的分类值将与数据元素关联,并且数据元素与字段相关联,以实现快速分类的目的。

  3.2.3技术标准配方

  3.2.3.1数据类型映射关系

  它主要记录不同数据源数据类型数据类型之间的映射关系,这很方便在数据传输和分发中快速构建表,并提高数据传输任务的配置效率。

  3.2.3.2异质数据开发模板的配方

  它主要是管理具有不同数据源的DDL语句模板,包括新,删除,更新等,帮助数据开发人员在选择相应的数据库节点时根据模板快速生成语句。

  建议使用一般数据标准遵循草稿,试验,标准和废除生命周期的流动,但可以根据实际情况来简化简化。对于数据元数据,数据字典,请尽可能遵循本生命周期管理。对于简化的流程,例如根,数据分类和元模型,可以采用草稿,在线和离线的生命周期管理。

  数据标准版本可以在开发的标准制定之后将其提交给整个系统。批准审查后,它将应用于整个系统。如果有必要将来对其进行修改,则在修订完成后需要发布最新版本。

  此外,您需要在发布之前查看影响的更改和影响范围。在评估效果之后,必须在评估后将其释放,并通知相关方进行调整。

  数据标准的实现分为两部分。首先是数据治理的所有阶段。第二个是新系统和历史业务系统的应用。

  数据治理过程的应用主要是(数据标准与每个模块的对接,将在第4节中详细介绍):

  新业务系统

  系统正在运行

  执行数据标准后,需要进行标准检查以确认标准和效果的实现。

  参考可以指的是相关指标,以确定标准方面的统计和标准化率统计,并判断质量侧统计表和现场质量得分的指标执行。

  维护数据标准

  降水数据标准

  在了解如何建立数据标准之后,我们可以开始执行此操作。但是,如果您想做好事,则必须首先使您的仪器受益。合适的数据标准管理工具可以帮助我们更方便,有效地制定和管理数据标准。

  因此,基于数据标准管理流程和管理内容的分析,并完全考虑了不同行业对标准管理需求的不一致,数据标准管理产品的功能设计将详细介绍产品的模块。

  4.2.1数据标准统计首页

  它主要包括标准资产的统计数据,标准化统计数据和标准流程统计以及对标准结构和使用的全面评估。

  4.2.2数据标准文件管理

  该模块用于管理当前平台上引用的各种标准文档,并与结构化标准建立联系,以确保标准源的可信度。此外,对于已通过结构化标准提取的文档,它们将用于标准模板用于用户的平台预设。

  4.2.2.1数据元素管理

  数据元素管理是标准管理的核心内容。它支持输入数据元素的表单和批处理导入方法。根据标准生命周期草案,试验,标准和废除数据元素管理,支持数据元素的批处理导出,并在不同方案中满足数据,以在不同方案的需求中查看数据。数据元素还绑定到审计规则,以提供质量测试的基础。

  此外,支持数据元素不同版本之间的比较,获得版本的差异,并评估标准变化的风险。

  4.2.2.2数据字典管理

  数据字典的管理内容包含原始词典和标准字典。可以认为原始字典是原始数据项的值域分布,标准字典是标准数据项的值域分布。可以主动输入原始字典,或者可以主动输入数据探索的值域分布可以生成;标准字典与数据元素符合相同的生命周期管理,并支持批处理进出口运营。

  在随后的实现中,它将完成平台数据库中存在的字典表。同时,将保持原始字典与标准字典之间的关系,这很方便用户在数据处理过程中快速竞标字典。

  4.2.2.3字根管理

  根管理旨在定义英语名称,英语缩写和中文名称之间的映射关系,并为标准命名提供标准化的输入。定义数据元,数据字典或模型字段时,用户将拆卸中文名称输入并生成生成根据根部的根。

  除了进入受支持的根部形式外,还将支持根源支持的批次导入,以帮助用户快速引入已开发的公式。

  4.2.2.4数据项分类管理

  数据项分类管理提供三种层次目录类型。第一个管理是分类目录,用户对分类方案进行了分类;第二个管理是分类方案,该方案基于某个数据项分类基础(例如描述描述(描述描述对象)提供的分类方法;第三个是分类值,该值属于分类方案,将安装为分类方案在此层上的真实数据元素。

  因此,数据项分类支持分类的基本信息管理,并且还支持批处理和提升关联中数据元素的关联。

  4.2.3元数据标准管理

  4.2.3.1命名和编码规则管理

  命名规则和编码管理应该能够作为命名元素的枚举值收集和管理现有的现有现有的现有,并支持用户添加自定义元素。用户可以将元素组合起来以形成命名规则并通过单击或拖动来编码。

  4.2.3.2数据目录管理

  数据目录管理类似于数据项分类管理,但是分类对象是不同的。在这里,分类主要提供各种视角,多个方案,表格,指示器,标签等。显示统一资产目录以使资产可以理解,可识别且易于查找。

  4.2.4技术标准管理

  4.2.4.1数据类型映射关系管理

  主要管理不同数据源数据类型之间的映射关系。以下示例是,随着数据源类型的增加,该模块支持数字源类型类型的交叉映射。

  4.2.4.2 DDL模板管理

  具有不同数据源的DDL语句模板主要管理,包括新,删除,更新等以及模型设计或离线开发中的参考。基于所选信息,替换了模板中的参数。示出MySQL表作为示例:

  4.2.5标准过程管理

  4.2.5.1标准发现

  根据标准配方过程,该平台提供数据库拾取功能,标识标准并根据身份识别结果(即完整的数据元定义)得出结论。以下是基于数据元素的识别的页面参考概念。

  4.2.5.2审核管理

  审计管理主要是运行标准生命周期的循环以及标准发布的应用。审计师可以根据实际情况对其进行评估,并选择通过或拒绝。

  4.2.5.3标准版本

  标准版本采用了整个软件包版本。如果在大版本中发布了相同的数据列表,以确保平台的标准参考基线。您需要支持查看当前更新的内容,提交发布应用程序,比较版本差异并支持查看发行记录。

  4.2.6标准配置

  标准配置主要配置并设法配置数据元字典的元模型。我们提供了一种更全面的数据标准结构化方法,但是根据不同行业标准的标准描述的需求,它可能不需要那么多的描述项目。因此,提供数据模型配置,用户可以根据实际情况使用启用,停止或添加标准的描述项目。

  4.2.6.1数据元素模板配置

  4.2.6.2数据字典模板配置

  在特定的实施过程中,我们希望根据“需求设计开发转换”过程构建该过程。在需求设计阶段,应安排数据的当前状态以确定治理和标准配方的范围因此,在随后的设计中,可以标准化指标和模型的设计,元数据和数据的质量从来源开始,并且指导了开发过程的具体实施。

  数据标准在治理过程中的位置以及与每个模块的相互作用。

  数据传输具有将多源异质数据集成到大数据平台并将平台数据分配给其他库的能力。当目标库没有相应的表时,需要根据源表构建表,但是不同数据源之间的类型是不同的。人为匹配是必要的。随着数据源的类型继续增加,很难匹配人们的体验。

  标准维护是不同数据源之间的映射关系。建立传输任务时,可以根据映射关系快速生成目标表结构,以实现快速构建和一个单击表的能力。

  元模型的配置主要包括元模型的组管理,在项目管理中构建的系统和元模型的用户定义的项目管理。目前,它支持了配对,字段,指示器和标签的形而上学模型设计的设计。

  5.2.1台美元型号设计

  5.2.1.1小组管理

  5.2.1.2系统构建 - 项目管理

  5.2.1.3自定义项目管理

  5.2.2现场大都市模型设计

  5.2.2指标元模型设计

  5.2.3标签金属型号设计

  5.3.1分层计划

  除了构建的分层系统外,用户还可以添加自定义层

  对于分层下的表,需要表名称的设计规范,并且按一定顺序排列命名元素以获取命名规则

  5.3.2分类计划

  数据目录管理用于分类计划,数据资源是根据该方案在资源目录和资产方面进行的,以满足各种用户检查数字的需求。分类等

  5.3.3表结构和数据标准设计

  当设计表结构时,一方面,根据填写的中文描述,会自动推荐相应的数据元(如果存在标准),另一方面,可以直接选择数据元素。描述和相关标准数据词典,如下图所示:

  在将字段添加到模型设计中心时,通常关联特定的应用程序:

  SQL编辑器基于所选的输入输出表,与表字段关联的数据元信息将自动映射相同的字段以快速生成SQL。用户只需要确认生成的SQL即可。

  在随后的计划中,该标准将帮助视觉ETL和自动化ETL,帮助用户执行现场映射,并根据审计规则和与数据元素关联的审计规则和脱敏规则自动获得相应的处理功能,以生成开发脚本。

  数据标准是数据质量审核规则的主要参考基础。通过将数据质量审核规则与数据标准相关联,一方面可以实现字段级别的数据质量验证,另一方面,确保规则的全面性和可用性。

  数据标准可以包括业务敏感的数据对象和属性,从而实现数据安全管理规则的定义。通过数据相关性,快速生成字段 - 级别的加密或脱敏规则。

  数据标准的构建和管理很远。将来,标准的应用程序方案将逐步扩展以满足各个行业的客户需求。随着管理内容的持续丰富和不断改进管理流程,该标准将被用作数据的基石在数据中,为每个模块和每个过程的阶段提供标准化的指导和监督。

  原始:https://juejin.cn/post/7096368589602553887