[quote]本文编译自https://cacm.acm.org/magazines/2021/11/256400-there-is-no-ai-without-data/fulltext,旨在at是一家工业企业。其实对大多数企业都有一定的借鉴意义,尤其是在元数据的管理和自治方面。人工智能逐渐从炒作走向现实。机器学习和深度学习算法的进步,计算能力和存储容量的显着提升,以及数字化产生的海量数据,人工智能有可能成为所有行业的游戏规则改变者。人工智能有可能从根本上改进业务流程,例如,在制造业中进行实时质量预测并生成新的业务模型。传统行业正面临根本性变革:从生产实物产品到通过工业4.0中的人工智能进行流程优化和服务交付。尽管人工智能潜力巨大,工业企业对人工智能技术投入巨大,但人工智能在工业实践中的落地尚未实现。工业企业的核心业务尚未得到人工智能的赋能。人工智能解决方案的成功案例往往是孤立的,例如工厂机器运行的优化。为什么?在大多数情况下,数据问题是传统企业没有全面采用人工智能的主要原因。一般来说,数据准备和数据质量是人工智能和数据分析的关键,这并不是什么新鲜事,因为没有数据就没有人工智能。然而,人工智能在工业企业中面临的数据挑战远不止检测和修复脏数据那么简单。AI通常用于特定用例的数据供应和数据工程,从而形成异构的多语言企业数据环境。这导致了各种数据挑战,限制了人工智能的全面应用。1、工业企业AI现状基于AI和数据分析,对传统企业的业务进行概述,然后描述人工智能的应用现状。1.1人工智能与数据分析人工智能泛指机器执行认知功能的能力。人工智能方法可以细分为演绎法,即模型驱动(例如专家系统),或归纳法,即数据驱动。数据驱动的方法,特别是机器学习和数据挖掘方法,在过去几年为人工智能开辟了新的应用领域。数据分析可以用作各种数据驱动分析的总称,包括BI和报告。1.2工业企业的活动工业企业的活动包括物理对象的工程,例如加热系统或电力驱动。为此,工业公司通常将各种工厂组织成业务单元以运营制造网络。工业企业的IT环境通常包括不同的企业IT系统,从基于产品生命周期管理(PLM)的企业资源规划(ERP)系统到制造执行系统??(MES)。在工业4.0和物联网(IoT)应用中,工业企业推动价值链的数字化。因此,人工智能对流程和产品的支持具有战略意义。为此,近年来,工业企业建立了数据库,引入了人工智能工具,并创建了数据科学团队。1.3CurrentState:AIIslands地图展示了AI在工业企业中的现状。企业已经在整个行业价值链中实施了各种各样的人工智能用例:从支持物联网产品的预测性维护,到生产流程优化的质量预测,再到产品生命周期分析和客户分析。用例结合了来自不同来源(例如ERP系统和MES)的数据,并且通常作为单个用例的独立解决方案来实施。这意味着人工智能是在“孤岛”中执行的,具有特定于用例的数据工程、特定于用例的人工智能工具和适合用途的机器学习算法。一方面,人工智能孤岛促进了特定案例实施的灵活性和探索性。另一方面阻碍了人工智能的复用、标准化、高效化和企业级应用。数据处理在通往工业化人工智能的道路上起着核心作用,将占整个人工智能用例实施的60%到80%。各种独立的人工智能用例导致了全球分布式、多语言和异构的企业数据环境。AI用例的结构化和非结构化源数据被提取并存储在称为数据湖的原始数据存储库中。它们基于单独的数据存储技术,例如不同的NoSQL系统、特定于用例的数据模型和专门的源数据摄取。这些数据库与企业数据仓库共存,后者包含来自各种系统的聚合数据,用于报告目的。许多现有的数据交换过程会产生各种数据冗余和潜在的数据质量问题。此外,不同的数据环境使产品和流程等业务对象的集成和开发变得复杂,阻碍了跨流程和跨产品人工智能用例的开发。例如,为了预测工厂中特定制造过程的质量,由数据科学家和数据工程师组成的专门项目团队首先确定相关的源系统,特别是工厂中的几个本地MES和ERP系统。MES提供有关质量测量的传感器数据,ERP系统提供主数据。该团队与各种IT专家、制造专家和数据所有者一起检查源系统的数据结构并开发自定义连接器以提取源数据并将其以原始格式存储在工厂本地的数据湖中。根据用例特定的数据模型和数据管道清理、集成和传输数据。然后,该团队使用各种机器学习工具来生成最佳预测模型。通过多次迭代,调整数据模型和源数据,以增强机器学习的数据基础。通过调用机器学习评分服务,在工厂车间的MES中使用最终的预测模型。由此产生的解决方案构成了一个有针对性的孤立AI服务,具有定制的数据摄取、数据模型、数据管道、专门的工厂数据库和适合用途的机器学习工具。该解决方案结合了广泛的专业知识,包括制造过程知识、ERP和MESIT系统知识、用例特定数据工程和数据科学知识。然而,缺乏数据治理原则(如数据建模和元数据管理原则)、源系统缺乏透明度以及各种孤立的数据湖都阻碍了人工智能的重用、效率和企业范围的应用。也就是说,同一类型的用例在不同的工厂中以不同的方式从头开始实现。因此,同一个源数据(如主数据)被多次提取,给关键业务的源数据系统(如ERP)带来高负载。为相同的概念数据实体(例如“机器”和“产品”)开发了不同的数据模型。这些异构数据模型和各种工厂数据库中使用的不同数据存储技术导致了围绕同一类型源数据的异构数据管道。此外,数据的商业意义和开发的数据模型(即元数据)在特定项目工具(如数据字典或电子表格)中多次记录。总之,这导致了AI孤岛和异构的企业数据环境。因此,人工智能的产业化需要对潜在的数据挑战进行系统分析。2.人工智能的数据挑战一般来说,保证人工智能的数据质量非常重要。除了数据质量,还有许多关键的数据挑战:人工智能的数据管理、数据共享和数据治理。在这里,机器学习和数据挖掘提出了更广泛的数据需求。他们不仅使用聚合的结构化数据,还使用大量原始格式的非结构化数据,例如,用于基于机器学习的光学检测数据。2.1人工智能数据管理的挑战数据管理通常包括整个生命周期的处理、供应和控制数据。人工智能的数据管理挑战是在异构和多语言的企业数据环境中为人工智能全面管理数据,尤其是数据建模、元数据管理和数据架构。目前还没有关于如何在概念和逻辑层面跨系统构建和建模数据的通用数据建模方法。在数据库中,对于同一类型的数据(如传感器数据),往往采用不同的数据建模技术,如数据仓库或维度建模技术。有时,由于基于原始数据的灵活读取方法,甚至忽略了数据建模的需求。这使得跨不同AI用例的数据集成、数据重用和开发数据管道变得复杂。例如,传感器数据作为机器学习的输入非常耗时且复杂。为不同的AI用例重用相应的数据管道在很大程度上依赖于通用数据建模技术和通用数据模型。没有总体元数据管理来维护跨数据域的元数据。列名、属性名等元数据大多存储在各个存储系统内部的数据字典中,通常是不可访问的。结果,数据继承和影响分析受到阻碍。例如,如果源系统发生变化,如果没有适当的元数据,手动调整所有数据湖中受影响的数据管道将既乏味又昂贵。此外,关于数据含义的业务元数据通常根本没有系统地管理。因此,缺乏元数据管理极大地阻碍了人工智能对数据的使用。没有统一的数据架构来构建数据系统。一方面,缺乏企业数据架构来协调各种孤立的数据湖。例如,许多数据湖之间没有共同的区域模型,这使得数据集成和交换变得复杂。此外,是否包含有价值的AI用例KPI也不清楚。另一方面,也缺乏系统的平台数据架构来设计数据库。具体来说,就是利用不同的数据存储技术,实现数据湖。例如,一些数据库完全基于Hadoop存储技术,如HDFS和Hive,而另一些则结合了经典的关系数据库/价值系统和NoSQL系统。这导致整个企业数据环境中的数据湖架构不统一,从而导致高昂的开发和维护成本。2.2人工智能的数据共享挑战一般来说,数据共享是指促进组织中每个人对数据的使用。AI面临的数据共享挑战是为整个企业的各种最终用户提供各种AI数据。为此,数据馈送和数据工程以及数据发现和探索是人工智能的核心任务。数据配置,从技术上将新的源系统连接到数据湖并提取选定的源数据。IT专家关注为源系统定义技术接口和访问权限,并与源系统所有者和数据的最终用户合作开发数据提取作业。因此,IT部门往往成为数据供应的瓶颈因素。IT专家、源系统所有者和最终用户之间非常需要协调,这会导致耗时的迭代。这些因素显着减缓和限制了数据可用性,从而限制了人工智能对新数据源的使用。数据工程,即数据的建模、集成和清理,通常由数据科学家和数据工程师完成。由于源系统的元数据不完整,数据工程需要了解各个源系统及其数据结构的专业知识,例如ERP系统。此外,大多数复杂的、基于脚本的框架(如Python)用于数据工程中的编程任务。这些因素将数据工程限制在少数专家团队中。数据发现和探索也是如此。虽然自助服务可视化工具可用,但数据湖中数据的发现和探索受到阻碍。缺乏关于业务意义和数据质量的全面元数据会阻止非专家用户轻松使用数据。例如,营销专家必须联系多个不同的数据工程师,以便准备不同类型的市场数据并了解数据的含义和相互关系。此外,数据使用的合规性批准通常基于对数据的专家检查。这些自动化程度较低的流程也减慢了人工智能对数据的使用。2.3人工智能的数据治理挑战一般来说,数据治理是关于创建组织结构并将数据视为企业资产。目前,数据的组织结构只是在工业企业中初步实现,主要集中在主数据和个人数据上。特别是,数据所有权和数据管理结构的缺乏阻碍了人工智能的采用。在异构数据环境中,没有统一的数据所有权组织。特别是,对于提取和存储在不同数据库中的数据,数据所有权没有以通用方式定义。例如,在许多情况下,数据湖中数据的所有者与源系统的数据所有者相同。也就是说,整合来自不同来源系统的数据需要得到不同数据所有者的认可。因此,数据不被视为公司拥有的企业资产,而是业务职能的资产,例如财务部门是财务数据的数据所有者。这导致在使用人工智能数据时责任不明确,风险和收益分配不均。这些组织边界极大地阻碍了人工智能对数据的综合利用。没有全面的数据治理组织来建立通用的数据策略、标准和流程。工业企业现有的数据治理结构主要集中在定义各种主数据,如客户主数据的通用数据质量标准,其他类型数据的数据管理工作还没有系统地组织起来。例如,在不同工厂和制造过程的制造数据中,存在各种数据模型和数据质量标准。因此,制造数据缺乏通用的企业范围战略,这显着增加了AI数据工程的工作量和复杂性。3.工业企业的数据生态系统数据生态系统通常是一个社会技术的、自组织的、松散耦合的数据共享系统。数据生态系统的典型元素是数据生产者、数据消费者和数据平台。然而,数据生态系统的研究仍处于早期阶段,主要集中在共享开放的政府数据上。因此,需要建立一个专门为工业企业服务的数据生态系统。3.1数据生产者和数据消费者工业企业中的数据生产者一般分为四类:过程是指整个价值链中的各种工业过程和资源,如工程过程。人包括各种各样的人,包括客户和员工。第三方包括企业组织范围之外的参与者和资源,例如供应商。3.2数据来源数据来源是指数据产生的技术类别和来源。工业企业的数据来源主要有四种:企业数据是指整个产业价值链中企业IT系统产生的所有数据,如PLM、E??RP系统。用户生成的数据是指由人类行为者直接生成的数据,例如社交媒体上的帖子或文档。物联网数据是指物联网设备产生的所有数据,例如制造机器数据或传感器数据。网页数据是指除用户生成数据以外的所有网页数据,如链接公开数据或支付数据等。3.3数据平台数据平台是对各种数据源进行数据处理的技术基础,使数据可供各种数据应用使用。数据生态系统基于三个数据平台:企业数据湖、边缘数据湖和企业数据市场。企业数据湖构成了一个逻辑上集中的、企业范围的数据湖。它将原始数据库方法与数据仓库的概念相结合,将各种原始数据的数据湖式存储和处理与聚合数据的数据仓库式分析相结合。支持批处理和流处理,可以对各种数据进行各种分析。企业数据湖基于数据建模和元数据管理的综合指南,支持跨企业数据和数据管道的重用。边缘数据湖代表分散的原始数据存储,补充企业数据湖。边缘数据库侧重于基于本地数据启用数据应用程序,几乎没有企业范围的重用。它们特别适合分布式工厂中的数据处理,其中一些工厂运行自己的边缘数据库。边缘数据湖的典型AI用例是预测企业单个工厂中特定制造机器生成的时间序列数据。企业数据市场构成了数据生态系统的中心支点。它代表了一个基于元数据的自助服务平台,用于连接数据生产者和数据消费者。目标是匹配企业内的数据供应和需求。然而,对数据集市的研究还处于早期阶段,目前只关注外部企业数据集市的初步概念。与企业数据湖和边缘数据湖不同,企业数据市场不存储实际数据,而是基于数据目录,代表基于元数据的数据库。也就是说,数据由元数据和对实际数据的引用表示。例如,“产品质量数据”可能包括有关该产品的元数据和存储在企业数据湖中的一组传感器数据。数据目录不仅指数据湖中的数据,还指源系统中的数据,如ERP、PLM系统。此外,来自公共API的元数据也融合在数据目录中。因此,市场和数据目录共同提供了企业中所有数据的基于元数据的概览。对于市场提供的服务,数据消费和数据生产均以自助方式处理。数据消费者服务包括数据发现和数据准备。例如,面向数据生产者的服务包括定义数据集元数据的自助式数据管理,以及基于API的数据发布。全市场服务涉及整个数据生命周期:数据获取和编排、发布和跟踪以及数据准备和探索。3.4数据应用数据应用是指利用数据平台提供数据的各种应用,可分为描述性、诊断性、预测性和规范性数据应用。换句话说,数据应用包括从报告到机器学习的整个数据分析范围。数据应用程序为定义的数据消费者实施定义的用例,例如制造中的过程性能预测。3.5数据角色数据角色包括与数据相关的组织角色。这些角色跨越数据生态系统的所有层。工业公司中对人工智能和数据分析至关重要的关键角色包括数据所有者、数据管理员、数据工程师和数据科学家。数据所有者对某些类型的数据负有全部责任,例如,产品的所有数据都分配给业务部门,而不是IT部门,并且从业务角度负责该数据的质量、安全性和合规性。跨企业和边缘数据湖定义统一且透明的数据所有权,并将这些结构与源系统中的数据所有权分离。例如,存储在企业数据库中的特定产品的所有数据都应归各自的业务部门所有,以便这些数据可以跨流程使用。为了降低人工智能数据工程的复杂性和工作量,需要综合数据管理机构为各种数据建立通用的质量标准和参考数据模型。例如,制造数据可以根据IEC62264参考模型进行结构化,以简化企业不同工厂之间的数据集成。一般来说,数据工程师开发数据管道,通过整合和清洗数据,为进一步分析提供基础。基于此,数据科学家专注于特征工程的实际数据分析,并应用各种数据分析技术(例如,不同的机器学习算法)从数据中获得洞察力。4.从狭义领域到企业级的人工智能应用:挑战与未来方向数据生态系统通过解决数据挑战为工业化人工智能铺平道路,数据生态系统面临的开放性问题指明了未来的研究方向。4.1应对数据管理的挑战关于数据管理的挑战,数据生态系统基于一套综合数据平台,即企业数据湖、边缘数据湖和企业数据市场。这些平台定义了用于人工智能和数据分析的企业数据架构。为此,企业数据湖将企业数据仓库合并,避免了两个独立的企业数据平台和相应的数据冗余。它基于一套统一的数据建模原则和参考数据模型来解决数据建模问题。例如,来自ERP系统的企业数据使用数据库进行建模,以实现与来自IoT设备的传感器数据的快速集成。此外,边缘数据库仅提供最低限度的指南,允许灵活地进行用例探索和原型设计,但它们仅限于本地数据,尤其是在单个工厂内。企业数据库平台的数据架构设计本身就具有挑战性,因为它必须服务于各种各样的数据应用程序,从描述性报告到预测性和规范性机器学习应用程序。特别是,定义适当的数据存储和处理技术是一个发展问题。企业数据库倾向于采用多语言方式,为不同的数据应用提供合适的技术。为此,请遵循lambda架构范式,结合关系数据库系统、NoSQL系统和实时事件。在这个多语言平台上为不同类型的数据应用程序识别合适的架构模式是人工智能用例标准化实现的一个有价值的方向。此外,组织企业数据湖中的所有数据需要一个超越数据建模的总体结构。作为企业数据市场的一部分,数据目录解决了元数据管理问题。数据目录的重点是为所有数据湖和源系统获取、存储和提供各种元数据(技术、业务和运营元数据)。通过这种方式,它可以使数据分析和质量评估成为人工智能用例的重要组成部分,例如,评估企业数据库中数据集的来源。数据目录代表了一类相对较新的数据管理工具,主要关注大容量存储系统中的元数据管理。4.2应对数据共享挑战数据共享挑战中的数据供应、数据工程、数据发现和探索都涉及到自助服务和元数据管理,应该由基于数据目录的企业数据市场来解决。数据目录为数据生态系统提供全面的元数据管理,极大地促进了数据工程以及各种最终用户的数据发现和探索。企业数据市场还为各种数据生产者和消费者提供贯穿整个数据生命周期的自助服务。例如,制造工程师通过数据市场中可用的自助服务工作流,为企业数据库中的新机器提供传感器数据。对于需要作为单独软件实现的内部企业数据市场,既没有现成的工具也没有合理的概念。为此有多种实现选项,例如,使用语义技术对元数据和服务进行建模。4.3应对数据治理的挑战面对数据治理的挑战,数据生态定义了一系列与数据相关的关键角色,即数据拥有者、数据管理者、数据工程师和数据科学家。因此,数据所有权和数据管理的两个方面都得到了解决。跨系统组织数据所有权有助于为AI用例提供合规的源数据,并明确定义数据使用的批准和责任。此外,通过建立参考数据模型和数据质量标准,各类数据的管理机构可以显着提高数据质量,减少数据工程工作量。在这种情况下,数据目录通过向数据所有者和数据管理员提供关键指标来支持数据治理。一个主要问题是如何在现有组织结构中履行这些角色。通常,各种数据治理框架和成熟度模型仅提供有关如何处理数据治理的高级指导,例如需要解决哪些主题以及定义哪些角色。缺乏关于如何实施数据治理的具体指导,考虑行业和企业文化等因素,例如,决定何时按业务部门或业务流程组织数据所有权。5.总结数据挑战是工业企业应用人工智能的主要障碍。人工智能目前以孤立的方式执行,导致多语言和异构的企业数据场景。这对系统数据管理、数据共享和数据治理提出了相当大的挑战,并阻碍了人工智能在工业企业中的广泛应用。针对这些问题,所有的数据挑战都将以工业企业的数据生态为指导框架和整体架构来解决。数据生态系统的技术性质使组织能够解决数据管理和数据治理挑战的组织方面:确定数据角色和数据平台。此外,数据生产者和消费者的松散耦合和自组织性质解决了数据共享挑战,例如,企业数据市场提供全面的自助服务和元数据管理。在这一点上,数据生态系统不仅适用于人工智能,还适用于任何类型的数据分析。
