当前位置: 首页 > 科技观察

数据治理如何服务于AL-ML系统

时间:2023-03-21 11:43:07 科技观察

数据治理如何服务于AL/ML系统崔浩评论|孙书娟众所周知,数据治理可以保证数据的可用性、一致性、可信性和安全性。这些是任何组织都在努力的方向。当大数据、人工智能、机器语言相继到来时,组织在数据治理方面的投入也越来越大。人们很快意识到AI/ML系统的功能与传统系统不同。AI/ML的应用目标不是处理单个事务并返回结果和状态。相反,AI/ML系统会过滤PB级别的数据,寻找对应的查询方式或开放算法。数据可以并行处理,即处理数据的线程可以同时馈送到处理器。海量和高并发的数据将被异步处理,这使得IT系统可以提取数据并加快数据处理速度。数据可以来自系统内部或外部的各种来源。收集、管理和存储是为不同的来源量身定制的——尽管这些与组织治理标准不同。面对人工智能本身的问题,你信任他们吗?这是公司及其审计师在寻找有效的AI/ML数据治理工具时面临的问题。一、如何将数据治理应用于AI/ML系统1、保证数据的一致性和准确性系统内外的交易数据如果需要处理,首先要进行标准化处理,这样处理后的数据才能与其他来源的数据通信进行比较和整合。系统中还预置了API,可以保证与其他系统的数据交互。如果没有预先构建的接口API,也可以使用ETL工具将数据从一个系统传输到另一个系统,即进行系统间的数据格式转换。如果要添加照片、视频和声音等非结构化对象,可以使用对象链接工具通过引用将对象相互链接和关联。对象链接器的一个很好的例子是GIS系统,它结合了照片、图表和其他类型的数据,为特定环境提供完整的地理环境。2.确保数据可用性通常,我们将可用数据等同于可访问数据——但不仅如此。如果保留的数据由于过时而失去价值,则应将其清除。IT系统和最终用户必须就何时清除数据达成一致。然后使用数据保留策略对其进行强化。其他场景也需要考虑清除AI/ML数据。例如,当AI的数据模型发生变化,数据不再符合模型时,相应的数据应该被清除。在AI/ML治理审计中,审查员希望看到针对这两种数据清理的书面政策和程序。他们还将检查您的数据擦除做法是否符合行业标准。市场上有许多数据清理工具和实用程序可供参考。3.确保数据的可信度一旦情况发生变化:曾经有效的AI/ML系统可能会失效。通过定期检查AI/ML结果和系统的历史性能,观察周围环境可以发现一些线索。如果AI/ML系统的准确性发生漂移,则必须对其进行修复。亚马逊的招聘模式就是一个很好的例子。亚马逊的人工智能系统得出的结论是,最好雇用男性求职者,因为该系统正在研究过去的招聘做法,而且大多数被雇用的人都是男性。由于历史数据,该模型没有考虑到潜在的、高素质的女性申请人。因此,AI/ML系统偏离了事实,反而在系统中植入了招聘偏见。从监管的角度来看,此类人工智能系统是不合规的。事实证明,亚马逊最终取消了该系统的实施——但其他公司可以通过定期监控系统性能,将预测与过去的数据进行比较,并将其与外部环境进行比较,以发现AI/ML模型的错误,从而避免类似的错误同步并可以调整。数据科学家使用AI/ML工具来测量模型漂移,但业务专业人员检查漂移的最直接方法是将AI/ML系统性能数据与历史性能数据进行交叉比较。如果你突然发现天气预报的准确率下降了30%,就该检查AI/ML系统运行的数据和算法了。原文链接:https://www.techrepublic.com/article/data-governance-ai-systems/译者介绍崔浩,社区编辑,高级架构师,18年软件开发和架构经验,10年分布式架构经验.