数据科学家指出,数据准备对于任何人工智能系统的成功都是至关重要的。即使是最好、最复杂的分析技术也会采用低质量、集成不良、设计草率或大部分不相关的数据,最终结果也不可靠。分析和讨论人工智能和机器学习的用途的文章很多,但是基于人工智能系统-高质量数据的文章却很少。这里有五个规则可以帮助确保您的AI系统不会因数据质量问题而受阻。规则1.少即是多有些企业很难知道哪些数据对他们的业务很重要,因此使用尽可能多的数据构建AI系统,人们会发现其中隐藏的重要见解。但是,如果企业的人工智能系统使用了大量不相关或不良的数据,最终将失败。一篇名为《机器学习系统中隐藏的技术债务》的文章指出,未充分利用的数据,即提供很少或没有增量好处的数据,会给人工智能系统带来不利影响,有时会带来灾难性后果。删除不相关的数据使AI系统更易于测试、运行、扩展和维护。企业遇到的问题是——哪些数据子集是包含所有或几乎所有信号的缩减数据集?这可能不容易确定。有一些数据科学技术可以确定特定数据特征的重要性,但它们不一定能说明全部情况。虽然某些数据可能非常重要,但它仅限于某些情况。或者某些数据可能仅在与其他数据结合时才重要。弄清楚要使用哪些数据以及要删除哪些数据是一个棘手但关键的步骤,在急于实施AI的过程中经常被忽视。规则2.仔细寻找数据源在设计AI解决方案原型或创建实验时,数据通常来自不同的来源。数据集成和准备可能是临时的,只要人工智能系统准备就绪,公司就可以利用适合其目的的所有自动化和控制来实现特定的流程工业优势。在某些情况下,AI开发人员从更简单、更方便的来源获取数据,这些来源不一定是最好的来源。例如,在一个案例中,模型是根据未经协调和处理的数据开发的,结果证明与公布的财务数据完全不一致。对于概念验证,此类错误可能是可以接受的。但在实施之前,其数据应来自支持良好、控制力强、可靠性和可用性强的平台。通常,必须将来自不同来源的数据汇集在一起??,然后进行整合和组合,以便使用人工智能。考虑这些组合来自不同系统的客户数据、产品数据和交易数据。将这些数据放在一起进行建模是重要的一步。这可能是一种快速的实验方法,但在实施之前需要对流程进行适当的设计和测试。然而,在设计出良好的人工智能系统之前允许实验性人工智能系统的诱惑是强烈的,必须抵制。当然,仅定期使用(例如,用于月度报告)的人工智能可能需要较少的数据才能在业务运营中持续使用。人工智能的高风险用途(例如损失预测、信用审批、欺诈检测)比低风险用途(例如营销活动、客户细分、潜在客户优先排序)有更严格的要求。规则3.确定数据的质量在商业环境中,完美的数据是罕见的。因此,数据难免有漏洞需要修补,数据有错误需要清洗,或者不一致需要在使用前解决。实现100%的数据准确性可能代价高昂,有时甚至是不可能的。但在某些情况下,要求完全准确,比如用人工智能来预测贷款损失,所以记录贷款损失的历史数据最好是100%完整。但是对于一个欺诈检测模型来说,如果多出来的2%的数据阻碍了模型的执行,那么达到98%的准确率就足够了,这会为企业节省大量的欺诈损失。出于营销目的,85%的准确率就足够了。企业需要决定数据质量有多好。但请记住,这是一把双刃剑。基于低质量数据构建的AI系统最终使用不可靠,但也有人担心模型风险管理会阻碍AI模型的实施,因为数据质量问题会影响AI的价值。每个用例都是不同的,在确定数据良好的过程中必须有一些步骤来明确说明数据质量水平。并且需要实施控制(例如数据质量指标)以证明已达到阈值或在低于某些最低质量标准时发出警告。规则4.管理由于数据变更管理不善而不是其他原因导致更多失败的变更模型。数据的一些意外变化,或数据某处的中断,将导致AI产生不可靠的结果,有时甚至非常糟糕。大多数组织都有适当的数据变更管理流程。此过程旨在传达和分析数据更改的影响。但人工智能系统的应用让这变得更加困难。人工智能和数据管理交织在一起;数据可以影响人工智能,人工智能也可以影响数据。很多时候,数据变更管理是企业首席数据官的职责,人工智能变更管理是首席分析官的职责,或者模型风险管理是首席风险官的职责,而这些部门没有充分或有效地沟通.数据变更管理和模型变更管理必须紧密联系在一起。必须分析数据变化对AI的潜在影响,必须分析AI变化对其数据输出的消费者的潜在影响。这些都不能孤立地管理。还有两种方法可以解决这个问题:一种选择是将数据变更管理和模型变更管理合并在一起,但这对大多数企业来说很难做到。第二种选择是制定正确的政策和程序,例如在实施前分析数据变化对人工智能的潜在影响。为此,必须有一个完整的AI注册表,其中包括AI使用的数据信息(模型元数据)。否则几乎不可能确定哪个人工智能受到数据变化的影响。同样,模型风险应该是一个因素,与仅影响低风险模型的数据更改相比,将对高风险模型的潜在影响进行更严格的分析。规则5.建立警报系统数据质量问题可能并不明显,数据流可能看起来运行正常。如果没有精心设计的警报系统,数据问题可能会被忽视。例如,一家银行的信贷模型运行了数周,但在人们意识到出现问题之前,关键数据就丢失了。即使是很小但意外的数据更改也可能导致模型性能下降。更糟糕的是,由于进程故障导致的突然数据丢失很常见。被忽视的数据问题比迅速发现的问题造成的损害更大。例如,证券错误定价可以通过多个系统传播,持续时间越长,修复起来就越困难,成本也越高。有了正确的警报系统,就可以识别数据问题并采取行动,从而降低因数据处理中断而导致AI系统出现故障的风险。这需要使用正确的工具。现有的应用程序监控系统往往不足以监控数据流。它们甚至可能提供一切都很好的错误安全感,而实际上组织数据中存在重大漏洞或高度异常。企业可以从简单的数据质量指标入手,例如完整性检查(是否所有数据都得到了?)和一致性检查(是否与总账或记录系统(如基础贷款或存款系统)相匹配?)。当出现问题时,企业需要制定故障转移计划,例如在研究和纠正错误时让AI暂时离线。结语数据是良好人工智能系统的重要基础。数据科学家通常不会单独承担上述所有任务。他们需要数据治理、数据工程和IT团队的正确支持。实施正确的控制措施可以帮助公司避免因不可预见或未检测到的数据问题而导致AI系统出现严重错误。
