Translator|崔浩评论|正如复杂深度神经网络中的多参数和超参数方法只是认知计算的一种表现,它看起来并不那么深奥。还有其他类型的机器学习(一些涉及深度神经网络),其中模型的结果、模型的确定以及影响模型的复杂性都非常透明。所有这一切都取决于组织对其数据源的理解程度。换句话说,您需要了解从模型训练数据到生产数据模型的所有内容。它也是解释、提炼和提炼其结果不可或缺的一部分。这样,组织可以极大地提升模型的商业价值。更重要的是,它进一步提高了这项技术的公平性、问责性和透明度,对整个社会也更加可靠和完善。Databricks营销副总裁JoelMinnick承认:“这就是为什么你需要数据上游和下游的精细可见性才能负责任地进行机器学习。”编目数据沿袭模型的数据训练和数据生成涉及到数据源、数据转换、数据集成等诸多技术。在成熟的数据目录方案中,可以实时抓取数据,因此可以随时监控进度,了解模型的执行进度。“它让我清楚地了解模型中使用数据的背景。另外大家可以看到,这个数据是从哪里来的?我们从中得到了哪些其他数据?它是什么时候来的?这样我就可以更好地理解我应该如何使用数据,”数据科学家Minnick说。“数据沿袭”(记录数据来源、移动、处理)由元数据组成,而数据目录用于存储相关数据集。目录还使用户能够包括标签和其他描述符作为额外的元数据,可以帮助追踪数据来源和建立数据信任。“数据沿袭”,正如Minnick所描述的那样,可以生成连接一系列平台(包括数据科学家平台,数据工程师平台、终端用户平台)数据治理:为数据科学而生数据训练和数据操作的可追溯性的提高将影响机器学习模型的结果,而模型结果与数据治理密切相关数据科学领域。因此,数据治理与用于创建和部署模型的数据科学平台有着千丝万缕的联系。“技能管理表和文件,管理笔记本,以及人同时年龄仪表板。这是管理生产和消费数据的现代方式,”Minnick评论道。对于在笔记本中构建模型的数据科学家和通过仪表板监控输出的数据科学家来说,上述声明就足够了。清晰度和透明度尽管如此,通过用于“数据沿袭”的API简单地连接到数据科学工具平台只是透明地利用机器学习的一个方面。为了达到提高模型输出的目的,还需要通过数据沿袭中确定的内容对输出模型进行标定。例如,如何对具有可追溯性的数据进行建模使数据科学家“能够理解,如果某些数据出现问题,您可以隔离那部分数据,”Minnick指出。从逻辑上讲,这些知识可用于理解特定数据类型存在问题的原因,纠正它们或通过完全删除它们来提高模型的准确性。根据Minnick的说法,越来越多的组织正在意识到将“数据沿袭”应用于模型结果的好处,“部分原因是当今各行各业机器学习和人工智能的兴起。它变得越来越普遍。去年,当我们发布在我们的AutoML产品中,我们使用“玻璃盒”来表示数据来源的透明度。”RegulatoryConsequences等也利用“数据沿袭”提供的自适应认知计算模型的能力来增强其合规能力。金融和医疗保健等行业受到高度监管,要求公司清楚地解释他们如何为客户做出决策。数据可追溯性为构建机器学习模型和理解模型结果创建了路线图——这对于法规遵从性来说非常宝贵。此信息还有助于内部审计,使公司能够了解他们在哪些方面不符合法规,以便纠正问题以防止违规。“正在能够向监管机构显示非常精细的数据沿袭信息,不仅是跨表,而且在整个组织中任何可用的数据都是非常重要的,”Minnick断言。当这一优势与数据源的想法相吻合以提高模型准确性时,这种方法可能会成为最佳实践用于部署该技术。译者介绍崔浩,社区编辑,资深架构师。他拥有18年的软件开发和架构经验,以及10年的分布式架构经验。他曾经是惠普的技术专家。乐于分享,撰写了多篇阅读量超过60万的热门技术文章。《分布式架构原理与实践》作者。原标题:负责机器学习的“玻璃盒”方法,作者:JelaniHarper
