我们都知道数据对于机器学习的重要性。了解数据访问模式将帮助数据科学家为其项目确定正确的存储基础设施。数据基础架构使机器学习成为可能。然而,一旦开始,机器学习就面临着需要首先解决的关键数据挑战:大规模稀疏完整性接下来,让我们深入研究每一个挑战,以便您了解如何克服这些机器学习挑战:1.质量许多数据科学家希望利用来自外部来源的数据。但是,通常没有质量控制或原始数据捕获方式的保证。您相信外部数据的准确性吗?这是一个很好的例子。漂浮在海洋中的浮标上的传感器收集有关海洋温度的数据。但是,当传感器无法采集温度时,它会记录为999。另外,在2000年之前,年份数字只记录两位数。但在2000年之后,记录的数量变成了四人。因此,我们需要了解数据的质量以及如何准备数据。在这种情况下,分析浮标数据的科学家可以使用平均值、平均值、最小值、最大值可视化原始数据,捕获这些数据库错误并相应地清理它们。2.稀疏性在这种情况下,稀疏性适用于元数据。通常,元数据字段不完整,有些字段已填写,有些字段留空。如果数据是从单一来源生成的,则可能是由于人类缺乏规范或知识。但是,如果数据来自各种来源而没有元数据的标准定义,则每个数据集可能具有完全不同的字段。因此,合并时填写的字段可能不对应。目前,没有关于捕获哪些元数据的行业标准。但是,元数据与数据本身一样重要。当相同类型的数据填充了不同的元数据字段时,您如何关联和过滤数据?以浮标为例,最初的数据传感器每十分钟采集一次水温,而较新的浮标每三分钟采集一次水温。关联数据的唯一方法是通过捕获时公开的元数据。当科学家进行历史分析时,他们需要元数据来相应地调整他们的模型。3.完整性数据完整性是数据准确性和一致性的保证。数据监管链对于证明数据在通过管道和位置移动时没有受到损害至关重要。当数据的捕获和摄取受到控制时,您可以相对轻松地验证其完整性。但是,在与他人合作时,可能很难验证。生成数据时,外部数据没有安全证书。您也无法确保数据完全按照预期记录,或者数据完全按照最初记录的方式接收。围绕物联网数据和区块链有一些有趣的概念,但是,在这些概念被广泛采用之前,数据完整性取决于安全技术和策略的组合。例如,由于数据在静止或传输过程中可能会受到损害,因此通过网络传输的数据应使用https,并且应在静止时进行加密。另一方面,访问控制应该由策略驱动以避免人为错误。如何开始?数据质量、稀疏性和完整性直接影响最终模型的准确性,是当今机器学习面临的一些最大挑战。拥有清晰的数据定义、政策和探索行业特定数据标准的组织将在短期和长期项目中受益。如果您还没有这样做,您的组织应该首先定义自己的数据收集策略、元数据格式,然后应用标准的安全技术。数据质量和稀疏性齐头并进。接下来,设置元数据策略并确保捕获的定性数据可用于验证数据的有效性。最后,为确保数据完整性,可以在生成数据时应用数字证书,在传输过程中强制执行SSL,并始终保持加密。安全数据协作如果您所在的行业需要与外部组织进行持续的数据交换,那么开源您的数据和元格式是个好主意,因为这些标准比许多专有标准更广泛。更好的是,您可以发起一个行业开放标准委员会,其他人可以参与其中并做出贡献。一个很好的例子是OpenTargets(https://www.opentargets.org/),这是一个“使用人类遗传学和基因组学数据进行系统的药物靶标识别和优先排序的公私合作伙伴关系”。种类。”特别是,研究数据生态系统变得非常复杂,组织内外的合作者需要快速访问数据和简化数据管理的方法。机器学习的挑战很多。第一步是使用正确的数据和基础设施启动项目。
