当前位置: 首页 > 科技观察

改进机器学习:知识图如何为数据带来更深层次的意义?

时间:2023-03-17 19:33:18 科技观察

合辑|布加迪编辑|最后的洞察结果是,第二个是数据缺乏统一性和上下文。过度的数据重复和由此产生的“二阶效应”正在为大多数组织中的数据科学家造成巨大的低效率和浪费。据IDC统计,去年产生了超过60ZB的数据,预计到2025年复合年增长率将达到23%。更糟糕的是,唯一数据与重复数据的比例为1:10,这意味着大多数组织的数据管理方法都是基于复制数据。当公司创建机器学习模型时,他们通常通过从不同来源复制相关数据来划分数据。模型通常取20%的数据用于训练,其余80%的数据留作测试。数据清理、特征工程和模型评估可能需要六个月或更长时间,使数据在这个过程中过时,延迟洞察力并影响数据结果。传统、过时的数据管理方法的第二个影响是洞察质量下降。这种影响不仅归因于使用陈旧数据构建模型,还归因于关系意识不足、垂直数据孤岛断开、上下文信息不足以及关系数据管理技术的模式限制。使用现代数据结构正确实施知识图可以纠正这些数据管理问题,同时增加机器学习的价值。在知识图驱动的数据结构中部署数据虚拟化使数据科学家能够在不浪费时间和资源的情况下将机器学习引入数据。此外,图形模型固有的灵活性及其利用相互关系的能力使组织可以非常轻松地为机器学习准备数据,因为它们提供了改进的特征工程、根本原因分析和图形分析等功能。随着数据管理和人工智能的融合,这种能力还有助于知识图谱成为未来20年的主要数据管理结构。简而言之,知识图谱对AI的帮助就像AI对知识图谱的帮助一样。数据科学家需要战略性数据管理越来越多的数据组织正在处理长期的机器学习部署。数据孤岛或数据湖中的不同数据格式、模式和术语可能会延迟需要训练数据的机器学习计划。缺乏上下文和语义注释使组织难以理解数据的含义和特定模型的目的。即使数据具有足够的上下文,信息也很少会持续存在,因此组织必须重新启动后续项目。快速移动的数据(例如物联网设备收集的信息)使得复制这些不同数据所需的数月培训变得更加困难。组织被迫通过再次复制新数据来应对这一障碍,重新启动这一损害模型功能的耗时过程。推荐的方法是在数据结构层训练模型,而不是将数据复制到孤岛中。组织无需移动数据即可轻松创建训练和测试数据集。例如,一个组织甚至可以指定一个随机的20%数据样本来使用查询来提取特征,并通过这种基于知识图谱的数据虚拟化方法提供训练数据集。这种方法阐明了数据管理和机器学习之间的联系以加速洞察力,并具有使用更多新颖数据训练模型的额外好处。获得高质量的机器学习洞察知识图为理解企业数据提供了比关系或其他方法更丰富、更坚实的基础。它们提供节点边缘之间的上下文理解和关系检测,这就是图形存储数据的方式。语义图数据模型显着增强了此功能,该模型将公司特定的术语规范化为一组分层的词汇表或分类法。因此,数据科学家天生就了解数据的含义以及它与机器学习等任何用例的关系。语义图数据模型还在模式级别对齐数据,提供关于概念或业务类别的智能推理,并避免传统的术语或同义词问题,同时提供企业数据的完整视图。这些特性对此至关重要:减少为机器学习准备数据所需的时间,同时从可用数据中生成高度细微的、上下文相关的见解。这种方法的另一个好处是图形算法与机器学习密切相关。它们允许数据科学家充分利用与聚类、降维、主成分分析(PCA)和无监督学习相关的特定技术,这些技术非常适合为机器学习准备图形格式的训练数据。这些技术和其他技术(如图所示嵌入)可以加快特征生成过程,或为数据准备提供影响分析。合并数据管理和知识管理机器学习知识图的整体效用证明了数据管理和知识管理的互补性。引用著名的谷歌研究教授PeterNorvig的话,只要有足够的数据,就不需要花哨的算法。也就是说,在知识图谱和数据虚拟化支持的统一数据结构中融合数据管理和知识管理可提供更丰富、更高质量的数据,使组织能够在没有完美算法的情况下优化机器学习。例如,如果组织拥有足够的客户购买习惯数据,则不需要花哨的算法来预测哪些客户会对新产品感兴趣。数据管理和知识管理的融合为组织提供了增强的智能算法和模型,进而为决策提供了强大的信息基础,从而最大限度地发挥人工智能的优势。原标题:改进机器学习:知识图谱如何为数据带来更深层次的意义,作者:KendallClark