当前位置: 首页 > 科技观察

合成数据:机器学习的未来_0

时间:2023-03-18 21:58:42 科技观察

Translator|布加迪评论|孙淑娟数据是机器学习模型的命脉。但是,当对这一宝贵资源的访问受到限制时会发生什么?正如许多项目和公司开始表明的那样,这是一个合成数据即使不是一个很好的选择也是可行的时代。什么是合成数据?合成数据是人工生成的信息,不是通过直接测量获得的。“假”数据本身并不是一个新的或革命性的概念。它实际上是一种为缺乏正常运行所需的可用或必要信息的模型生成测试或训练数据的方法。过去,缺乏数据导致使用随机生成的一组数据点的便捷方法。虽然这可能足以用于教学和测试目的,但随机数据并不是您想要训练任何类型的预测模型的对象。这就是与合成数据概念的区别,它是可靠的。合成数据本质上是一个独特的概念,我们可以巧妙地生成随机数据。因此,这种方法可以应用于更复杂的用例,而不仅仅是测试。如何生成合成数据?虽然合成数据的生成与随机数据没有什么不同——只是通过一组更复杂的输入——合成数据确实有不同的用途,因此具有独特的要求。合成方法基于并限于某些预先作为输入输入的标准。实际上,这不是随机的。它基于一组具有特定分布和标准的样本数据,这些标准确定了数据点的可能范围、分布和频率。粗略地说,目标是复制真实数据以填充更大的数据集,该数据集将足够大以训练机器学习模型。在探索用于提炼合成数据的深度学习方法时,这种方法变得特别有趣。算法可以相互竞争,目的是在生成和识别合成数据的能力方面超越彼此。实际上,这里的目的是进行一场人工军备竞赛以生成超现实数据。为什么需要合成数据?如果我们不能收集推进我们的文明所需的宝贵资源,我们将找到创造它们的方法。这一原则现在同样适用于机器学习和人工智能的数据领域。在训练算法时,拥有非常大的数据样本量是至关重要的,否则算法识别的模式对于实际使用来说可能太简单了。这实际上是很合乎逻辑的。正如人类智能倾向于采用最简单的路径来解决问题一样,在训练机器学习和人工智能时也经常发生同样的情况。例如,让我们将其应用于对象识别算法,该算法可以从一组猫的图像中准确识别出狗。由于数据太少,AI可能会依赖模式,而这些模式并不是它试图识别的对象的基本特征。在这种情况下,人工智能可能仍然有效,但当它遇到不符合它最初识别的模式的数据时就会失败。合成数据如何用于训练人工智能?那么,解决方案是什么?我们画了许多略有不同的动物,迫使网络找到图像的底层结构,而不仅仅是某些像素所在的位置。但是,与其手工绘制一百万只狗,不如构建一个系统,专门用于绘制狗,该系统可用于训练分类算法——这实际上是我们在输入合成数据以训练机器学习时所做的。但是,这种方法有明显的缺陷。仅仅凭空生成数据并不能代表现实世界,因此算法在面对真实数据时很可能无法执行。解决方案是收集数据的一个子集,分析和识别其中的趋势和范围,然后使用该数据生成大量随机数据,这些数据可能代表如果我们收集所有数据时数据的样子我们自己。这就是合成数据的价值所在。我们不再需要无休止地收集数据,然后在使用之前需要清理和处理它。为什么合成数据可以解决日益增长的数据隐私问题世界目前正在经历一个非常剧烈的转变,尤其是在欧盟:隐私和生成的数据越来越受到保护。在机器学习和人工智能领域,加强数据保护是一个长期存在的问题。受限数据通常正是训练算法执行和向最终用户交付价值所需要的,尤其是对于B2C解决方案。当个人决定使用解决方案并因此批准使用他们的数据时,隐私问题通常会得到解决。这里的问题是很难让用户向你提供他们的个人数据,除非你有一个解决方案能够提供足够的价值以愿意将其移交。因此,供应商经常陷入先有鸡还是先有蛋的困境。合成数据是解决方案,公司可以通过早期采用者获得数据子集。然后他们可以使用这些信息作为基础来生成足够的数据来训练机器学习和人工智能。这种方法可以大大减少对私有数据的耗时和成本需求,并且仍然可以为真实用户开发算法。对于某些行业,例如医疗保健、银行和法律,合成数据提供了一种更轻松地访问以前无法访问的大量数据的方法,从而消除了新的和更高级的算法经常面临的限制。合成数据能否替代真实数据?真实数据的问题在于它不是为了训练机器学习和人工智能算法而生成的,它只是我们周围发生的事件的副产品。如前所述,这显然限制了收集数据的可用性和便利性,也限制了数据的参数和可能破坏结果的缺陷(异常值)的可能性。这就是为什么可以定制和控制的合成数据在训练模型时效率更高的原因。然而,虽然非常适合训练场景,但合成数据将不可避免地总是至少依赖一小部分真实数据来创建自己的数据。所以合成数据永远不会取代它所依赖的原始数据。更现实地说,它将大大减少算法训练所需的真实世界数据量,算法训练需要比测试更多的数据——通常80%的数据用于训练,另外20%用于测试。最后,如果做得好,合成数据提供了一种更快、更有效的方式来以比从现实世界获取数据更低的成本获取我们需要的数据,同时减少了令人讨厌的数据隐私问题。原标题:合成数据:机器学习的未来,作者:ChristianLawaetzHalvorsen