当前位置: 首页 > 科技观察

使用深度学习模型生成合成数据

时间:2023-03-14 00:59:59 科技观察

布加迪评论家|孙淑娟不可否认,21世纪最大的资源是数据——数据常被称为第四代产业;只有采用这种模式来收集数据的公司,使用数据做出明智决策的公司才会蓬勃发展。但收集数据和进行实验并不像听起来那么简单,而且大多数中档公司没有存储可扩展数据的基础设施或资源。在大多数情况下,当您必须在没有可扩展数据的情况下测试机器学习/人工智能模型时,我们必须使用机器学习来生成合成数据。在某些用例中,公司会生成合成数据,因为它希望将数据保密。使用合成数据仓库生成合成数据合成数据仓库(SDV)是一个用于生成合成数据的生态系统,它允许用户通过理解单表、多表、文本和时间序列数据集来轻松创建合成数据。SDV使用概率图形模型和深度学习技术来生成合成数据。在我们的场景中,我们将使用高斯Coupla生成合成数据-高斯Coupla是一种使用协方差矩阵生成多元随机变量的方法。下面是安装和导入高斯链接函数实例的代码:为了使示例适合高斯链接函数,我们将通用数据集导入笔记本(notebook)中,我们从kaggle下载保险理赔数据集。该数据集包含分类、连续和自由文本数据,因此我们可以看到SDV库的有效性/范围。从上图我们可以看出,保险理赔数据的数据类型有object、int64和float64。将数据集拟合到高斯链接函数的一个实例,生成100,000个样本:还不如检查生成的合成变量的数据类型:只观察原始数据和生成的合成数据之间的数据类型;它们完全匹配,这表明SDV的工作效率如何。让我们更进一步,使用table_evaluator库比较真实数据集和合成数据集:为44个变量生成的完整报告非常全面,此处仅显示其中的一部分。从上图我们可以看出SDV在生成分类和归一化连续变量方面有多么强大。让我们只是编程,生成合成数据,用它来训练机器学习模型等等!原文链接:https://omkargawade.medium.com/generating-synthetic-data-using-deep-learning-model-5066aed80e30