目前,人工智能技术已经应用到我们日常生活的方方面面,例如人脸识别、语音识别、虚拟数字人等。但是一个普遍的问题是,如果研究人员想要训练一个机器学习模型来执行特定任务(如图像分类),他们往往需要使用大量的训练数据,而这些数据(集)并不总是很大。容易接近。例如,如果研究人员正在为自动驾驶汽车训练计算机视觉模型,则真实数据可能不包括一个人带着狗在高速公路上奔跑的样本,并且模型不知道该怎么做,可能有不良后果。此外,使用现有数据生成数据集可能会花费数百万美元。此外,即使是最好的数据集也常常包含对模型性能产生负面影响的偏差。那么,既然获取和使用一个数据集的成本如此之高,我们能否在保证模型性能的前提下,使用人工合成的数据进行训练呢?麻省理工学院(MIT)的一个研究团队最近的一项研究表明,在合成数据上训练的图像分类机器学习模型的性能与在真实数据上训练的模型一样好,甚至更好。相关研究论文名为“Generativemodelsasadatasourceformultiviewrepresentationlearning”,将作为会议论文发表在ICLR2022。这种不输给真实数据的特殊机器学习模型称为生成模型。与数据集相比,存储或共享所需的内存要少得多,这不仅可以避免一些隐私和使用权方面的担忧。问题,并且没有传统数据集中存在的偏见和种族或性别问题。根据该论文,在训练过程中,生成模型首先获取数百万张包含特定物体(例如汽车或猫)的图像,然后学习汽车或猫的样子,最后生成相似的物体。简单来说,研究人员使用预训练的生成模型,参考模型训练数据集上的图像,输出大量独特、逼真的图像。(来源:Pixabay)研究人员表示,一旦生成模型在真实数据上进行训练,它就可以生成与真实数据几乎无法区分的合成数据。此外,生成模型可以基于训练数据进一步扩展。如果生成模型在汽车图像上进行训练,它可以“想象”汽车在不同情况下的样子,然后输出具有不同颜色、大小和状态的汽车图像。生成模型的众多优点之一是它们可以创建理论上无限数量的样本。基于此,研究人员试图了解样本大小如何影响模型性能。结果表明,在某些情况下,大量独特的样本确实会带来额外的改进。而且,在他们看来,生成模型最酷的地方在于我们可以在在线存储库中找到并使用它们,并且在没有干预模型的情况下获得良好的性能。但是生成模型也有一些缺点。例如,在某些情况下,生成模型可能会泄露源数据、带来隐私风险,并且如果没有经过适当的审计,可能会放大它们所训练的数据集中的偏差。生成式人工智能是未来?有效数据的稀缺性,以及抽样偏差,已经成为机器学习发展的关键瓶颈。近年来,为解决这一问题,GenerativeAI成为人工智能领域的热门话题之一,并被业界给予了足够高的期待。去年底,Gartner发布了2022年重要战略技术趋势,称生成式AI是“最引人注目、最强大的人工智能技术之一”。据Gartner称,到2025年,生成式人工智能预计将占所有生成数据的10%,高于目前的不到1%。图|Gartner2022年重要战略技术趋势(来源:Gartner官网)2020年,生成式AI作为新的技术热点,在Gartner发布的《2020年人工智能技术成熟度曲线》中首次被提出。在最新的“2021年人工智能技术成熟度曲线”报告中,生成式人工智能作为一项准备在2-5年内成熟的技术应运而生。(来源:Gartner人工智能技术成熟度曲线,2021年)生成式AI的突破在于它可以从现有数据(图像、文本等)中学习并生成与原始数据相似的新数据。换句话说,它不仅可以做出判断,还可以创造,可以用于自动编程、药物开发、视觉艺术、社交网络、商业服务等。然而,生成式人工智能也可以被滥用于欺诈、欺诈、政治谣言、假身份等,比如Deepfake,经常会产生各种负面新闻。那么问题来了,如果我们有了足够好的生成模型,还需要真实的数据集吗?
