今天,人工智能技术面临着几个难以克服的核心挑战。不仅需要大量的数据才能提供准确的结果,还需要谨慎选择数据内容以避免引入偏差,并严格遵守日益严格的数据隐私法规。在过去几年中,围绕这些挑战出现了一系列解决方案——包括帮助识别和减少偏见/偏见的工具、用户数据匿名化方案,以及确保仅在用户同意的情况下收集数据的治理框架等。然而,每个解决方案有其自身的问题和不足。今天,我们迎来了合成数据这个新兴产业,有望彻底打破上述困境。合成数据是由计算机人工生成的数据,可以替代从现实世界中收集的真实数据。合成数据集必须具有与真实数据集相同的数学和统计属性,但不得明确指代真实个体。你可以把它理解为真实数据的数字镜像,它可以在统计层面反映实际情况。这将使我们能够在完全虚拟的环境中训练AI系统,并更轻松地为医疗保健、零售、金融、交通甚至农业等各种用例定制数据。由此产生的革命浪潮正在酝酿之中。StartUsInsights于去年6月发布的研究发现,已有50多家供应商开发了合成数据解决方案。但在我们了解领先者的具体情况之前,让我们先看看合成数据可以解决的具体问题。真实数据的大麻烦在过去的几年里,人们越来越关注数据集中的固有偏见/偏见如何无意中延续人工智能算法中的系统歧视。据Gartner称,到2022年,数据、算法或AI项目管理团队引入的偏见/偏差将占所有错误交付结果的85%。人工智能算法的激增也引发了人们对数据隐私的日益担忧。为此,欧盟通过了GDPR,加州制定了州隐私法,弗吉尼亚州最近开始制定更严格的消费者数据隐私和保护条款。相关法律已经出台,赋予消费者对其个人数据更大的控制权。例如,弗吉尼亚州的新法律授予消费者访问、更正、删除和获取其个人数据副本的权利。它还允许消费者随时反对公司出售他们的个人数据,或出于定向广告等目的分发他们的个人数据/个人数据。算法访问数据的行为。通过限制信息访问渠道,个人信息确实得到了有效保护,但同时也会牺牲算法的预测效果。为了获得高精度的AI算法,模型需要尽可能多的数据供应;如果没有足够的数据,人工智能在实际应用中的优势(如辅助医学诊断和药物研究)的表现也可能受到影响。隐私问题的另一个解决方案是消费者信息的匿名化。例如,我们可以通过屏蔽或消除身份特征(如删除电子商务交易记录中的姓名和信用卡号,或清除病历中的身份内容等)来实现个人数据的匿名化。然而,越来越多的证据表明,即使对某个数据源进行了匿名化处理,对方仍然可以利用其他被无意泄露的消费者数据集,实现内容关联和还原。事实上,通过结合来自多个来源的数据,即使有一定程度的匿名化,恶意方仍然能够编纂出令人惊讶的清晰身份图。在某些特定情况下,对方甚至可以在不进行恶意攻击的情况下,直接关联公开源数据完成身份定位。合成数据解决方案合成数据有望实现AI的优势,同时消除负面影响。合成数据除了排除真实的个人数据外,还强调纠正现实场景中产生的各种偏差/偏差,从而达到超越真实数据的物质质量。除了严重依赖个人数据的用例之外,合成数据还可以用于多种其他方式。一类是复杂的计算机视觉建模,往往涉及多种因素的实时交互。我们可以使用高级游戏引擎合成的视频数据集来创建超逼真的图像,描绘自动驾驶场景中可能发生的各种事件,从而产生在现实生活中几乎不可能捕捉到的图像,或者可能极其危险的图像或视频。这些合成数据集的出现极大地增强和提高了自动驾驶系统的训练效率和效果。图:使用合成图像训练自动驾驶车辆算法具有讽刺意味的是,用于构建合成数据的主要工具之一恰好与用于创建deepfake视频的工具相同。两者都使用生成对抗网络或GAN。GAN的本质是创建两组神经网络,一组生成合成数据,另一组尝试检测合成数据是否真实。在整个运行周期中,生成器网络会不断提高数据的质量,直到分类器无法发现真实数据和合成数据之间的差异。新兴生态系统ForresterResearch最近确定了多项关键技术,其中合成数据是实现“AI2.0”的必要要素之一,从根本上拓展了AI的应用可能性。通过更完备的数据匿名化能力和强大的固有偏差/偏差校正能力,再加上以前难以批量获取的数据的创建,合成数据有望成为众多大数据应用的效率之选。合成数据还提供了许多其他优势:您可以快速创建数据集并将这些标记数据重新用于监督学习。此外,合成数据不像真实数据那样需要清洗和维护,所以至少在理论上,这种技术可以节省大量的时间和成本。目前,市场上有几家信誉良好的合成数据供应商。IBM表示正在努力推动数据制造业务,希望通过创建合成测试数据来消除机密信息泄露的风险,解决GDPR等监管问题。AWS开发了内部合成数据工具,通过生成的数据集不断地用新语言训练Alexa。微软还与哈佛大学合作开发一种工具,该工具包括合成数据功能,以加强研究部门之间的协作。尽管形势大好,但合成数据仍处于起步阶段,市场走向将在很大程度上取决于新玩家的发展。下面,我们根据G2和StartUsInsights等行业研究机构的信息,编制了一份简单的合成数据行业早期领导者名单。1.AiFi——使用合成数据模拟零售店和购物者行为特征。2.AI.Reverie—生成合成数据以训练用于活动识别、对象检测和分割的计算机视觉算法。应用范围包括智慧城市、稀有材料展板识别、农业、智慧零售等场景。3.Anyverse——使用来自汽车行业的原始传感器数据、图像处理功能和定制激光雷达来创建合成数据集以实现场景模拟。4.Cvedia—创建合成图像并简化标记的、真实的和视觉数据的收集。该仿真平台通过使用多个传感器合成真实环境来创建丰富的经验数据集。5.DataGen——室内环境用例,支持智能门店、家庭机器人、增强现实等场景。6.Diveplane——为医疗保健行业创建具有与原始数据相同统计属性的合成“孪生”数据集。7.Gretel—为开发人员提供相当于GitHub数据的合成数据集,包含与原始数据源相同的见解。8.Hazy——生成数据集,增强欺诈和洗钱检测能力,打击各种金融犯罪。9.MostlyAI——专注于保险和金融领域,也是最早创建合成结构化数据的厂商之一。10.OneView——开发虚拟合成数据集,通过机器学习算法分析地球观测图像。
