当前位置: 首页 > 科技观察

合成数据能让人工智能变得更好吗?

时间:2023-03-20 10:59:07 科技观察

尽管人工智能(AI)由于呈指数级发展而变得更加先进,但这种现代技术的局限性仍然存在。那么,合成数据能否解决所有与AI相关的问题?在第四次工业革命中,每个行业都发现了现代技术的潜力;例如人工智能(AI)和机器学习(ML)。几乎所有其他组织都在部署AI以创建更高效??的业务流程并确保更好的客户满意度。然而,初创公司、SOHO和中小企业(SMB)在采用AI时面临一个主要问题,即所谓的冷启动问题。虽然初创企业和中小企业通常没有收集大数据的资源,但冷启动问题本质上是缺乏此类相关数据。另一方面,行业巨头已经拥有资源来收集真实世界的数据并将这些数据用于训练他们的人工智能系统。因此,中小企业的机会很大。在这种情况下,合成数据可能是必要的推动因素。合成数据可以成为数据驱动业务模型背后的驱动力。此外,研究表明,合成数据产生的结果与真实数据相同。合成数据被认为比真实数据更便宜,处理时间也更少。因此,合成数据的出现可以平衡目前由大公司主导的竞争环境,有利于中小企业和初创企业。发现合成数据的好处合成数据是计算机根据用户指定的参数生成的人工数据,以确保数据尽可能接近真实世界的历史数据。通常,UnrealEngine和Unity等游戏引擎通常用作测试和训练基于AI的应用程序(例如自动驾驶汽车)的模拟环境。基于合成数据开发人工智能驱动的应用程序有很多优势。其中一些优势包括:1.开发原型查找、聚合和建模大量相关的真实世界数据是一个乏味的过程。因此,生成合成数据可能是最好的解决方案。此类数据将使原型的构建和此类原型的测试能够在大规模生产之前实现所需的结果。使用合成数据构建原型比真实数据更有效且更具成本效益。OpenAI是一家非营利性人工智能研究公司,正在开发大量基于人工智能的应用程序。在这些应用中,研究人员开发了经过合成数据训练的机器人,它们可以在看到仅执行一次的动作后学习新任务。加州一家科技创业公司正在开发一个人工智能平台,其愿景类似于AmazonGo。该初创公司旨在为便利店和零售商提供使用合成数据的免结账解决方案。他们还引入了人工智能驱动的智能系统来监控店内的每一位购物者,以识别和分析他们的学习模式。2.确保数据隐私2018年11月,5亿万豪客户受到备受瞩目的数据泄露事件的影响。在这5亿人中,3.27亿用户的护照详细信息、电子邮件地址、邮寄地址和信用卡信息等数据被盗。由于此类事件,人们担心其数据的安全和隐私。合成数据可以有效解决此类隐私问题。综合数据不包括任何个人数据。因此,可以轻松确保数据隐私。合成数据在训练用于医疗保健应用的AI系统时非常有用。人工智能系统通常需要真实的患者数据。这会威胁到患者的隐私。合成数据允许在医疗保健中开发高级人工智能应用程序,同时保持患者的机密性。例如,来自Nvidia的研究人员与明尼苏达州的梅奥诊所以及波士顿的MGH和BWH临床数据科学中心合作,正在使用生成对抗网络生成用于训练神经网络的合成数据。生成的合成数据包括来自阿尔茨海默氏病神经影像学倡议数据集的3,400个MRI和来自多模态脑肿瘤图像分割基准数据集的200个4D大脑MRI和肿瘤。同样,模拟X射线可以与实际X射线一起使用,以训练人工智能系统识别各种健康状况。3.前所未有的测试和训练开发AI驱动的应用程序最重要的过程之一是测试系统性能。如果系统没有产生所需的输出,则需要对其进行重新训练。在这种情况下,合成数据可以证明是有益的。合成数据可以生成场景来测试AI系统,而不是在真实环境中使用真实数据或测试系统。这种方法比获取真实数据更便宜、更省时。同样,合成数据还可以针对未来可能缺乏真实数据或事件的场景训练新的或现有的系统。通过这种方法,研究人员可以开发更具未来感的AI应用程序。此外,使用合成数据重新训练AI系统更简单,因为生成合成数据比收集准确的真实数据更容易。由于这些好处,合成数据已成为测试和训练自动驾驶汽车的一种可访问的替代方法。许多自动驾驶汽车开发商正在使用GTAV等模拟游戏环境来训练他们基于AI的系统。同样,MayMobility正在通过使用合成数据训练他们的车辆来构建自动驾驶微移动服务。另一家名为Waymo的自动驾驶汽车开发商已经通过在模拟道路上行驶50亿英里和在真实道路上行驶800万英里来测试其自动驾驶汽车。合成数据方法允许开发人员在模拟道路上测试他们的自动驾驶汽车,这比在真实道路上直接测试要安全得多。4.增加数据灵活性获取真实数据是一个繁琐的过程,包括支付注释费用和确保避免任何版权侵权。此外,真实数据只能用于特定场景,特定领域的历史数据充足。与真实数据不同,合成数据可以即时呈现物体、场景、事件和人物的任意组合。合成数据可以生成通用数据集,从而能够发现利基应用程序。因此,研究人员可以利用合成数据探索无限的可能性。几家初创公司正在通过开发满足客户要求的培训数据集来创建开放数据经济。5.探索合成数据的局限性虽然合成数据可以帮助人工智能到达未被发现的领域,但它的局限性可能是其主流部署的主要障碍。对于初学者来说,合成数据模仿了真实世界数据的几个属性,但它并没有完全复制原始数据。在对此类合成数据进行建模时,人工智能系统只是在真实数据中寻找共同的趋势和情况。因此,现实世界数据中角落案例中包含的罕见场景可能永远不会包含在合成数据中。此外,研究人员尚未开发出一种机制来检查数据是否准确。发现真实数据中的缺陷并减少它们比使用合成数据更简单。人工智能驱动的系统已经有助长无意偏见的阴暗面。使用合成数据,预测这种偏差的范围和影响可能还为时过早。6.克服挑战组织需要了解合成数据是一个相当新的发现。此类数据的效率和准确性尚未根据当前行业标准进行评估。因此,合成数据不应被视为独立的数据源。特别是在安全问题的应用中,例如医疗保健应用和自动驾驶汽车,合成数据必须与真实世界的数据相结合才能开发人工智能系统。但零售应用程序的风险因素较低,可以轻松依赖合成数据。出于测试目的,合成数据是一种可行且廉价的解决方案。然而,出于其他目的,在将合成数据用作独立解决方案之前,需要对人工智能系统的结果进行彻底研究和分析。随着进一步的研究,合成数据对于各种操作可能变得更加可靠。