当前位置: 首页 > 科技观察

合成数据会推动AI-ML培训的未来吗?

时间:2023-03-14 22:38:19 科技观察

毫无疑问,为训练人工智能或机器学习(AI/ML)收集真实数据既费时又费钱。而且,很多时候它充满了风险,但更常见的问题是数据太少或有偏见可能会使组织误入歧途。但是如果你可以生成新数据,即所谓的合成数据呢?这听起来不太可能,但这正是SynthesisAI计划从468Capital、SorensonVentures、StrawberryCreekVentures、BeePartners、PJC、iRobotVentures、BoomCapital和Kubera等风险投资公司筹集的1700万美元A轮资金中做的事情风险投资。轮融资。这是一个非常确凿的证据。该公司计划利用这笔资金扩大其在混合真实数据和合成数据领域的研发。SynthesisAI首席执行官YasharBehzadi在一份声明中表示:“合成数据正处于采用的转折点,我们的目标是进一步开发该技术并推动计算机视觉系统构建方式的范式变革。该行业很快将致力于在世界范围内全面设计和训练计算机视觉模型,以实现更先进、更合乎道德的人工智能。”但什么是合成数据?合成数据是人工创建的,而不是从现实世界中收集的。目前,许多应用程序专注于视觉数据,例如从计算机视觉系统收集的数据。尽管如此,没有实际理由不能为其他用例创建合成数据,例如测试应用程序或改进检测欺诈的算法。它们有点像物理记录的高度结构化数字双胞胎。通过大规模提供大量真实世界的数据集,数据科学家和分析师理论上可以跳过数据收集过程,直接进行测试或培训。这是因为创建真实世界数据集的大部分成本超出了收集原始数据的范围。以计算机视觉和自动驾驶汽车为例,汽车制造商和研究人员可以将各种摄像头、雷达和激光雷达传感器连接到车辆上进行收集,但原始数据对AI/ML算法没有任何意义。一个同样艰巨的挑战是用上下文信息手动标记数据,以帮助系统做出更好的决策。让我们来看看这个挑战的背景:想象一下你有规律地短时间开车,所有的停车标志、十字路口、停放的汽车、行人等等,然后想象给每一个潜在的危险贴上标签是一项艰巨的任务。合成数据的核心优势在于,从理论上讲,它可以创建足够大的完美标记数据集来正确训练AI/ML应用程序,这意味着数据科学家可以在现实世界数据之前突然在大量新地方测试他们的算法或者在难以进入的情况下。继续以自动驾驶汽车为例,数据科学家可以创建合成数据来训练汽车在恶劣条件下行驶,例如积雪覆盖的道路,而无需将驾驶员派往北方或进入山区手动收集数据。合成数据的核心优势在于,从理论上讲,它可以在正确训练AI/ML应用程序所需的规模上创建完美标记的数据集,这意味着数据科学家可以在真实数据可用之前或数据难以获取时使用数据。获得。案例,突然在许多新地方测试他们的算法。仍然以自动驾驶汽车为例,数据科学家可以创建合成数据来训练汽车在恶劣条件下行驶,例如积雪覆盖的道路,而无需驾驶员一路向北或进入山区手动收集数据。然而,合成数据存在先有鸡还是先有蛋的问题,因为它只能使用……更多数据和更多AI/ML算法来创建。从“种子”数据集开始,然后将其用作合成创作的基线,这意味着它们只会与您开始使用的数据一样好。数据科学家或研究人员无法从看似无穷无尽的数据生成器中受益的(无形)好处是什么?核心优势——避免手动收集真实世界数据的能力——只是合成数据可以加速AI/ML应用程序的一种方式。由于分析师和数据科学家可以严格控制种子数据,甚至可以更加努力地融入多样性,或者与外部顾问合作来发现和解码偏见,因此他们可以让自己达到更高的标准。例如,SynthesisAI正在开发一个系统来监控司机的状态,并在他们的计算机生成的合成数据集中仔细地包含不同的面孔,以确保现实世界的应用程序适用于每个人。隐私是另一个潜在的胜利。如果一家公司花费数百万英里的时间为他们的自动驾驶汽车收集真实世界的数据,那么他们正在收集许多被许多人认为是隐私的数据——尤其是他们的脸。像谷歌和苹果这样的大公司已经找到了避免在他们的地图软件中出现这类问题的方法,但他们的路线对于想要测试他们算法的小型AI/ML团队来说并不可行。“公司也在努力解决与以人为中心的产品中的模型偏见和消费者隐私相关的道德问题。很明显,构建下一代计算机视觉需要一种新的范式,”该公司首席执行官兼创始人YasharBehzadi对媒体说。虽然合成数据确实依赖于种子来启动,但可以对其进行调整和修改,以帮助在现实生活中难以捕获或危险的边缘情况下训练AI/ML应用程序。自动驾驶汽车背后的公司希望善于识别仅部分可见的物体或人,例如隐藏在卡车后面的停车标志,或者站在两辆冲上马路的汽车之间的行人。考虑到这些胜利,虽然有些人担心将偏差编码到合成数据中是先有鸡还是先有蛋的问题,但Gartner预测,到2024年,60%用于开发AI和分析产品的数据将被合成。他们预测,当新数据所依据的历史数据失去相关性或基于过去经验的假设失败时,许多新数据将专注于修复预测模型。但是一些现实世界的数据总是需要收集的,所以我们离被我们通用的、公正的自我的化身完全淘汰还有很长的路要走。