当前位置: 首页 > 科技观察

这些令人毛骨悚然的“假人”预示着人工智能新时代的到来

时间:2023-03-22 12:45:07 科技观察

这些令人毛骨悚然的“假人”预示着人工智能新时代的到来“他”不是真人。“他”是在Datagen制造的,他是“出生”的。该公司生产了数千个“假人”。这些“人”不是游戏或电影中的虚拟角色,而是为满足深度学习算法日益增长的需求而产生的合成数据。  有兴趣使用人工智能的公司经常面临一个巨大的挑战——需要足够的正确数据来训练他们的系统。这些公司需要大量带标签的历史示例来训练AI系统,尤其是那些使用图像和视频的系统。这种需求催生了一个致力于帮助其他企业注释数据的子行业。但是还有另一种方法可以生成足够的数据来训练人工智能系统:“制造”它。  现实世界的数据收集不仅耗时而且昂贵,像Datagen这样的公司提供了一种引人注目的替代方案——他们为您制作合成数据:以您想要的方式,以您想要的方式——而且相对便宜。  要创建合成数据,首先要扫描真人。Datagen与供应商合作,收费招募志愿者,让志愿者进入巨大的全身扫描仪,捕捉从虹膜、皮肤纹理到手指弯曲的每一个细节。原始数据通过一系列算法处理,开发出人体、面部、眼睛和手部的3D模型。  这家总部位于以色列的初创公司表示,它已与四家(未公开的)美国科技巨头合作。其最接近的竞争对手SynthesisAI也提供按需数字人类。此外,还有其他公司生成用于金融、保险和医疗保健的数据。有多少种数据需求,就有多少种合成数据公司。  合成数据,曾经被认为不如真实数据,现在被一些人认为是“灵丹妙药”。真实数据是混乱且有偏见的,新的数据隐私法规使数据收集变得更糟。相比之下,合成数据是原始数据,可用于构建更多样化的数据集。您可以制作完美标记的人脸,例如不同年龄、形状和种族的人脸,以构建适用于不同人群的人脸检测系统。  但合成数据有其局限性。如果它不能反映现实,它最终会产生比混乱、有偏见的真实数据更糟糕的人工智能——或者继承同样的问题。“我不想相信这个模型并说,‘哦,这解决了很多问题,’”算法审计公司ORCAA的数据科学家兼创始人凯西奥尼尔说。“因为它也忽略了很多东西。”  Reality,NotReality  深度学习一直都是关于数据的。过去几年,人工智能领域逐渐形成了一个共识:好数据比大数据更重要。与大量无组织的数据或更高级的算法相比,即使是少量正确、标记良好的数据也能在提高人工智能系统性能方面发挥更大作用。  Datagen首席执行官兼联合创始人OfirChakon表示,合成数据改变了公司开发AI模型的方式。起初,他们从获取尽可能多的数据开始,然后调整算法以获得更好的性能;现在他们也许应该尝试另一种方法:使用相同的算法,同时改进数据的构成。但是收集真实数据以执行此类迭代实验成本高昂且耗时。这就是Datagen的用武之地。有了合成数据生成器,团队每天可以创建和测试数十个新数据集,以确定哪个数据集可以最大限度地提高模型的性能。  为了确保数据的真实性,Datagen向其供应商提供了详细说明,说明每个年龄段、BMI范围和种族需要扫描的人数,以及他们执行的动作顺序,例如四处走动一个房间或喝苏打水。供应商发回这些动作的高保真静止图像和动作捕捉数据。然后Datagen的算法将这些数据扩展成数千种组合。有时会仔细检查合成数据,例如,将合成面孔与真实面孔进行比较,看它们是否与现实相符。  Datagen目前正在通过生成面部表情来监控智能汽车中的驾驶员警觉性,通过生成身体动作来跟踪无人商店中的顾客,以及通过生成虹膜和手势能力来改进VR耳机中的眼手跟踪。该公司表示,其数据已用于开发为数千万用户提供服务的计算机视觉系统。  被大量生产的不仅仅是合成“人”。Click-Ins是一家使用合成人工智能执行自动车辆检查的初创公司。它使用设计软件,重新制作了所有的汽车标志和模型,它的人工智能需要识别在不同光照条件或不同背景下以不同颜色呈现的各种形式、损坏和变形。这使得该公司能够在汽车制造商推出新车型时更新其人工智能,并有助于避免在一些国家被视为侵犯隐私。在这些国家,车牌被视为私人信息,因此不能出现在用于训练AI的照片中。  目前,人工智能广泛应用于金融、电信和保险公司。在某些情况下,企业需要合法地与外部供应商共享他们的客户数据库,但匿名化并不能充分保护人们的隐私。另一方面,合成数据可用于生成详细的假数据集,这些数据集与公司的真实数据具有相同的统计属性。它还可用于对公司尚未拥有的数据进行建模,包括更多样化的客户群或欺诈活动场景。  假装的极限:合成数据是否被过度炒作?  谈到隐私问题,宾夕法尼亚大学计算机与信息科学教授AlanRoss说:“虽然数据是‘合成的’,但没有直接对应于真实用户数据,但这并不意味着它不对真实人物的敏感信息进行编码。”例如,一些数据生成技术已被证明可以准确地再现训练数据中的图像或文本,而其他技术则很容易受到攻击,因此它们可以准确地再现数据。  对于像Datagen这样的公司来说,这可能没问题,因为它的合成数据并不意味着隐藏同意接受扫描的个人的身份。但对于提供保护敏感财务或患者信息解决方案的公司来说,这将是个坏消息。  华盛顿大学科学研究所的数据科学家BerniceHermann表示,研究表明,两种合成数据技术——差分隐私和生成对抗网络——的结合产生了最强的隐私保护。但怀疑者担心这种细微差别可能会在合成数据供应商的营销术语中消失,他们并不总是透露他们使用的是什么技术。  与此同时,几乎没有证据表明合成数据能有效减少人工智能系统的偏见。首先,从有偏见的现有数据集中推断出新数据并不一定会产生更具代表性的数据。例如,Datagen的原始数据中包含的少数民族比例较少,这意味着它使用较少的真实数据点从这些群体中生成虚拟数据。虽然生成过程并不完全是猜测,但这些假人仍然更有可能与现实脱节。  另一方面,东北大学计算机科学副教授CrystalWilson说,即使是完美平衡的数据集也不会自动转化为完美公平的AI系统。如果信用卡贷方试图开发一种人工智能算法来对潜在贷方进行评分,那么仅仅在其数据中代表白人和黑人并不能消除所有可能的歧视。由于白人和黑人申请人之间的差异,歧视仍然可以悄无声息地蔓延。  更复杂的是,早期研究表明,在某些情况下,甚至可能无法通过合成数据实现隐私和公平的AI。在最近的一篇论文中,多伦多大学和维克多研究所的研究人员发现,当他们试图通过结合差异隐私和生成对抗网络来制作多样化的合成数据集时,他们无法创建一个准确的医疗人工智能系统。  当然这些事实的存在并不意味着合成数据不应该被使用。事实上,它很可能成为必需品。奥尼尔表示,这可能是让他们在面临AI系统是否符合法律要求的问题时,能够灵活地生成按需、有针对性的测试数据的唯一方法。但这使得对其局限性的质疑变得更加重要。“随着时间的推移,合成数据可能会变得更好,但这并非偶然。”  这些令人毛骨悚然的假人预示着人工智能的新时代|麻省理工科技评论作者:KarenHao  https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_220.com】