当前位置: 首页 > 科技观察

吴恩达团队盘点2019年AI大趋势:自动驾驶寒冬,Deepfake成法宝

时间:2023-03-17 19:52:29 科技观察

还有几天,我们就要和2019说再见了,今年是大年当AI从梦想变成现实。从NLP到自动驾驶,从人脸识别到数据模拟,取得了哪些技术突破,遇到了哪些新的困难?吴恩达的Deeplearning.ai梳理了今年AI最重要领域的六大标志性事件和趋势。2019年已经过去98%,再过几天,20后就要诞生了!今年注定是充满里程碑的一年。将大众从《西部世界》、《终结者》等好莱坞科幻电影中不切实际、虚幻的场景中拉开,让人们认识到AI其实是世界上有形的力量而不是梦想,并且从而开始认真讨论人工智能对社会的影响。、经济、政治和国际力量平衡的影响。本文回顾了AI领域的发展现状,比如语言模型的突出表现、人脸识别遇到的障碍、自动驾驶实现的延迟、DeepFake进入主流:取得了哪些技术突破,遇到了哪些新的困难?跟随吴恩达的Deeplearning.ai,看看今年人工智能最重要领域的六大标志性事件和趋势。自动驾驶:在寒冷中孕育希望就在几年前,一些车企还承诺最早在2017年推出可上路的自动驾驶汽车。然而,Waymo首席执行官约翰·克拉夫西克(JohnKrafcik)在今年1月表示,自动驾驶驾驶汽车可能永远无法在所有路况下行驶。他的表态也为2019年汽车行业的大裁员定下了基调。自动驾驶在2019年遭遇瓶颈,活跃在自动驾驶领域的几家企业商业扩张明显放缓。通用汽车Cruise和特斯拉将自动驾驶出租车的最后期限推迟到2020年。对于Waymo和Lyft来说,虽然美国凤凰城在2018年允许两家公司运营自动驾驶出租车,但到目前为止,这项服务已经只在少数几个有限的地区进行过,而且他们愿意选择这个选项。很少有人提供这项服务。商业业务进展不顺利。今年11月,Waymo宣布关闭其位于德克萨斯州奥斯汀的自动驾驶汽车研发设施。从技术角度来看,城市道路的实时驾驶环境比道路测试更为复杂,可能出现的极端危险情况也明显增加。但如此多的极端案例实际发生的几率如此之低,造成了工程师可能没有足够的模拟数据来重现它们的问题。目前,一些行车路线相对固定、可预测性高的车辆,比如自动驾驶公交车和卡车,可能比私家车和出租车更容易尝到自动驾驶技术落地的真正甜头。成本方面,传感器(尤其是激光雷达)成本居高不下,供应紧张。汽车企业控制成本,选择尝试自己制造这些设备。同时,势必会减少车辆上的传感器数量。数量的减少意味着训练量和认知数据量的下降。如果传感器性能提升的速度不能弥补这种下降,就会威胁到自动驾驶技术的重中之重——安全。从市场环境来看,2019年是全球车企大裁员的一年。在全球经济低迷、新车需求下降的背景下,日本、美国和欧洲的主要车企相继宣布了重大裁员计划。据不完全统计,全球每3家汽车企业中就有1家在裁员。自动驾驶是一个烧钱的行业。新技术的研发离不开传统车企的技术和资金支持。在当前的环境下,昔日的富爸爸们也显得捉襟见肘。当然,中国正在尝试另一种思路也不乏好消息。与其训练自动驾驶汽车在现有城市环境中行驶,不如对现有城市进行数字化改造,以适应和促进自动驾驶技术的发展。这被称为“智慧城市”建设,包括路边传感器设备的改进,这些设备可以根据变道和限速标志等导航提示提供更丰富的道路信息。总体而言,2019年是自动驾驶行业分工进一步细化的一年。技术瓶颈和资金紧张,使得企业无法保持庞大而全面的业务线,而是专注于自己擅长的专业领域。福特、梅赛德斯等传统车企主打辅助驾驶功能,谷歌背靠的Waymo继续发力全自动驾驶,还有一些小公司努力在有限场景下部署全自动驾驶,这些公司的目标公司随着时间的推移而扩大。Deepfake:如何制服科技孕育的怪物?2018年底以来,诞生了一批能够生成高还原图像的模型,比如BigGAN和StyleGAN。前者可以生成ImageNet中的类别图像,后者可以生成姿势、发型和服装的逼真变化。2019年,基于深度学习技术生成的“Deepfake”假视频开始泛滥。这些视频可以凭空创造出根本不存在的名人或政治人物的演讲内容。这些逼真的视频让人赞叹“科技无所不能”。同时,也引发了更多人对技术滥用和不可控的担忧甚至恐惧。Deepfake的出现,实现了“以假乱真”合成技术从图像到视频的跨越。在Deepfake视频中,英国足球明星大卫·贝克汉姆(DavidBeckham)可以用9种语言传达抗疟信息。这家中国科技公司发布了一款基于相同技术的应用程序ZAO,它可以让用户在视频中与热门电影场景中的演员换脸,让用户感觉自己在演电影。不过,与恶搞娱乐和公益相比,Deepfake更多展现的是技术的“黑牙”。使用Deepfake伪造的演讲视频对马来西亚和加蓬的政治丑闻产生了影响。根据运行deepfake检测软件的DeepfakeLabs的一份报告,如今在线上96%的deepfake视频都是非自愿的头部交换色情,其中人们的脸经常被女明星的脸所取代。这已经超出了恶搞的范畴,触及了违法的边缘。“怪物”??已经从瓶子里放出来了,我们该如何应对呢?科技公司和政府立法者已经开始致力于此。Facebook宣布开启一项总奖金高达1000万美元的竞赛,旨在开发针对Deepfake虚假视频的自动检测技术。中国政府出台了禁止传播虚假视频的规定。加州也通过了类似的法律,众议院正在考虑推动国家层面的立法打击Deepfake假视频。这可能是一场旷日持久的“猫鼠式”高科技竞赛。南加州大学计算机系教授李浩表示,在这场比赛中,做猫的前景可能并不乐观。虽然今天的Deepfake视频仍有明显的特征,但一年后,这些假视频和真实视频可能根本不存在。不同之处。人脸识别受挫,政府介入立法遏制NLP领域的蓬勃发展,但人脸识别在前进的道路上遇到严重阻力。国际反监控情绪火上浇油,阻碍了人脸识别系统的进一步普及。公众担心自己的隐私和肖像遭到滥用。美国和欧洲的人权捍卫者和监督组织深切关注人脸识别可能对公民的人身权利造成潜在伤害,从而促使立法限制这项技术的使用。他们的努力促成了全国禁止公共和私人使用该技术,威胁到面部识别的大规模商业使用,这种技术刚刚兴起并准备大展拳脚。现在,随着美国联邦政府考虑这个问题,美国许多城市已经通过了反面部识别法。欧盟正在努力设定自己的限制。让我们回顾一下今年的一些具有里程碑意义的事件。5月,旧金山成为美国第一个禁止警察和其他政府官员使用面部识别的主要城市;马萨诸塞州波士顿的萨默维尔地区也纷纷效仿。在接下来的几个月内,旧金山的邻居奥克兰和伯克利通过了类似的法律。这些法律由美国公民自由联盟牵头,这是一个促进州立法的联盟。在华盛顿,美国立法者抨击国土安全部要求该机构在机场和边境使用该技术的计划。参议院和众议院的立法者已经提出了至少十二项法案,其中许多得到了两党的支持。这些法案旨在限制面部识别在压制人们、剥夺他们的住房和创造利润方面的影响。欧洲监管机构正在推动根据现有隐私法规将面部图像归类为生物识别数据。欧盟委员会正在考虑立法,以针对私人组织和公共机构“滥用”面部识别的行为。尽管如此,法国还是在10月份准备了一个基于该技术的国家识别项目。中国对面部识别的使用在美国引起强烈反对,美国联邦贸易当局已禁止向几家中国公司出口美国技术。2016年,美国国家电信和信息管理局发布了面部识别指南,要求公司保持透明,实行良好的数据管理,并允许公众对与第三方共享面部数据有一定的控制权。尽管该技术的主要供应商都是NTIA的成员,但尚不清楚他们是否遵守准则。虽然立法限制使用人脸识别的初衷是为了保护公民的隐私,但不同的立场和碎片化的方式可能会带来一些负面影响。今年6月,AmazonWebServices的CEOAndyJassy痛诉道:“我恳求国会赶紧统一立法,否则我们将面临:美国50个州有50条不同的法律法规!”混乱甚至可能使当地执法部门感到困惑。NLP飞跃,语言模型成为语言专家由Word2Vec和GloVe嵌入提供支持的早期语言模型产生了令人困惑的聊天机器人、具有中学阅读理解能力的语法工具和几乎无法阅读的翻译。但是最新一代的语言模型已经变得非常好,以至于有些人甚至认为它们很危险。2019年自然语言处理领域发生了什么?一种新的语言模型生成的新闻文章被读者评为《纽约时报》的可信度;同样的语言模型也贡献给了《纽约客》的一篇文章。好消息是这些模型并没有像人们担心的那样散播虚假信息。2019年,研究人员在让机器理解自然语言方面取得了飞跃。通过对巨大的、未标记的数据集进行预训练,新模型通常可以精通自然语言。然后,他们通过对专业语料库进行微调来掌握给定的任务或主题。ULMFiT(由JeremyHoward和SebastianRuder开发)和ELMo(来自艾伦人工智能研究所和华盛顿大学)等早期模型展示了预训练的潜力,而谷歌的BERT是这种方法的第一个突破。成功。BERT于2018年底发布,在GLUE阅读理解基准测试中得分如此之高,以至于该测试的组织者首次将该模型的性能与人类基线分数进行了比较。6月,微软的MT-DNN模型首次击败人类。2月中旬,OpenAI发布了GPT-2,这是一种预训练的通用语言模型,其创建者甚至认为发布它太危险了,因为它能够生成令人信服的文章。GPT-2使用40GB的Reddit评论进行训练,并没有引发假新闻启示录,但它确实促成了一部小说、一首前卫的抒情诗和《权力的游戏》同人小说。OpenAI终于在11月发布了该模型的完整版本。在此期间,百度、卡内基梅隆大学、谷歌大脑、Facebook等机构的一系列模型相继超越NLP基准。其中许多基于转换器架构并使用BERT风格的双向编码。新闻背后:2018年7月,在BERT诞生前不久,DeepMind研究员SebastianRuder预测了预训练对自然语言处理的影响。此外,他预测NLP的突破将彻底改变整个人工智能。他的论点是基于2012年前后计算机视觉模型预训练的动机。许多业内人士将深度学习的爆发式增长追溯到这一刻。现状:尽管经过了一年的创新,语言模型仍有很大的成长空间:即使是1.5万亿参数的GPT-2也经常会吐出一堆无法理解的文本。即将到来的美国大选季将考验最新模型利用大量虚假信息破坏民主的能力。从《星际争霸II》到机器人手解魔方:机器学习更多地依赖模拟数据机器学习的未来可能更少地依赖于收集真实数据,更多地依赖于模拟环境。有了足够的高质量数据,深度学习就像变魔术一样发挥作用。但当样本较小时,研究人员会使用模拟数据来填补空白。2019年,在模拟环境中训练的模型完成了比该领域以往工作更复杂、更多样化的壮举。在强化学习方面,DeepMind的AlphaStar在复杂策略游戏《星际争霸II》(星际争霸II)中取得了宗师地位——能够击败99.8%的人类玩家。OpenAIFive训练了一个由5个神经网络组成的团队来击败Dota2世界冠军。但是这些模型是在模拟世界中学习的,它们学习的是在模拟世界中行动。其他研究人员将AI在模拟中学习的技能转移到现实世界中。OpenAI的Dactyl机械臂在虚拟环境中花费了相当于13,000年的模拟时间,培养了操纵魔方所需的灵活性。然后将这些技能应用于真正的魔方。当解魔方需要少于15次旋转时,它有60%的成功率。当解魔方需要更多的操作时,其成功率下降到20%。加州理工学院的研究人员通过模拟横跨加利福尼亚和日本的地震波并将模拟结果用作训练数据,训练了一个神经网络来区分重叠地震和同时发生的地震。亚马逊的Aurora自动驾驶汽车部门同时运行数百次模拟,以训练其模型在城市环境中行驶。该公司正在以类似的方式训练Alexa的对话能力、送货无人机和机器人。模拟环境,例如Facebook的AIHabitat、Google的强化学习行为套件和OpenAI的Gym,可以为优化纺织生产线、填充3D图像中的空白点以及在嘈杂环境中检测物体等AI掌握任务提供资源。在不久的将来,该模型可以探索分子模拟以了解如何设计具有预期结果的药物。冲突爆发:象征主义和连接主义的古老争论重燃由加里·马库斯(GaryMarcus)领导的Twitter上长达一年的争论,为长达数十年的关于AI活力方向的争论注入了新的活力。Marcus是纽约大学的教授、作家、企业家和基于逻辑的AI的倡导者,他发起了一场无休止的Twitter辩论,试图从根本上打破深度学习并推广其他人工智能方法。Marcus重新点燃了所谓的符号主义者和联结主义者之间的一场由来已久的争论,前者坚持认为基于规则的算法对于认知至关重要,后者认为将足够多的神经元与正确的损失函数相结合是获得机器智能的最佳途径。反对马库斯的人工智能从业者重新认识了符号主义方法,以免连接主义的局限性导致资金崩溃或人工智能寒冬。这场辩论引发了对人工智能未来的冷静评估,最终在12月23日Marcus与深度学习先驱YoshuaBengio(蒙特利尔大学教授)之间进行了现场辩论。辩论非常客气,双方都承认双方合作的必要性。2018年12月,马库斯发起了自己的攻势,挑战深度学习支持者的“帝国主义”态度。他继续激励Facebook的深度学习先驱YannLeCun选择一方:相信纯粹的深度学习,还是有适合老式AI的地方?OpenAI提出的混合模型在10月份成为头条新闻。它的机械手通过结合深度强化学习和经典的Kociemba算法来解决魔方难题。虽然Marcus指出是Kociemba算法计算出解决方案,而不是深度学习,但其他人断言机器人可以通过进一步训练学习技能。去年12月,微软提出“神经符号AI”来填补这一空白。它是一种模型架构,旨在弥合神经和符号表示之间的差距。2019年接近尾声,NeurIPS大会凸显了AI社区的灵魂探索。谷歌研究员BlaiseAguerayArcas在主题演讲中表示:“我们目前所有的训练模型都是为了让AI在特定任务中获胜或获得高分,但这并不是智能的全部。”象征主义者和联系活动家之间的敌意可以追溯到半个多世纪以前。1969年,MarvinMinsky和SeymourPapert在《Perceptrons》一书中仔细分析了以感知器为代表的单层神经网络系统的功能和局限性,证明了感知器无法解决简单的异常现象。诸如或(异或)之类的线性不可分问题帮助引发了第一个AI寒冬。大约20年后,第二个AI寒冬来临,部分原因是符号AI依赖于LISP计算机,而随着PC的出现,LISP计算机已经过时了。神经网络在1990年代开始流行,并在过去十年中主导了计算能力和数据的爆炸式增长。我们期待连接主义者和象征主义者齐头并进,或者直到一个派系消灭另一个派系的激动人心的新时代