人工智能的必要条件:深度学习模型、大数据、计算能力作者:MichaelZhang麦教授2016年,AlphaGo在围棋比赛中击败了李世石。每个人都相信人工智能时代已经到来。人工智能也是如此。在一定的历史机遇下,几个独立发展的领域恰好融合在一起,产生了巨大的推动力。这波人工智能发展的三个必要条件是:深度学习模型、大数据、计算能力(并行计算)。深度学习模型AlphaGo所使用的机器学习模型由深度学习教父杰弗里·辛顿(GeoffreyHinton)于1986年倡导,并于2010年取得重大突破。《辛顿的推特头像》2012年夏天,64-岁的Hinton离开了他在多伦多附近的家,成为谷歌的一名实习生。他收到了一顶缝有“Noogler”(意为:谷歌新员工,NewGoogler的缩写)字样的螺旋桨帽,并参加了以80后、90后为主的迎新会。年轻的Nooglers不会认出他,因为Hinton几十年来一直在默默地研究神经网络算法。用他的话说,这些年轻人似乎把他当成了“老白痴”(还记得罗伯特·德尼罗的电影《实习生》吗?)。谷歌之所以要他,是因为他的深度学习算法模型几乎在机器学习的所有领域都打破了天花板。人工智能近年来的突破,得益于欣顿过去几十年的研究。他在1986年发表的原始论文提出了一种机器模型,可以像人脑一样通过神经网络进行学习。但这种模式初见成效后就停滞不前了(缺少另外两个要素:数据和算力)。大多数学者都背弃了它,但Hinton没有。快进20年,2006年,Hinton的团队有了突破。更名为“深度学习”的神经网络开始在每项关键任务上击败传统人工智能,例如识别语音、描述图像和生成自然可读的句子等。这些算法支撑着从自动驾驶汽车和虚拟助手到搜索引擎推荐等后端技术。近年来,谷歌、Facebook、微软、BAT、抖音等各大科技巨头纷纷开启了深度学习淘金热,争夺全球为数不多的几家专家,背靠数亿的深度学习创业公司风险投资如雨后春笋一般涌现。这些都是因为Hinton的模型改变了人们研究和应用人工智能的范式。值得一提的是:欣顿家族出过太多神一般的人物。Hinton的曾祖父是乔治·布尔(GeorgeBoole),即布尔代数中的布尔。布尔在32岁时发表了《逻辑的数学分析》(逻辑的数学分析),确立了逻辑与代数的关系。他在39岁时发表了《思维的规则》(TheLawsofThought),创立了布尔逻辑和布尔代数。数理逻辑是数学的一个分支,为现代计算机奠定了数学基础。公牛的妻子叫玛丽珠穆朗玛峰。MountEverest的英文名称是以玛丽的叔叔乔治·埃佛勒斯命名的,乔治·埃佛勒斯是印度大地测量局的首席测量员。命名。Bull的小女儿EthelLilianVoynich写下了伟大的作品《牛虻》(牛虻)。布尔的大女儿玛丽·艾伦(MaryEllen)的这句台词更是名声在外。艾伦嫁给了数学家查尔斯·霍华德·辛顿。Ellen的孙女(Hinton的姑姑)JoanHinton,中文名寒春(名字是Hinton的音译),芝加哥大学核物理研究所研究生,恩里科·费米的学生,同班同学杨振宁和李政道。她也是为数不多的参与曼哈顿计划的女科学家之一。《逃跑的原子间谍》1953年,美国杂志《真相》报道,曾在美国参加曼哈顿计划的女物理学家琼·辛顿突然失踪,后又出现在北京。笔者(海军上将后)怀疑韩春向中国泄露美国原子弹机密,甚至可能协助中国政府研制原子弹计划。其实,寒春之所以选择逃亡中国,是因为她痛恨原子弹对人类的伤害。她认为中国最缺的就是牛奶,所以她选择帮助中国推进科学养牛和农业机械化。她是第一个获得中国绿卡的外国人,2010年在北京逝世。和韩春一样,欣顿也厌倦了美军发展大规模杀伤性武器。80年代,他离开卡耐基梅隆大学(CMU),赴加拿大多伦多大学专心从事人工智能研究。2010年,63岁的他发表了深度神经网络AlexNet,对机器学习的各个领域起到了巨大的推动作用。2018年,他和他的学生及合作者获得了计算机科学领域的最高奖项“图灵奖”。人工智能大数据,Hinton的深度学习算法推进了机器学习的各个子领域。公众在2012年意识到了该算法的强大功能。2012年,语音识别远非完美。这些系统通常使用隐马尔可夫模型(HMM)或高斯混合模型(GMM)来识别语音模式。Hinton等人在2012年发表的一篇开创性论文。表明深度神经网络明显优于这些先前的模型。2012年ImageNet大规模视觉识别挑战赛(ILSVRC)是使用深度神经网络进行图像识别的决定性时刻。Hinton与他的学生AlexKrizhevsky和??IlyaSutskever一起发表了名为“AlexNet”网络(CNN)的卷积神经网络,将现有的ImageNet视觉识别错误率减半至15.3%,比第二名低10.8个百分点。为什么我以前看不到这个算法的强大?原因很简单。之前的研究人员没有大规模的人工智能训练数据。在小规模数据上,深度学习算法并没有很强的优势。从“数据规模与算法性能”图中可以看出,传统算法会遇到瓶颈,无论数据规模有多大,都没有办法提升。但是随着数据规模的增大,深度学习可以不断提升算法的性能。本次计算机视觉竞赛使用的大规模数据ImageNet来自斯坦福大学李飞飞教授的研究。她有很强的洞察力来连接不同领域之间的关系。她的计算机视觉同事正在研究用于计算机感知和解码图像的模型,但这些模型的范围有限。他们可能会编写一种算法来识别狗,另一种算法来识别猫。李飞飞怀疑问题出在模型而不是数据上。如果一个孩子可以通过观察无数的物体和场景来学习识别物体,也许计算机可以通过分析大规模、多样化的图像以及它们之间的关系来以类似的方式学习。但这需要在训练模型的时候,有大量带标签的图片来告诉计算机图片中的物体是什么。在具有数百万甚至数千万图像的数据库中标记每个图像中的所有对象是一项巨大的体力劳动。当普林斯顿大学助理教授李飞飞在2007年提出ImageNet的想法时,很难得到同事的帮助,因为那时候大家只是习惯于使用数百到数千张图像的数据库。有人评论说:“连一个都认不出来,何必认出几千个、几万个呢?”李飞飞试图支付给普林斯顿学生每小时10美元的标签费用,但进展缓慢。后来有个同学跟她提到了AmazonMechanicalTurk,突然之间,她可以用很低的成本雇佣很多人来打标。2009年,李飞飞的团队收集了320万张(后来增加到1500万张)带标签的图像,发表了一篇论文,并建立了一个开放的数据库。起初,该项目很少受到关注。该团队随后联系了次年欧洲计算机视觉竞赛的组织者,要求他们允许参赛者使用ImageNet数据库来训练他们的算法。这成为了ImageNet大规模视觉识别挑战赛。多年来,ImageNet挑战赛的参与者遍布科技界的每个角落。2010年竞赛的第一批获胜者继续在谷歌、百度和华为担任高级职位。Clarifai基于2013年ImageNet获奖算法而创立,此后获得了4000万美元的风险投资支持。2014年,牛津大学的两名研究人员夺得冠军。他们很快被谷歌抢走,加入了它收购的DeepMind实验室。“ImageNet的错误率在逐年下降。”这个数据库一下子激发了深度学习的潜力,让人意识到数据的规模有时比模型的效率更重要。性,而ImageNet和AlexNet让大家看到了数据规模能给人工智能带来的变化。到2017年,即比赛的最后一年,计算机识别物体的错误率已从2012年的15%下降到不到3%。2020年,很多算法可以将错误率降低到2%以下。计算能力(并行计算)所谓深度神经网络就是神经网络有很多层,每一层有很多节点。为了计算出最优模型,必须进行非常大量的计算。这种方法以前之所以不流行,是因为计算量太大。在处理小规模数据时,深度学习的正确率并不比其他简单模型高,但计算量却大很多,因此并不讨喜。2010年左右,随着并行计算越来越容易做,这个计算瓶颈突然变得不那么重要了,于是人工智能的三个必要条件就满足了。“CPUvs.GPU”并行计算可以大大加快计算速度。一个传统的CPU(CentralProcessingUnit)有十几个核心,可以同时处理十几个独立的计算任务。GPU(图形处理单元)最初是用来加速图形显示的。当需要计算复杂图形的光影时,可以利用GPU的数千核进行并行处理,从而大大加快计算速度。GPU并不适合所有的加速场景。我们遇到的很多问题都是串行的,即一次计算完成后,可以得到结果,然后才能进入下一次计算。在这种情况下,CPU的效率更高。但是在某些场景下,每一次计算都是相互独立的,不需要等待,深度学习的算法正好符合这个特点。有人做了一个简单的比较,CPU就像古代军队中的将军,适合遇到连环问题时单打独斗;但是GPU就像一个士兵,遇到并行问题适合一拥而上。深度学习算法是一个可以用并行计算解决的问题,所以一拍即合,GPU并行计算的计算能力被广泛应用在需要人工智能加速的场景中。《英伟达(Nvidia)股价》制造GPU芯片的英伟达股价也暴涨。2016年至今,股价翻了20倍。后来人们为人工智能计算开发了更好的协处理器,比如TPU或者NPU,处理AI算法的效率更高。GPU的重要性当然也与区块链和比特币的发展有关。区块链中的工作量证明需要大量的独立计算,这也是GPU大显身手的领域。
