人类的智慧是博大而复杂的。人类的一些成就在今天是机器无法企及的,机器要触及这些领域还需要很长的时间。对于抽象问题的解决、概念的生成、情感知识、创造力,甚至是自我意识,在这些领域即使是最强大的深度学习算法也无法与人类智能相提并论。把所有这些认知能力都集成到一台机器上,能够应对所有通用场景的人工智能,就叫做通用人工智能。目前,通用人工智能还处于理论阶段。然而,当前的技术在执行某些历史上依赖于人类智能的任务方面取得了更大的成功。我们称这种人工智能为狭义人工智能或弱人工智能。弱人工智能主要指三种能力:学习、感知和认知。▲AICapabilitiesCheatSheet上图概括了本文介绍的AI核心能力。谈到人工智能,客户不断地问,“这是一回事吗?”在人工智能被过度炒作的世界里,很难分辨人工智能是幻想还是现实,是实际能力还是营销炒作。所有这些能力在今天都是真实存在的。人工智能在今天是真实存在的,成千上万的公司正在使用人工智能来转变他们的业务。关注人工智能未来的可能性很重要,但你需要了解人工智能现在能做什么。01Learning▲Learning-LearningwithoutExplicitProgramming机器学习的首要特征是能够随着时间的推移学习,而无需显式编程。和人类一样,机器学习算法通过探索和做来学习,而不是按照一步一步的指示来学习(当然我知道有些读者是年幼孩子的父母,有时你不希望你的孩子是这样的)。机器学习算法按其学习方式分类。您的企业可能在90%的时间里使用的最流行的技术是监督学习。监督学习使用包含输入和所需输出的数据集。通过迭代优化,学习算法可以找到一个函数来模拟输入如何转换为输出。该模型应用于训练集之外的新输入并预测相应的输出。找到正确的算法和参数部分是科学,部分是创造力和直觉。如何将机器学习应用到这个过程本身就是一个研究课题——一种称为自动机器学习(AutoML)的技术。监督学习算法都存在同样的缺陷:它们需要大量数据。不仅是任何数据,它们还需要包含输入和相应的输出训练数据,也称为标记数据。有时我们会标记存储在记录系统或交互系统中的历史数据。例如,对于客户流失模型——我们可以查看流失客户的历史数据,以及客户的历史交互作为训练数据的输出部分。使用正确的算法,我们可以通过查看一系列交互来预测未来的客户流失。然而,有时候我们就没那么幸运了,数据没有标注。无监督学习算法处理一组未标记的数据并在其中查找结构。聚类算法是最流行的一种无监督学习算法,它发现数据中的共性并通过不同的技术对它们进行分组。您可以使用此算法来细分您的客户群或网页访问者。其他常用的无监督学习算法是关联规则(定义数据之间的关联,例如购买某种产品的用户会对其他特定产品感兴趣)和异常检测(发现数据中与主要数据不同的罕见或可疑部分)数据)。在其他情况下,我们根本不使用训练数据。想想人们是如何学习玩电子游戏的。解决这个问题的一种监督方法是观看数以千计的视频游戏并从中学习。这是很多Youtuber的商业模式,我的孩子也看,但我觉得非常无聊。一种更有趣的学习方式是实际用手玩游戏。当我们玩的时候,如果我们做对了(比如得分),我们会得到正强化;如果我们做错了(比如被杀),我们就会得到负强化。强化学习算法就是这样做的:它们通过探索环境和强化正确行为来学习机器学习的能力。由于其数据中立的性质,强化学习是一种非常有前途的商业机器学习方法。它特别适用于自动化系统——无论是移动的(例如车辆、遥控飞机)还是固定的(例如空调系统、电力系统)——并且还可以应用于复杂的业务流程。强化学习通常被认为是AI中最难的学科。02感知▲感知——解释周围的世界如果说有某个领域是人类独有的,那就是感知。几十年来,我们一直试图模仿人类感知周围世界的能力,但收效甚微。理解图片或将语音翻译成文本的复杂性使得几乎不可能以编程方式——想象一下在图片中定义一匹马的分步说明。机器学习算法更适合这类问题。然而,传统的机器学习算法在执行感知任务时远不如人类准确(我仍然记得在WindowsVista上向开发人员演示语音识别......这教会了我成为一个更坚强的人!)。以图像分类为例。ImageNet是图像分类中最著名的挑战。自2010年以来,世界各地的参与者都提交了他们的算法,以创建尽可能准确的模型。在比赛初期(也就是2010年),可以达到的较好的错误率在25%左右。作为对比,人类同行在同一数据集下的错误率约为5.1%。2012年,AlexKrizhevsky(多伦多大学学生)提交了他的提案:一个名为AlexNet的8层神经网络。AlexNet击败了其他竞争对手,错误率达到15.3%——比紧随其后的竞争对手低10个百分点。在接下来的几年里,他介绍的技术得到改进并增加了更多层,直到2014年,一个名为GoogLeNet的22层神经网络实现了6.7%的错误率。次年,微软研究院的一个团队提交了一项使用新的神经网络技术的工作。其神经网络深度达到超大152层,错误率仅为3.57%,首次超越人类表现。深度学习永远改变了计算机视觉。如今,这项技术几乎应用于计算机视觉的所有高精度场景,成为企业中最常见的用例。以下是当今计算机视觉的一些应用:对图像的内容进行分类(图像分类)识别图像中的多个对象并识别每个对象的边界(对象检测)识别图像中的场景或行为(例如:工作场所的不安全情况,或在零售店补货)检测面孔、识别身份,甚至识别每张面孔的情绪识别书面文本,包括手写文本(光学字符识别)识别图像或视频中的冒犯行为研究人员HaroldStolovitch和Erica在他们的书TellingAin'tTraining(ASTDPress)认为,我们获得的信息中有83%来自视觉,其次是听觉,它提供了11%的感官输入。它们加起来占我们从外界获得的信息的94%。毫无疑问,音频处理是AI关注的另一个更大的领域,仅次于计算机视觉。类似的深度学习技术可以应用于音频信号,以帮助计算机识别声音。您可以使用此功能来区分鸟儿的歌声,或通过风力涡轮机的声音来预测故障。但人工智能在音频处理中最令人兴奋的方面是语音识别。语音识别的参考数据集称为Switchboard,它包含大约260小时的电话对话录音。人类在测量后的转录错误率为5.9%。错误率与微软研究院在2016年设计的神经网络相当,一年后以5.1%的错误率被它击败。有史以来第一次,机器比人类本身更能理解人类。这些突破不仅可以让机器更好地理解我们,还可以让机器以自然的方式与我们交流。2018年,Azure推出了基于深度学习开发的文字转语音服务,可以合成与真人无异的人声。这些功能的组合将启用计算机科学的法宝:完全自然的用户界面(NUI)。机器可以看到和理解人类,并用自然语言与他们交流,就像我们生活在科幻电影的幻想中一样。但是我们真的做到了吗?要与计算机进行真正有意义的交流,计算机不仅要能够转录我们所说的话,还要能够理解文字的意思。自然语言处理(NLP)是分析、理解和提取人类语言含义的人工智能领域。NLP最常见的用例之一是语言理解,它是数字助理等现代对话式AI体验的基础。当你向Siri、Alexa或Cortana询问天气时,系统首先将你的对话音频转换为文本,然后通过自然语言理解模型提取你的意图,然后将意图(例如“获取天气”)映射到相应的输出(在这个例子中,提供当地的天气信息)。NLP技术在过去几年中发展迅速。有些只能处理简单的任务,如情感分析、关键词提取或个体识别,而另一些则可以处理更复杂的任务,如文本归纳或翻译。2018年,微软的机器翻译团队首次在自动翻译方面实现了人类水平的性能——一项曾经被认为是不可能完成的复杂任务。自然语言理解最令人兴奋的应用之一是机器阅读理解。2018年1月,微软亚洲研究院的一个团队使用斯坦福问答数据集(SQuAD)实现了人类平等,该数据集由一组维基百科文章的问题组成。事实上,对于有关这些文章的开放式问题,该系统能够比人类给出更好的答案。许多公司为此做出了贡献,帮助它走得更远。尽管如此,这些系统仍未达到人类的抽象水平。问答算法的核心是搜索文本以寻找可以指向正确答案的线索。对于每个问题,系统都会在整个文本中搜索匹配项。人类也是这样做的(尤其是当我们很匆忙的时候),但是当我们真的想理解一段文本时,我们会从中提取知识,概括它,让它更容易理解。想象一段描述加利福尼亚的文字。人类会从这个文本中泛化出“加州”这个实体,并赋予它属性(比如人口、面积),甚至与其他实体的关系(比如邻州、地方州长)。归纳后,我们不再需要该文本来回答有关加利福尼亚的问题。我们总结了相关知识。在人工智能中与这个过程相对应的是知识抽取,对企业具有深远的意义。通过使用这些技术,我们可以从混乱、无序甚至混乱的信息中提取高级概念。由此产生的知识图不仅可以用来回答有关整个数据行业的广泛问题,还可以用来浏览和理解这些信息。这种抽象层次远远超出了传统NLP的能力,使其更接近我们所说的认知。03认知▲认知——基于数据的推理严格来说,认知是获取和处理知识的能力。它包含人脑用于推理、理解、解决问题、计划和决策的高级概念。到目前为止,我们正在探索的技术涉及一定程度的认知,尽管有时并不那么明显。以图像分类为例,如果我们仔细观察用于图像分类的深度神经网络,我们实际上可以看到神经网络如何在每一层将问题分解为更小的步骤。在没有人为干预的情况下,神经网络会自动表现出某种程度的泛化:第一层检测简单的特征,例如边缘或纹理。再深入,每一层都能够提取更复杂的属性,例如模式或元素。从某种意义上说,神经网络已经可以获取一些知识,并利用这些知识进行一些基本的推理。自然语言处理表现出类似的内在抽象。大多数现代NLP技术的核心是使用一种叫做词嵌入的东西。通过词嵌入,文本中的每个词都被转换成表示词义的向量。在这个新空间中,语义相似的词(例如“天气”和“预报”)彼此接近。这样,系统匹配“今天天气怎么样?”和“获取未来24小时的预测”作为相同的意图。尽管单词不同,但它们的含义相似,因为它们的语义相似。翻译的工作方式相同:翻译技术使用词嵌入来抽象输入文本,将其转化为与语言无关的“想法”,然后使用相反的过程将其翻译成任何语言。在这些例子中,认知是感知所固有的。然而,许多人工智能场景是纯认知的。他们不是感知周围的世界,而是专注于抽象世界并基于该抽象进行推理。一些最基本的监督学习方法就是这种情况。回归分析是根据现有信息预测价值的能力,例如根据房屋的特征和位置估算房屋的价值,或根据历史数据估算其销售额。分类是根据物品自身的特征对物品进行分级或分类的能力,例如,确定房屋是否将出售给特定的买家。优化算法根据流程进行推理以最大化特定结果,例如在医院中分配资源。推荐系统只需查看电影、书籍或歌曲的评分或购买习惯,就可以找到它们之间隐藏的共性。如前所述,其他技术(例如聚类分析)可以在数据中找到模式并以无监督方式对项目进行分类。我们还看到了强化学习技术中的认知能力。2017年,微软蒙特利尔研究院(原Marouba)突破100万大关,创造了吃豆人游戏的新纪录。该系统通过玩数千场比赛来训练自己。同样,在2018年,OpenAIFive(由五个神经网络组成的团队)在Dota2游戏中击败了人类团队。OpenAIFive通过与自己对弈来训练,每天的训练量相当于180年的游戏时间。最著名的例子大概就是谷歌DeepMind的成就:其系统AlphaGo首次击败了9段职业围棋选手。围棋被认为是比国际象棋等其他游戏更难的计算机游戏。深入观察所有AI系统参与的游戏,你会觉得它们表现出认知规划的另一个特征。系统能够提前“思考”从长远来看最大化分数的最佳方式。
