本文将使用“算法”一词来描述单一算法、模型或以高度简化的方式使用多种算法的软件。在每一类中,数据输入的类型,作为黑盒的算法,以及输出一一讨论(为简单起见,即使真正的算法不是黑盒,也将其视为黑盒暂且)。因为这是一个高层次的概述,我鼓励您深入研究感兴趣的具体应用,并弄清楚它们如何应用于行业或商业活动。还有许多资源可用于了解所涉及的技术细节和特定算法。01PredictiveAnalysis预测是预测分析或预测建模的同义词,它是根据标记的,有时是未标记的输入数据来判断输出数据的过程。在机器学习和人工智能中,预测分析可以进一步细分为回归和分类。下面讨论使用标记数据(监督)进行预测的两个子类。1.回归图1-1展示了回归方法中输入标记数据,通过预测模型处理,然后从一个连续序列(比如股票市场的收盘价)中生成一个值的过程。▲图1-1:回归应用包括客户全周期股票价值和净利润、收入和增长预测、价格变化、信用违约风险、股票交易计算。2.分类分类是指将输入数据经过分类模型处理后,分为一类或多类的过程,如图1-2所示。▲图1-2:分类垃圾邮件过滤器是二进制分类应用的标准案例。电子邮件是分类模型处理的输入数据,输出数据是垃圾邮件或非垃圾邮件,非垃圾邮件是指那些没有垃圾邮件内容的好邮件。垃圾邮件被发送到垃圾箱,非垃圾邮件被发送到收件箱。如果引入第三类“不确定”,分类器现在可以将输入邮件分为三类。因为有两个以上的类,所以这是一个多元分类的例子。在此示例中,电子邮件客户端可能有一个“可能是垃圾邮件”文件夹,供用户查看每封电子邮件并使用它来训练分类器以更好地区分垃圾邮件和非垃圾邮件。如果要将输入数据分为三类或更多类,算法可以为输入数据选择一个类,或者计算输入数据属于每个类的概率。对于后一种情况,可以使用概率最高的类别作为选择结果,也可以使用所有类别的概率按照自己自定义的规则进行处理。在这种情况下,假设一封刚收到的电子邮件被确定为垃圾邮件的可能性为85%,非垃圾邮件的可能性为10%,不确定的可能性为5%。由于是垃圾邮件的概率比较高,所以可以将邮件判断为垃圾邮件,或者可以将计算出的概率用于其他方面。最后,一些算法可以为同一个输入分配多个标签。这里举一个与图像识别相关的例子,假设输入数据是一张红苹果的图像,那么算法可以为图像分配多个不同的标签,如红、苹果、水果。对于这种情况,将图像分配给所有三个类别是合适的。应用包括信用风险、贷款审批和客户流失。分类可以与本文后面讨论的识别应用相结合。02个性化与推荐系统推荐系统是一种个性化的形式,它根据现有信息进行推荐,结果与个人用户高度相关。它可用于提高客户转化率、销售额、满意度和保留率。事实上,仅通过添加这些引擎,亚马逊就增加了35%的收入,而Netflix75%的观看量来自此类推荐。推荐系统是一种特殊的信息过滤系统。个性化也可以通过用户搜索、排名和评分来完成。推荐系统根据输入的产品或用户等数据,通过推荐模型或引擎的处理完成推荐(如产品、文章、音乐、电影),如图2所示。▲图2:推荐系统值得一提的是与推荐系统相关的“冷启动问题”。冷启动意味着智能应用程序还没有足够的信息来为特定用户或群体做出高度个性化和相关的推荐。例如,用户尚未生成有关其偏好、兴趣或购买历史的信息。另一个例子是商品(例如衣服、产品、视频、歌曲)刚刚问世时。有几种技术可以帮助解决这个问题,但由于篇幅限制,没有深入讨论。推荐系统应用包括推荐产品、视频、音乐、歌曲、书籍和电视节目(例如Amazon、Netflix、Spotify)。除推荐外,它还包括个性化内容,包括新闻、报告、电子邮件和定向广告(如Twitter)。其他示例包括个性化医疗计划、个性化图像和图标(例如YouTube、Netflix、Yelp)、葡萄酒推荐、个性化购物(例如完美夹克)、时尚(例如StitchFix)和全自动推荐。03计算机视觉计算机视觉是一个广泛的领域,包括涉及图像和视频等视觉信息的模式识别(下一节将讨论另一种技术)。计算机视觉以照片、静止视频图像和一系列图像(视频)作为输入,用模型对其进行处理,并产生输出,如图3所示。▲图3:计算机视觉输出可以是识别、检测和发现目标、特征或活动。与视觉相关的应用意味着一定程度的自动化,尤其是自动化视觉通常需要人工参与应用(例如检查)。术语机器视觉用于描述工业应用中相似或重叠的技术,例如检查、过程控制、测量和机器人技术。计算机视觉有许多有趣而强大的应用,并且应用的数量正在迅速增加。例如,计算机视觉可用于以下场景:视频分析和内容过滤唇读指挥自动化机器(如汽车和无人机)视频识别和描述视频字幕识别人类交互动作,如拥抱和握手机器人及其控制系统人群密度估计人数统计(例如排队、基础设施规划、零售)检查和质量控制零售客户步行路径分析和参与分析无人驾驶飞行器(UAV)通常称为无人机。通过应用计算机视觉,无人机能够执行检查(例如石油管道、无线电塔)、完整的建筑物和区域搜索、帮助绘制地图和交付。计算机视觉现在广泛应用于警察、安全和监视领域。当然,这样的应用也要注意符合伦理道德,保护人们的利益。关于计算机视觉,还有最后一件事值得一提。通过视觉、嗅觉、听觉、触觉和味觉五种感官,人类能够感知周围的环境和周围的世界。感官捕捉信息,然后传递到神经系统,在那里进行转换,并决定应该采取什么行动或应该给出什么样的反应。计算机视觉是对特定人工智能应用的视觉类比。04PatternRecognitionPatternrecognition涉及输入非结构化数据,通过模型对其进行处理,然后检测是否存在某种模式(detection),然后为识别出的模式分配一个类别(classification),或者发现识别出的模式的主题(标识),如图4-1所示。▲图4-1:模式识别这些应用程序的输入可以包括图像(包括视频——一系列静止图像)、音频(如语音、音乐和声音)和文本。文本可以根据其特性进一步细分为电子的、手写的或打印的(例如纸质、支票、车牌号)。使用图像作为输入的目的可能是检测对象、识别对象、发现对象或三者的组合。人脸识别就是一个很好的例子。一个模型被训练来检测图像中的人脸并对检测到的对象进行分类并将它们标记为人。这是对象检测的示例,其中对象是无法识别的面孔。“检测”用于指检测到与背景不同的对象。它还包括对象位置的测量和检测到的对象周围的边界框的特定测量。识别是对检测到的对象(在本例中为人脸)进行分类或标记的过程,它更进一步,为识别出的人脸分配身份。图4-2给出了一些图像识别的例子。▲图4-2:图像识别与检测利用人脸识别等生物特征识别技术,可以对图片中的人物进行自动标注。另一种形式的生物识别是基于指纹识别。其他应用包括:从视频和音频中读取文本对图像进行标记和分类基于图像的汽车损坏评估从视频和音频中提取信息基于面部和语音的情感识别面部表情识别音频识别应用包括:语音识别将语音转换为文本识别说话人基于语音、实时客户服务和销售电话的情商分析记录和森林砍伐声音检测,手写或打印的文本可以通过光学字符识别(OCR)和手写字符识别转换为电子文档。文档也可以转换为语音,但这被认为更有可能是AI的生成应用,而不是识别应用。生成应用程序将在本文后面讨论。05聚类和异常检测图5所示的聚类和异常检测是两种最常见的无监督机器学习技术。它们也被认为是模式识别技术。▲图5:聚类和异常检测这两个过程都是使用未标记的数据作为输入,经过相应的算法(聚类或异常检测)处理后,在聚类场景下完成分组,或者在异常检测场景下确定是它不正常。我们首先讨论聚类。聚类将未标记数据中的相似数据分组。组的确切数量由执行聚类任务的人(通常是数据科学家)确定。没有正确或错误的组数,但通常可以通过反复试验来确定特定应用的理想组数。由于数据未标记,聚类器必须为每个组分配一些含义或标签以便清楚地描述它(例如运动狂)。然后使用该模型将新数据分配给一个组,从而假设该组的标签或描述。将此过程视为某种形式的预测分类,其中每个新数据点都被分配一个类别(通过分组标签)。将新的数据点(例如客户)分配给集群(细分)将为我们提供一种更好的方法来精确定位、个性化和战略性定位产品,并以适当的方式定位每个细分市场。向子市场中的客户进行营销。聚类应用包括市场和客户的细分和关注、3D医学图像分析、按购物习惯对产品进行分类以及社交媒体分析。异常检测是一种用于检测异常数据(高度异常、异常或异常)模式的技术。异常检测应用包括基于音频的缺陷和裂缝检测、网络安全、质量控制(例如,制造缺陷检测)以及计算机和网络系统健康(例如,NASA的缺陷和错误检测)。在网络安全的异常检测应用方面,常见的威胁包括恶意软件、勒索软件、计算机病毒、系统和内存攻击、拒绝服务(DoS)攻击、网络钓鱼、不需要的程序执行、凭据盗窃、数据传输和盗窃等。这方面的异常检测场景不用多说。06自然语言自然语言是人工智能发展和应用中一个非常有趣和激动人心的领域,通常分为三个子领域:自然语言处理(NLP)、自然语言生成(NLG)和自然语言理解(NLU)。让我们分别讨论。1.NLP自然语言处理(Naturallanguageprocessing,NLP)输入文本、语音或手写语言,经过NLP算法处理后输出结构化数据,如图6-1所示。现在有很多潜在的NLP场景和输出。▲图6-1:NLP值得一提的是,有时NLP也被认为是NLG和NLU的超集,因此人工智能自然语言应用一般可以被认为是NLP的一种形式。其他人将其视为我们正在谈论的自然语言应用程序的特定集合。与NLP相关的具体任务和技术包括:定量和有针对性的文本分析语音识别(语音到文本)主题模型(例如文档中讨论的主题和主题)文本分类(例如电视节目♂)情感分析(例如积极的,负面,中性)主题检测(例如人,地点)名称识别(例如大峡谷,迈尔斯戴维斯)语义相似性分析(例如不同单词和文本之间整体含义的相似性)作为部分语音标记(例如名词,动词)机器翻译(例如英法翻译)一个具体的NLP应用涉及公司会议录音,文本转换,然后提供会议摘要,其中包括围绕不同主题和会议表现的分析(https://www.chorus.ai)。另一个应用程序使用NLP分析求职面试,并根据性别中立、语气和措辞等因素给出总体评分。它还提供优化建议,以提高评级和整体职位描述。其他应用包括:基于情感的新闻聚合情感驱动的社交媒体调查和品牌监测基于留言板的育儿疫苗关注度分析电影评论和产品评论的情感分析动物语音转换API接口提供了这方面的一些功能。2.NLGNLG以结构化数据的形式输入语言,经过NLG算法处理后,生成相应的语言作为输出,如图6-2所示。这种语言输出可以是文本或文本到语音的形式。结构化输入数据的示例可以是有关运动员参加比赛的统计数据、广告效果数据或公司财务数据。▲图6-2:NLG应用包括:基于句子和文档自动生成文本概述Stories业务分析报告摘要RecruiterEngagementHospitalResearchPatientHospitalBillinginNaturalLanguageFantasyFootballDraftSummaryandWeeklyGameRecapPropertyDescriptionandRealEstateMarketReportPress与由AndreiKapasi创建的公司收益报告相关的发布模型可以自动生成维基百科文章、婴儿名字、数学试卷、计算机代码和莎士比亚的模型。其他应用包括生成手写文本甚至编写笑话。3.NLU最后,NLU将语言作为输入(文本、语音或手写),经过NLU算法处理后,产生可理解的语言作为输出,如图6-3所示。由此产生的可理解语言可用于采取行动、生成响应、回答问题、进行对话等。▲图6-3:需要注意的是,NLU中的“理解”一词在本质上可以是非常深奥和哲学的,涉及理解的概念。理解意思的能力通常不仅是理解信息(与死记硬背相反),而且是将理解的信息与现有知识相结合,并将其用作不断增长的知识库。缺乏与人类相似的语言理解和理解能力是当今基于自然语言的人工智能应用的一大短板。根本原因在于机器很难获得与人类相似的语言理解能力。还记得前面关于人工智能现状和人工智能难题的讨论吗?这是一个证明。在不进行完整的哲学讨论的情况下,让我们只使用术语“理解”来表示算法(再次大大简化)能够使用输入语言做更多的事情,而不仅仅是解析它并执行简单的任务,如文本分析。NLU要解决的问题显然比NLP和NLG(通用人工智能问题)难得多,而NLU是实现通用人工智能(AGI)的主要基础组成部分。目前的NLU越来越好,已经有包括个人虚拟助理、聊天机器人、客户成功(支持和服务)代理、销售代理等在内的应用。这些应用程序通常包括某种形式的手写内容或口头对话,并且通常围绕信息收集、问答或某种辅助工具展开。个人助理的具体例子包括亚马逊的Alexa、苹果的Siri、谷歌的Assistant和Nuance的Nina。聊天机器人的用例包括润滑油专家、求职面试官、学生贷款顾问和商业保险专家。这是人工智能研究非常活跃、具有发展潜力的领域,绝对值得关注。07时间序列和基于顺序的数据大多数情况下,数据是按顺序收集的,因此数据的顺序极其重要,由特定的指标决定。最常见的数据序列索引是时间,按时间排序的数据称为时序数据。每日交易时段的股票价格波动、DNA序列、物联网传感器数据以及风向等科学现象都是时间序列的好例子。时间序列分析和建模可用于学习、判断和预测基于时间的事件,包括趋势、季节变化、周期和噪声。对于一些特定的应用,字母和单词的序列也是有效的序列数据,这些序列被标记了不同的标签,比如n-grams、skip-grams、句子、段落,甚至是语言本身,其中语言是基于语音的、文本或以电子方式表达。另外,音频和视频也是序列数据。应用包括:预测(回归和分类)异常检测预测货币的未来汇率实时跟踪健康趋势市场预测天气预报基于序列的推荐情感分析DNA测序文本生成序列到序列预测(例如机器翻译)08信息搜索、提取、排序和评分许多强大的AI应用程序都围绕信息的搜索、提取和排名(评分)展开。对于文本文档、网页、图像和视频等非结构化和半结构化数据尤其如此。此数据(有时辅以结构化数据)可用于提取信息、提供搜索或优化建议,以及按相关性、重要性或优先级对项目进行排名或评分。这组技术中的大部分都与个性化相关,因为搜索结果和其他项目可以根据它们与用户或人群的相关性进行排列或排名。目前很多搜索任务都是通过键盘输入或者语音的方式提供给谷歌等搜索引擎的,这就使用了谷歌独有的人工智能搜索算法。电子商务应用程序也使用自己的引擎来搜索产品,搜索过程可以由文本、声音(语音)和视觉输入驱动。文本搜索包括Google搜索、Microsoft的Bing以及分布式、透明和社区驱动的搜索。基于声音和图像的搜索应用程序包括:服装和时尚搜索歌曲和艺术家搜索PinterestLensSearch图像和视频搜索字体搜索视频搜索基于图像内容的搜索。购物应用程序长期以来一直采用这种方法。用户将拍摄的照片提交给视频搜索引擎。这些照片随后用于生成相似性搜索结果,例如衣服。一些图像引擎还可以直观地显示类似的产品和推荐。除了分类技术,还有排名和评分技术,包括应用如:线索评分信息和文档检索(如网络搜索)机器翻译致病基因搜索和发现确定蛋白质的顺序结构09强化学习强化学习(RL)与目前为止描述的AI技术非常不同(简要回顾一下前面提到的人类学习方法)。基本思想是让代理人在虚拟环境中行动以获得积极的回报。每个动作都会导致环境状态发生变化,并且每个动作都由称为策略的模型确定。策略试图确定在给定状态下采取的最佳操作。如果您暂时没有得到它,请不要担心;我举个例子,希望能让它更清楚。图9非常形象地展示了强化学习。▲图9:对于强化学习,可以考虑以游戏《吃豆女士》(Ms.Pac-Man,whynotMs.Pac-Woman?)为例。吃豆人小姐的目标是吃掉屏幕上的所有圆点,但更大的目标是尽可能吃掉圆点以获得最多分数。为什么得分最多才是真正的目标?或者你为什么要玩这个游戏?首先,得分越多,获得的自由寿命就越长。自由寿命越长,可以玩的时间越长,可以继续积累更多的积分。其次,谁不想因为完成比赛或创造世界纪录而获得官方的“吹嘘权利”?在这种情况下,分数就是奖励,吃豆人女士就是代理,环境就是屏幕,参与其中的人(玩家)就是通过操纵操纵杆决定采取行动的策略。当然,环境是有状态的。有一种普通的无敌情况,吃豆子小姐吃屏幕上的点和水果,必须躲开追她的鬼魂,还有一种无敌情况,吃豆子小姐吃了无敌药丸(我不知道它叫什么),她可以吃鬼很多加分。决定无敌与非无敌的是环境状态的变化,也是agent在环境中能力的变化。值得一提的是,在《吃豆女士》游戏中,人们有时会被屏幕上的目标所激励,即完成尽可能多的关卡,而不是获得最多的分数。这种情况下就直接用无敌加速,尽可能多的吃无阻碍的点数,吃鬼估计得不到最多的点数。假设您有一个强化学习应用程序,目标是获得最高分。在这种情况下,该应用程序将尝试学习如何做到这一点,即尽可能多地吃鬼和水果。还要提一下,评分是一种积极的奖励。被幽灵杀死是一种负面奖励。随着时间的推移,加固应用程序应该尝试最大化点数并最小化生命损失。虽然这个例子是在游戏场景中构建的,但我们还有很多其他方式可以使用强化学习。应用包括:击败围棋世界冠军为神经网络寻找合适的配置机器人优化药物剂量优化交通信号控制优化化学反应,或者不属于已经讨论过的任何类别,因此将它们归类为混合或杂项。用例包括:自动驾驶汽车和车队以及自动航天飞机实时飞行路径预测和空中交通优化无人驾驶赛车仓库物流和拣选自动化狗和类人机器人机器人类人手珊瑚礁监测水母机器人医院病人护理工作自动化疾病爆发预测降低冷却成本天气预报自动会议协调预测性维护与物联网相关的智能系统人工智能开发的另一个真正有趣的领域是生成应用程序,基本上指的是从特定类型的输入生成给定应用程序的能力生成某些东西的人工智能。其中包括以下示例:从文本生成图像生成图像和图像区域描述生成星系和火山图像从草图生成图像从歌曲特征生成音乐从设计模型生成不同的声音和语音合成生成软件代码从文本生成视频其他应用程序包括风格转移(例如,一般图像转移以制作梵高或毕加索风格的“艺术”复制品)。还有一种称为超分辨率成像的技术,它通过生成缺失的3D图像数据将2D图像转换为3D。最后,图像的自动着色是人工智能的另一个有趣应用。
