当前位置: 首页 > 科技观察

转给你的她!文科小姐姐必读的人工智能指南

时间:2023-03-21 00:13:27 科技观察

麦肯锡数据显示,从现在到2030年的十年间,人工智能将为美国创造约13万亿美元的新GDP。相比之下,2017年美国整个国内生产总值约为19万亿美元。吴恩达等领先的人工智能科学家将人工智能描述为第四次工业革命,即“新电力”。人工智能无疑是数字化转型的核心,其跨行业应用将极大地改变世界和开展业务的方式。很多人都想参与这场人工智能革命,却被人工智能的技术复杂性搞得不知所措。他们不知道AI能做什么,更不知道如何将它应用到他们的公司。这正是本文旨在解决的问题:让没有技术背景的人更容易理解人工智能,让他们自己可以评估人工智能在自己工作中的可能性。一、关于人工智能的误解关于人工智能有很多不必要的炒作,主要是因为很多人都有一个普遍的误解。人工智能可以分为两部分或以两部分存在:(1)人工智能(ANI)这是指擅长特定任务的人工智能,它们是为这些任务而训练和开发的。例如,它可能是一个根据历史数据预测房价的AI系统,或者是一个向你推荐YouTube视频的算法。示例包括预测性维护、质量控制等。狭义人工智能是一种非常强大的工具,它将在未来几年为社会增加大量附加值。这些年看到的,新闻里经常听到的成就,都发生在狭义人工智能领域。这些引人注目的新闻让人误以为科学在通用人工智能方面取得了长足进步,但实际上只是在弱人工智能方面取得了进展。(2)通用人工智能(AGI)人工智能的最终目标是建立与人类一样聪明甚至比人类更聪明的计算机系统。任何人工合成智能都可以成功地完成任何人类都可以完成的智力任务。这也是人工智能最让人害怕的部分。他们想象一个计算机远比人类聪明的世界,几乎所有的工作都是自动化的,甚至是《终结者》这样的场景。这是不必要的炒作。它引发了对人类未来的非理性恐惧,而事实上,要实现真正的通用人工智能,仍需要许多技术突破。2.什么是机器学习?机器学习是人工智能的支柱。它使用统计技术使计算机程序无需明确编程即可从数据中学习(例如逐渐提高其处理特定任务的能力)。机器学习是人工智能的工具,得到了所有的过度关注,并使几乎所有通过人工智能系统创造的价值得以实现。它也可以分为不同的部分,但只有一个部分涵盖了机器学习创造的80%的价值。那就是监督学习。监督学习算法只是通过学习大量数据中的关系来学习输入(A)到输出(B)的映射。想象一下建立一个系统,将电子邮件分为垃圾邮件和非垃圾邮件。需要收集大量电子邮件“标记”的案例。这意味着每封电子邮件都有一个标签,表明它是否是垃圾邮件。人们需要收集成千上万封带标签的电子邮件,然后将这些数据输入监督机器学习算法。在训练期间,该算法会分析所有传入的电子邮件,并反复加深对区分垃圾邮件和非垃圾邮件的理解。在此示例中,系统必须将电子邮件(a)映射到指示电子邮件是否为垃圾邮件(b)的标签。可以通过向其提供数千封带标签的电子邮件来训练该算法。一旦根据该数据对算法进行了训练,就可以为其提供一封全新的电子邮件(该算法以前从未见过),并且该算法将显示它是否认为该电子邮件是垃圾邮件。考虑一个在线广告,其中输入是关于用户(A)的信息,系统的输出是一个标签,显示用户是否应该点击添加项目(B)。另一个例子是语音识别,输入是音频文件(A),输出是音频文件中描述的内容文本(B)。又如将一张钢板的图像(A)输入算法,它会判断是否存在缺陷(B)。乍一看,这似乎是一种相当有限的技术,但如果应用得当,它会非常强大。这是人工智能为社会创造附加值的唯一主要原因。这项技术似乎有无穷无尽的不同用例,而且每天都有新的发现。3.人工智能术语人工智能是一个非常复杂的领域,很多术语一开始会让人很困惑。您可能听说过神经网络、深度学习或数据科学。我们将研究有关AI的一些最重要的术语并揭示它们的含义,以便您可以与其他人讨论AI并思考如何将其应用到业务中。现在为您提供最常用的AI术语的定义,但请注意,AI是一个非常晦涩的领域,许多术语可以互换使用,但有时不能互换使用。(1)人工智能人工智能是计算机科学的一个领域,强调创造像人类一样工作和响应的智能机器。如前所述,当人们谈论人工智能时,他们大多指的是通用人工智能(AGI)。人工智能应该看作是整个智能领域,机器学习和深度学习应该看作是让计算机变得智能的技术。(2)机器学习机器学习是人工智能的一个子领域。不过,正是这一研究领域使计算机能够在不明确编程的情况下从数据中学习。所以有了机器学习,基本上就可以制作出程序来执行特定的任务。所以机器学习通常运行一个人工智能系统,它基本上是一个软件。机器学习项目示例:假设一家拥有大量房屋数据的房地产公司与一家机器学习公司合作,建立一个机器学习系统来预测未来的房价。这样的系统可以更好地决定投资哪所房子,并找出正确的时间来清算投资。(3)深度学习深度学习是机器学习不可或缺的一部分,它捕捉了人们近年来看到的以及今天仍然看到的所有媒体炒作和人工智能狭义智能的大部分突破,这与机器学习在本质上是相同的.上面是一样的:给一个算法标记数据,它学习预测标签。与机器学习不同,深度学习使用更现代、更复杂的算法,称为神经网络。相比之下,机器学习中使用更简单的传统算法。由于其复杂性、新技术发现以及充足的数据支持和计算能力,深度学习算法能够在许多任务上打破以往的基准,甚至在某些任务上超越人类(例如:组织病理学图像分析,或在Netflix推荐的电影中)on虽然神经网络(如深度学习算法)几乎总是比传统算法表现更好,但它们也有一定的缺点更多信息传送门:神经网络的优点和缺点(https://towardsdatascience.com/hype-disadvantages-of-neural-networks-6af04904ba5b)你可能经常听说神经网络是以类似于或受人脑启发的方式构建的,但在实践中,它们几乎没有任何关系。没错,它们最初是受人脑启发的,但它们如何工作的细节与人类生物大脑的工作方式完全无关。请注意,许多人互换使用术语深度学习和神经网络。深度学习项目示例:从高层次上看,深度学习项目与机器学习项目没有太大区别,只是需要更多的数据、更多的计算能力和高技能的工程师。(4)数据科学数据科学项目的输出通常是一组洞察力,可以帮助你做出更好的商业决策,比如决定是否投资某件事,是否应该购买某些设备,或者是否应该重新架构你的网页。可以说,数据科学是通过统计方法、可视化等方法分析数据,提取数据知识和见解的科学。输出通常是演示文稿或幻灯片,它们为高管、领导和产品团队做出某些决策提供了一些结论。数据科学项目示例:假设您从事在线广告工作。通过分析贵公司的销售数据,数据科学家发现旅游行业的公司并没有向您购买太多产品。因此,您可以将销售团队的重心转移到旅游行业的公司。另一个例子:假设您正在经营一家电子商务企业,并且您聘请了一些数据科学家来获得更多与业务相关的见解。该项目的结果可能是一个幻灯片,其中包含有关如何修改定价以提高整体销售额的计划或有关如何更有效地营销特定产品的见解。有人说AI是数据科学的一个子集,有人则反过来说。所以,这取决于你与谁交谈,但数据科学是一个跨学科领域,涉及人工智能、机器学习和深度学习的许多任务,但它也有自己独立的工具。其目标主要是提高业务洞察力。您可能听说过其他流行语,例如强化学习、生成对抗网络(GAN)等。这些只是使AI系统更智能的其他工具,换句话说,机器学习有时也是数据科学。您现在已经了解人工智能、机器学习、数据科学和深度学习(例如神经网络)。希望这能让您了解AI中最常用的术语,并可以开始思考这些东西如何应用于业务。4、什么是数据?数据可以采用多种形式:电子表格、图像、音频、传感器数据等。这些数据分为两大类:结构化数据和非结构化数据。(1)结构化数据(“存在于巨型电子表格中的数据”)结构化数据,顾名思义,就是按照预定义的模式以结构化格式存储的数据。它指的是驻留在记录或文件的固定字段中的任何文本或非文本数据。下面是来自著名的泰坦尼克号数据集的结构化数据示例。它包含泰坦尼克号上每位乘客的信息。(2)非结构化数据非结构化数据本质上是所有其他未通过预定义模型结构化的数据。它可以是文本也可以是非文本,但当人们谈论非结构化数据时,他们通常指的是图像、视频、音频文件、文档等。我们已经解释过什么是监督学习。由于监督学习是最常用的机器学习类型,因此当人们说“数据”时,他们大多指的是标记数据。示例:有一个包含100,000张狗和猫照片的数据集,其中每张照片都有一个标签,“猫”或“狗”。另一个例子是包含房价信息的数据集。在这里,您将获得有关房屋的信息(例如面积、卧室数量、位置等)和价格标签。5.如何获取数据?许多问题的数据集都可以在互联网上找到(有些是免费的,有些要花一点钱),但大多数时候你需要创建自己的数据集。获取数据的方式主要有以下三种:(1)人工标注想象一下建立一个分类器,可以检测给定的图片是男人还是女人。为了训练这样的分类器,需要创建或获取许多男性和女性的图像。然后,您需要为每个图像分配一个标签:男人(标签1)或女人(标签2)。您还可以付钱请人为您做标签工作(例如:AmazonMechanicalTurk:mturk.com)。(2)观察行为假设您经营一家电子商务公司,想要预测客户何时购买,以便您更好地管理库存等。您可以通过观察用户行为和在您网站上的购买来创建数据集。这将有助于创建描述每个用户的操作(由某些变量描述,例如:一天中的时间、他们点击的位置等)和标签:购买(标签1)或不购买(标签2)的数据集。另一个例子是观察机器的行为,这可以让你预测它何时需要维护等。(3)使用免费数据源,购买数据或从合作伙伴那里获取数据Kaggle等数据集有很多免费资源。您还可以使用Google数据搜索,它的工作方式类似于Google,但仅适用于数据集。如果您没有找到任何东西,您可以在数据市场上查找数据集或从合作伙伴处获取。6.滥用数据获取数据乍一看似乎很简单,但可能会出现很多问题。在人工智能和机器学习中,我们说:“garbageinthegarbage”,意思是你在训练的时候把AI的品质从AI系统中提取出来。假设您想创建一个特定的人工智能应用程序并开始获取数据。你的计划是用两年的实践积累数据,然后建立一个人工智能系统。这是非常糟糕的做法。在这种情况下,正确的做法是尽可能快地把能拿到的数据拿到AI专家那里。经过一些评估,他可以告诉你哪些部分有用,哪些部分完全没用,哪些数据你应该添加。为了节省金钱和时间:与专家一起快速评估数据质量。另一个大问题是标签不正确。示例:猫的图像被标记为狗,狗被标记为猫,等等。这会阻止您的算法学习真正将猫与狗区分开来的东西,然后将它们完全混淆。好消息是,数据总量越大,标签错误的问题就越少。如果您有一个包含超过200万张带标签的猫狗图像的庞大数据集,一些不正确的标签不会影响其性能。还有一个问题,有些人认为,因为他们的公司有很多数据,而且这些数据很有用,或者人工智能团队可以让它变得有用。那是完全错误的。虽然数据越多通常越好,但您可能拥有数十亿条数据条目,即使是世界上最好的AI工程师也无法从没有价值的东西中创造价值。所以请不要将数据扔给AI团队并假设它具有某种价值。你可能认为这很平常,但由于对数据和AI的误解,许多初创公司认为他们拥有有用的数据,而实际上并没有。还有其他问题,如缺失值、多种类型的数据(可以解决-但成本很高)等。