当前位置: 首页 > 科技观察

终于有人把大数据、机器学习和数据科学搞清楚了

时间:2023-03-21 18:25:59 科技观察

数据的爆炸式增长及其可用性推动了人工智能(AI)的发展。您为人工神经网络提供的信息越多,它学习的速度就越快,能力也就越强。在开始人工智能项目之前,你需要考虑数据将在项目中扮演的角色以及如何使用它,例如,你必须决定你是否只想分析数据以获得洞察力,或者你是否想使用机器学习技术来处理数据并做出预测。要做出这些决定,您需要了解一些关键概念,包括大数据、数据科学和数据挖掘。本文阐明了数据在AI项目中的作用,并帮助您就如何应用AI做出明智的决策,充分利用当今可用的海量数据以及未来可用的不断增长的数据量。01了解大数据的基本概念大数据一般是指可以通过计算机分析以揭示模式、趋势和关系的巨大数据集。但是如果你读过大数据一词首次出现的报告,作者并没有使用“大数据”这个词。他们用它来描述一个问题,比如“我们有一个大数据(BIGdata)问题”,而不是“我们有一个大数据(BIG-DATA)问题”。我们在存储和处理大量生成的数据时面临许多困难。企业内部数据仓库升级后不久,数据量可能会远远超过数据仓库的容量。数据仓库跟不上流入其中的数据量和种类,或者没有足够的处理能力从这些数据生成报告。许多公司现在在一天结束时运行报告生成器,因此报告将在第二天早上或下午准备好。在其他公司,许多员工同时查询数据,他们必须等待数小时才能得到结果,如果系统因处理能力不足而崩溃或死机,他们必须从头再来。其中许多业务(例如证券交易所)都依靠实时报告来保持竞争力。问题会越来越多。据估计,在未来十年内,全球将有超过1500亿个联网传感器,每个传感器一年365天,每天24/7生成数据。想象一下人类一天在Facebook、Twitter、Google、在线购物网站、在线游戏网站等上产生的所有数据,您可以看到有多少数据!我们觉得大数据既是问题也是机遇。大数据是一个问题,因为您需要决定是使用海量数据集,还是使用更适度的数据。也许您只需要使用较小的数据集来监控和分析网站使用情况,或者衡量营销策略的有效性。但是,如果您需要分析大型数据集(例如,寻找治疗感冒的方法),则需要规划您的存储和处理技术。但大数据也是一个机会。没有大数据,人工智能就无法使用海量数据来构建准确的模型来识别模式和进行预测。02.与数据科学家合作如果你正在开发需要大数据的人工智能应用程序,最好与数据科学家合作,或者至少咨询一下。数据科学家接受过各种学科的培训,包括编程、数据管理和统计,通过了解如何收集、分析和解释数据来帮助企业做出决策。机器学习不是数据科学家必需的工作技能。例如,数据科学家可能会问一些你从未想过要问的问题,以帮助你更清楚地了解你试图从数据中提取的知识,这可能是问题的答案、难题的解决方案,或者问题的答案。深入了解可能导致系统故障的各种因素。为了实现这一目标,数据科学家可能会使用或推荐工具来收集、分析和解释数据。数据科学家可能会发现你并不真正知道你在这些数据中寻找什么,并帮助你开发一个机器学习系统来识别数据中可能的模式,这些模式有可能提供你从未想过的某种洞察力可能的力量。简而言之,数据科学家可以帮助您评估数据和分析需求,并提供可让您充分利用数据的解决方案。03机器学习与数据挖掘的区别在处理数据(无论数据集大小)时,您可能会遇到大量术语。经常混淆的两个术语是数据挖掘和机器学习(见图5.1)。数据挖掘是从数据中提取有用信息或见解的任何数据处理方法。(请注意,您不是在挖掘数据,而是从该数据中挖掘信息和见解。)机器学习是让计算机做它们没有被编程去做的事情的艺术(即不是死记硬背,做事的科学程式化)。数据挖掘可以使用机器学习从数据中提取有用的信息或见解,但不一定非要使用机器学习技术。机器学习和数据挖掘之间的另一个主要区别是它们使用的技术。要使用机器学习,您首先要训练一个模型,然后使用用Python、R或其他计算机语言编写的机器学习框架。数据挖掘通常使用更广泛的工具集,包括可视化和商业智能工具,其中许多是单一用途的工具,它们以与电子表格应用程序类似但更复杂的方式提取、排序、汇总和呈现数据。04从数据挖掘到机器学习的飞跃从数据挖掘到机器学习的飞跃并不像乍看起来那么具有挑战性。如果您已经在处理大数据并从中提取有价值的见解,那么您就已经具备了管理它的专业知识。您可以找到大量能够创建报告和可视化数据的软件。机器学习只是一种从数据中提取价值的工具。您可能已经拥有一个数据管理团队,并且该团队中的人员习惯于处理大型数据集。他们可能熟悉用Python语言编写的下载框架来操作这些数据集。要使用机器学习,他们只需要以不同的方式利用这些数据。他们不是直接从数据中挖掘有价值的信息,而是需要训练神经网络等机器学习模型,并从数据中找到有价值的模式。我曾在多家公司工作过,这些公司多年来一直致力于大数据项目。他们认为,向机器学习的飞跃与向大数据的飞跃一样困难。事实上,利用机器学习技术更容易,因为这些团队已经非常了解Python和R,并且熟悉处理大型数据集。最大的挑战是让团队以不同的方式思考数据。他们需要创建训练集并重新调整人工神经网络中神经元(节点)的权重,这与他们习惯使用大数据工具直接与数据交互的工作模式不同。对每个人的警告:如果您的组织正在处理大数据,请记住,仅仅因为您拥有一把闪亮的新锤子并不意味着一切都是钉子。拥有大数据的企业通常很容易被机器学习的价值所误导,但机器学习并不总是最佳选择。使用符号方法可以更好地实施较小的AI项目。不要假设你有数据,机器学习总是可行的。05.采取正确的方法当你计划一个涉及数据的项目时,也许最好忽略术语以及数据科学、数据挖掘和机器学习之间的区别。与其专注于您要回答或解决的问题,不如与数据科学家合作或咨询以尽快确定最佳方法。这里有一些通用的指导方针:如果你需要从数据中提取有价值的信息,并且你很清楚你想要什么信息(比如人数)商业智能软件可能就足够了。如果你面对大数据并且有回答某个问题或者解决某个具体问题没有特别的思路(可能连问题都没有,或者心里没有迷茫,一头雾水),那你可能需要借助某种(监督)或无监督)机器学习技术。例如,通过无监督学习,您可以将所有数据输入机器学习模型并查看它产生的结果。让我们考虑这样一个问题:假设您管理一家医院,需要确定成功治疗患者。可以从几个不同的角度来应对这一挑战(见图5.2)。一种选择是组建自己的数据科学团队并弄清楚需要分析的数据类型。例如,团队成员可能会问:“哪些医生的成功率最高?”或“哪个患者的随访计划产生最少的回访次数?”......基于这些问题,数据科学团队将选择相关数据集,分析数据,生成报告并讨论他们的发现。这些报告可能会引发更多需要进一步分析的问题。整个过程需要深入交流和讨论。另一种方法是在人工神经网络上使用无监督机器学习技术。您将所有数据输入人工神经网络,并希望它能识别出有用的模式。有了这些模式,您和您的团队就可以确定模式的相关性并找出模式背后的原因。这些方法中的每一种都有优点和缺点。数据科学团队可能会更深入地了解洞察背后的数据。他们对数据有了直观的感受,并开始提出更有趣的问题。基于人工神经网络的机器学习方法可能会识别不同的模式,因为它处理数据的方式与人类不同,而且它还可以找到对机器有意义但人类可能没有意义的无法解释的模式。不可理解。使用人工神经网络的一大缺点是它无法解释某些模式背后的原因。例如,人工神经网络可能会显示医院使用的一种抗生素在治疗某些感染方面比其他抗生素更成功,但它无法解释原因。原因可能是它效果更好,因为副作用更少,患者更有可能继续服用。在另一种情况下,机器输出结果,但看结果的人都无法解释结果的含义。换句话说,结果对机器有意义,但对人类没有意义。因此我们可以进行逆向工程并尝试理解网络为何以这种方式工作。然而,由于“规则”是不可解释的,我们可能不知道网络为什么会产生它所做的结果。数据科学团队可能对数据有更好的感觉。他们提出问题并利用他们的学习和理解从数据中发现关键线索。他们没有考虑无限的可能性,而是将思考范围缩小到最有可能的因素,例如医生、药物或成功机会最高的程序。