当前位置: 首页 > 科技观察

终于有人懂AI、BI、大数据、数据科学了

时间:2023-03-21 19:19:23 科技观察

01数据几乎渗透到我们生活的每一个角落,从我们留在手机上的数字足迹,到健康记录,再到购物记录,再到资源的使用比如能量。在当今的数字世界中,没有数字的生活虽然并非不可接受,但需要付出巨大的牺牲和难以置信的毅力才能忍受。我们不仅是数据生产者,也是活跃的数据消费者,无论是不断检查我们的在线消费习惯,监控我们的健身习惯,还是检查我们的飞行常客积分是否足够去加勒比海度假,所有这些都在消耗数据。但数据到底是什么?在其最一般的形式中,数据是为以后使用而存储的信息。最早的信息记录方式可能是将符号蚀刻到动物骨骼中。到1950年代,数字信息被记录在磁带上,然后是穿孔卡,然后是磁盘。现代数据处理出现的时间并不长,但它已经为我们如何收集、存储、管理和使用信息奠定了基础。直到最近,我们只能对无法计算的信息进行分类(例如,视频和图像信息)。但近年来,通过大量的技术变革,无法存储的数据类型越来越少。事实上,存储的信息或数据是现实世界的模型,用于我们以可用编码的可计算目的。数据是现实世界中发生的事情的持续记录或“模型”这一事实是分析的一个重要特征。被公认为“20世纪最伟大的统计学家之一”的乔治·博克斯曾说过:“所有模型都是错误的,但有些模型是有用的。”很多时候,我们在数据中发现一些没有意义或完全错误的东西。请记住,数据是从真实的物理世界转换和抽象成代表真实世界的东西,乔治称之为“模型”。就像机械式里程表是测速的标准(也是测速的一个很好的替代品)一样,这个型号(指的是机械式里程表)实际测量的是轮胎的转速,而不是车速。总之,数据是存储的信息,是一切分析的基础。例如,在可视化分析中,我们利用可视化技术和交互界面对数据进行分析推理,找出数据本身的规律。02分析分析可能是商业中使用最多但理解最少的术语之一。对于一些人来说,它是一种用来“欺骗数据”(发现数据中隐藏的模式)的技术或技术,或者仅仅是商业智能和数据仓库的扩展;对于其他人,分析是用于开发模型的统计、数学或定量方法。Merriam-Webster词典将分析称为“一种逻辑分析方法”。Dictionary.com词典将分析定义为“逻辑分析的科学”。不幸的是,这两个定义都直接使用analysis这个词的词根,似乎存在循环解释的逻辑错误。analysis这个词的起源可以追溯到1680年代的中世纪拉丁语(anal-yticus)和希腊语(anal-ytiks),意思是“分解”或“松开”。我将分析定义为解决数据驱动问题的结构化方法:一组通过仔细审查事实(数据)帮助我们解决问题的方法。关于分析的定义有很多争论。就目前的讨论而言,我将分析定义为:一种综合的、数据驱动的解决问题的策略和方法。我有意避免将分析定义为“过程”、“科学”或“学科”。相反,我将分析定义为一种综合策略,正如读者将在本书的第二部分中看到的那样,它是包含流程、规则和可交付成果的最佳实践。分析是运用逻辑、归纳推理、演绎推理、批判性思维、定量方法(结合数据)等检查和分析现象以确定其本质特征。分析植根于科学方法,包括问题识别和理解、理论生成、假设检验和结果交流。InductiveReasoning当使用积累的证据来支持结论时,使用归纳推理方法,但结论仍然存在一些不确定性。也就是说,最终的结论可能(有一定的概率)与给定的前提不一致。通过归纳推理,我们能够根据特定的观察或数据做出广泛的概括和结论。DeductiveReasoning演绎推理是根据一些一般性的例子提出断言,然后依靠数据,使用统计推断或实验手段来证明或反驳所作出的断言。例如,按照演绎推理方法,我们提出了一个关于世界如何运作的基本理论,然后(应用数据)来检验我们假设的有效性。分析可用于解决各种各样的问题。例如,UPS公司应用分析结果优化货物运输措施,节省了超过150万加仑(1加仑=3.785·41立方分米)的燃料,减少了1.4万吨二氧化碳排放;克利夫兰诊所使用分析结果来优化手术室的运营计划。有了这些成功案例,难怪“分析”对技术供应商(硬件和软件)和其他各种支持者都极具吸引力。当然,“分析”这个词目前有被过度使用的危险,从人们使用这个词与其他词的各种组合中可以看出这一点。如:bigdataanalyticsprescriptionanalyticsbusinessanalyticsoperationalanalyticsadvancedanalyticsreal-timeanalyticsedgeorenvironmentanalyticsambientanalytics)虽然以上组合和搭配在分析应用的类型和描述上是独一无二的,但它们往往会造成理解上的混乱,尤其是对于企业高管(比如CXO级别的高管)来说,技术供应商总是热衷于提供最新的分析解决方案,试图解决他们的每一个业务痛点。我的观点(正如许多志同道合、理性的思想家都同意我的观点)是分析不是一种技术,而技术只是一种促进和授权分析活动的策略和方法。分析通常还指可以识别具有业务意义的模式和数据之间关系的任何解决方案。分析用于解释不同规模、不同复杂程度、结构化和非结构化、定量或定性的数据,以达到理解、预测或优化特定问题的明确目的。所谓高级分析也是分析的一个子集,它使用复杂的分析技术来支持基于事实的决策过程,这种分析通常以自动化或半自动化的方式进行。高级分析通常包括数据挖掘、计量经济学建模、预测、优化、预测建模、模拟、统计和文本挖掘等技术。03商业智能和报告对于分析和商业智能之间的区别几乎没有达成共识。有些人将分析归类为商业智能的一个子集,而其他人则将其完全归入不同的类别。我将商业智能(BI)定义为:一种管理策略,用于创建更加结构化和高效的决策制定方法……BI包括报告、查询、在线分析处理(OLAP)、仪表板、记分卡,甚至包括分析等常见元素。涵盖性术语BI也可以指获取、清理、集成和存储数据的过程。有些人会将分析和商业智能之间的区别归结为两个区别:所使用的定量方法(即算法、数学、统计)的复杂性;以及产生的结果是针对历史上已经发生的还是将来会发生的。也就是说,商业智能的重点是用相对简单的数学方法来展示和呈现历史数据,而分析则被认为是用更复杂的计算逻辑,能够预测一些具体问题,找出因果关系,确定最确定最佳解决方案的方法有时也用于指示需要采取的行动和措施。大多数商业智能应用程序的局限性不是技术的局限性,而是为行动提供信息的分析深度和真实洞察力。例如,告诉我已经发生的事情并不能帮助我决定如何行动来改变未来,这通常是通过离线分析获得的。分析的真正职责是生成可操作的、可操作的见解,这些见解可以帮助我们了解发生了什么(地点、原因和条件),预测未来可能发生的事情,以及我们可以做些什么来影响和优化未来的结果。请注意,图1-1中描绘的BI仪表板描述了有关过去的事实,例如销售额、通话量、产品和帐户,使您可以轻松地获得组织当前销售状态或活动的快照。▲图1-1BusinessIntelligenceDashboard商业智能及其近邻“报表”是用来描述相关现象的信息展示技术,通常位于数据传递管道的末端,可以直观地访问数据和结果。另一方面,分析超越了对数据的描述,它真正理解了这种现象的内在规律,从而预测、优化和预测未来应该采取的适当行动。传统上,商业智能有两个缺点,这两个缺点与以下事实相关:它的定量分析往往不够复杂,不足以建立有意义的变化,不足以产生精确的洞察力(虽然正确的报告或可视化也能影响变化,但不够精确)。当与超越事实意识的深入“分析”适当结合时,商业智能更接近于分析,但它往往缺乏复杂的统计、数学或“机器学习”方法。因此,我将分析视为商业智能总体框架中包含的概念的自然演变。它更加强调全面实施必要的活动,以产生推动行动的洞察力。分析远远超出了自助操作仪表板或报告界面中使用的预定义可视化元素。04大数据大数据是一种描述组织在将数据转化为洞察力的过程中必须处理的不一致信息的方法。大数据一词最早由MichaelCox和DavidEllsworth在1997年使用,当时他们提到了以下“问题”:可视化对计算机系统提出了一个有趣的挑战:数据集通常非常大,占用大量主内存,本地磁盘甚至远程磁盘的容量。我们称之为大数据问题。当数据集太大而无法放入主存(核心内存)甚至本地磁盘时,最常见的解决方案是扩展和获取更多资源。将大数据视为一个概念,突出了数据的规模和复杂性超出传统数据分析方法所能处理的挑战。我们将大数据与传统的“小”数据进行对比,包括它的容量(我们有多少数据)、速度(数据生成和获取的速度)和多样性(包括数字、文本、图像、视频等)。如果大数据是当今用来描述信息复杂性的概念,那么分析可以帮助我们以主动方式(预测性和规范性)而不是被动方式(即商业智能领域)响应来分析复杂性。05数据科学与大数据相比,定义数据科学并不是一件容易的事,因为在数据科学的众多定义中,很少能找到一致的描述。关于数据科学的含义以及它是否与分析有很大不同,存在很多争论。还有一些人甚至试图通过讨论数据科学家的工作来定义数据科学:数据科学家需要的技能、他们扮演的角色、他们使用的工具和技术、他们的工作地点以及他们的教育背景等。但这些并不'给数据科学一个有意义的定义。与其根据人(数据科学家)或他们所研究的问题来定义数据科学,不如将其定义如下:数据科学是一门使用统计学和数学等领域的定量方法以及现代技术的科学学科,为发现模式、预测结果并找到复杂问题的最佳解决方案的算法开发方法。数据科学与分析之间的区别在于,数据科学可以帮助甚至支持数据分析的自动化,但分析是一种以人为本的策略,它利用各种工具(包括数据科学中的工具)来了解真实的情况事物和现象的本质。数据科学可能是这些概念中最广泛的,因为它涉及使用“数据”的整个科学和实践。我认为数据科学是由计算机科学家设计的分析,但在实践中数据科学往往侧重于研究一般的宏观问题,而分析则侧重于解决特定行业或特定问题的挑战。06边缘(和环境)分析分析是许多现代企业的核心业务活动,这些企业通过数据驱动和以人为本的业务运营和管理流程实现了数据民主化。边缘分析一般是指分布式分析。在这种情况下,分析内置于某些机器或系统中。通过这种内置的方法,信息的生成和收集变成了一项“潜意识”的事业。自主活动。边缘分析通常与智能设备相关联,其中分析计算是在数据收集点(如设备、传感器、网络交换机或其他清洗数据、整合数据、存储数据)进行的,而边缘分析则将分析嵌入到设备中收集数据以在附近完成或实现它。数据民主化所谓数据民主化,是指数据的开放,让每个能够和应该接触到数据的人,都有权利通过工具探索和获取这些数据,而不是将数据限制在少数特权群体。例如,传统的信用卡欺诈检测依赖于机器(如读卡器)通过连接向授权“代理”发送请求以验证交易。交易被授权或标记为欺诈。最后,读卡设备收到授权指令后,完成或拒绝交易。在边缘分析中,算法将在仪器本身上运行(例如具有嵌入式分析功能的智能芯片读取器)。边缘分析通常与物联网(IoT)相关联。近日,IDC在一份关于未来景观(FutureScape)的报告中指出,到2018年,40%的物联网数据将在网络产生的数据边缘进行存储、处理、分析和响应。随着物联网的发展,我们可能会在未来看到更多关注所谓的“事物分析”(AoT),这是指分析将为物联网数据带来独特价值的机会。环境分析是另一个相关术语,其名称意为“无处不在的分析”。就像房间里的灯光或声音通常不被注意但会为舞台营造气氛一样,环境分析会影响我们工作和娱乐的环境。我们看到环境智能在日常场景中发挥作用,例如检测血糖水平和注射胰岛素。同样,家庭自动化设备会检测到您何时靠近家并自动调节温度和开灯。环境分析超越了简单的基于规则的决策,而是使用算法来确定适当的行动方案。毫无疑问,边缘和环境分析将继续挑战传统的以人为中心的管理方法和流程,其中分析结果的使用(例如对分析、决策和采取的行动的理解)由人主导,而在边缘将有在环境分析中越来越多地自主决策和执行(无需人工干预)。07信息学信息学是一门信息技术与信息管理的交叉学科。实际上,信息学处理数据存储和检索的处理技术。从本质上讲,信息学讨论的是如何管理信息,指的是支持流程工作流的系统和数据生态系统,而不是对其中发现的数据进行分析。信息科学中常被提及的健康信息学,专门用于医疗保健和医学研究。它是介于健康信息技术和健康信息管理之间的一门专业技术。它集信息技术、通信和医疗保健于一体。提高患者护理的质量和安全性。它位于人、信息和技术交叉点的中心。卫生政策是指一个社会为实现特定的卫生目标而采取的决定、计划和行动。医疗保健政策制定者希望看到医疗保健变得更实惠、更安全、质量更高,而信息技术和健康信息技术往往是实现这一目标的重要手段。事实上,最重要的任务之一是正确定位数据资源,使它们能够提供每个患者健康状况信息的完整视图,而这只能通过数据共享来实现(见图1-2)。▲图1-2健康信息管理、健康信息技术和信息学的区别分析综合了所有这些概念,并依靠底层数据、支持技术和信息管理流程来实现这一目标。08人工智能和认知计算人工智能(AI)是“让计算机完成需要人类智能的事情的科学”。人工智能与机器学习的区别在于,人工智能泛指利用计算机完成模式识别和探索等“智能”工作的广义概念,而机器学习是人工智能的一个子集,主要是指利用计算机从数据中学习。的概念。机器学习是人工智能的一个子集。它可以根据数据进行学习和预测。它不是仅仅根据一组特定的规则或指令完成预先计划的操作,而是使用算法训练来自主识别大量数据中的模式。人工智能(和机器学习)可以在整个分析生命周期中使用,以支持发现和探索(例如,数据的结构方式、存在的模式等)。人工智能在分析中的使用通常以机器学习(如上所述)或认知计算的形式出现。认知计算是一种独特的应用程序,它结合了人工智能和机器学习算法,试图复制(或模仿)人脑的行为。认知计算系统旨在像人类一样通过思考、推理和记忆来解决问题。这种设计方法为认知计算系统提供了优势,使它们能够“随着新数据的到来而学习和适应”,以及“探索和发现你从未想过会问的问题”。