长期以来,数据科学一直被视为技术和商业的下一场大革命。近年来,使用数据科学应用程序的企业数量有所增加。根据Statista的数据,到2021年,近60%的公司的团队中将至少有50名数据科学家。然而,客观地看,数据科学提供的结果并不符合其预期。许多将数据科学方法应用于数据的企业经常发现他们的数据科学项目不可行。造成此结果的一个重要原因是无法正确执行数据科学程序。其他原因通常包括缺乏对业务问题的理解、项目设计不一致以及将数据洞察力转化为可操作结果的能力不足。数据科学很复杂,公司需要使用一些最佳实践来更好地实施数据科学程序。在本文中,我们将讨论企业可以参考哪些实践来提高数据科学工作的成功率。首先让我们了解数据科学的一些基本概念。解读数据科学数据科学听上去很像比特币、NFT、加密等IT流行语。但除了炒作之外,我们看到了一个多层次的领域,它结合了数学推理和计算机编程的各个方面来理解数据。与看起来相反,数据科学并不是一个新的IT术语。在20世纪后期,它的用法接近于统计,意思是有组织的数据文件。数据科学从根本上说是大数据、数据挖掘、机器学习等学科的延伸和结合。现在,它本质上是指收集和分析公司或组织的非结构化数据。数据科学家是记录和解释大量杂乱数据的专业人员,他们使用数学能力、编码技能以及一系列与数据库、计算和通信相关的技能来处理数据并获得相关见解。然后,公司使用这些见解来改善他们的客户服务、产品质量、组织间沟通等。数据科学正成为一些组织梦寐以求的资产,随着时间的推移,它必将获得更多关注。有效数据科学指南的10个最佳实践到目前为止,我们已经收集了有关数据科学的定义和目标的信息。现在让我们看看公司可以遵循的一些数据科学实践,以更好地利用数据科学的好处。1.在组织中建立专门的数据科学计划公司未能利用其数据科学能力的主要原因之一是缺乏专门的数据科学基础设施。通常,公司由两到三个同时从事不同工作的数据科学团队组成。他们没有记录在案的工作方式,也缺乏衡量他们完成的每项任务是否成功所需的指标。此外,在许多情况下,这些团队缺乏必要的技术支持来发挥其潜力。因此,这些团队并不能为企业的整体发展提供多少价值。为了更好地利用其数据科学团队未充分利用的能力,每个企业都需要鼓励建立数据科学计划,其中包括:1.数据科学计划的目标2.为自己配备必要的数据科学基础设施(训练有素的专家,性能优越的设备等)3.交付路线图4.性能指标2.创建有能力的团队而不是寻找独角兽在流行文化中,这个词被用来比喻许多人渴望但又难以获得的东西。在数据科学的语境中,独角兽这个词指的是一个人,更具体地说是一个数据科学家,他几乎拥有企业所需的所有数据科学技能。就像独角兽的定义一样,数据科学独角兽是一种罕见的现象。这意味着公司应该优先考虑建立跨职能的数据科学团队,而不是寻找一个单打独斗的人。典型的跨职能或跨学科数据科学团队包括:收集、转换和组装原始数据以使团队其他成员可以访问和使用信息的数据工程师。机器学习专家,创建ML数据模型以识别收集的数据中的模式。DevOps工程师,负责部署和维护ML数据模型。了解公司要求及其目标市场的业务分析师。一个团队的领导者,正确地指导团队。跨职能团队是独角兽更好的选择,因为他们可以:1.分担工作量2.解决问题时提供不同的视角3.改进整体决策3.在解决问题之前从整体上彻底定义问题的能力全面、细致地描述数据科学问题,怎么强调都不为过。揭示问题的细节使数据科学家能够检查其每个组成部分,并根据特定参数(例如优先级、清晰度、可用数据和投资回报率)对其进行衡量。这也使他们能够确定处理问题所需的主要和次要利益相关者。一旦问题被定义,数据科学家就可以系统化数据收集、分析和解释。然而,这个看似基本的问题,并没有多少公司在开展数据科学业务时予以关注。相反,他们以模糊的方式解释事情,使数据科学家的工作复杂化。因此,在尝试解决问题之前,公司需要深入了解问题的根源,揭示其所有要素和要求。4.确保POC在定义明确的用例上运行POC(概念证明)对于任何数据科学项目都至关重要,因为它们决定了数据模型或数据科学解决方案是否可行。它本质上是更广泛的数据科学解决方案的测试用例,用于确定公司的数据科学计划是否满足其需求。首先,运行POC需要一个用例。而能决定POC进入量产阶段前景的是用例的选择。因此,数据科学家在运行POC时应选择最合适的用例,以提供可量化的结果。此外,用例应该代表一个关键业务问题或一组问题,以便为POC提供特定和相关的指标。5.确定并列出所有KPI是什么决定了公司的数据科学工作是否产生了足够的结果?与之并列的是关键绩效指标(KPI)。目前,虽然大多数实施数据科学的公司都有一套业务目标,但他们缺乏某些关键绩效指标来监控他们在实现这些目标方面的进展。因此,企业需要留出某些可衡量的KPI,例如ROI、每个客户的收入增长百分比、CSAT分数等,以确定其数据科学项目的可行性。例如,如果企业部署优化算法来增加收入,它可以使用性能指标,如月销售额、网站访问者数量等。6.强调利益相关者的适当治理在数据科学术语中,利益相关者是使用提供的数据的个人由数据科学家。他们可以是内部的,例如使用数据推动业务增长的业务分析师,也可以是外部的,例如使用数据科学家来解释数据结果的客户。今天,数据科学主要处理数据。然而,也有必要牢记计划使用它的个人——利益相关者。这样做可以确保数据科学家不仅分析数据,还分析与之相关的人为因素。换句话说,管理利益相关者使数据科学家能够与人合作,而不仅仅是数据。为了有效地管理利益相关者,数据科学家应该实施以下策略:1.建立透明的沟通渠道2.反馈项目的所有可能结果3.寻求反馈4.发起协作努力7.基于利益相关者的数据科学文档数据科学项目。正确记录项目的所有方面可以让利益相关者更好地理解和利用其数据。但无论文档有多好,如果您不能将数据科学项目的细节传达给合适的利益相关者,该项目可能不会那么有效。因此,您应该根据相关涉众的要求和专业知识来记录项目,而不是采取“一刀切”的方法。8.学会将数据科学工作与正确的工具相匹配这似乎是显而易见的,但是将正确的数据科学项目与正确的工具相结合需要高超的技能和数据科学才能。可供选择的工具:1.选择合适的数据可视化软件2.测量项目的云存储容量3.选择合适的编程语言4.评估当前数据科学基础设施的可扩展性5.确定解决问题的正确方法hand做好这种数据科学的前提是拥有适当的工具来完成这项工作可以帮助数据科学家更快、更有效地处理数据。9.集成到敏捷方法论如果剥离所有描述并进行概括,敏捷方法论指出软件开发应该分块进行,沟通和交互是关键。虽然目前有些人可能不同意,但将敏捷方法应用于数据科学项目可以创造奇迹。敏捷框架基本上将项目划分为冲刺,通常有几周的时间限制,数据科学家在冲刺期间处理项目的特定方面。每个冲刺都是在与利益相关者进行交互以概述他们的需求、确定他们的预算、为他们提供交付计划并确定要完成的任务的优先级之后启动的。在每个冲刺结束时,都会进行一次审查,以评估迄今为止完成的工作。10.MasterDataEthics数据模型的执行是客观的,但数据科学家不是。因此,数据科学家必须建立不违反数据收集、分析和解释的道德模型。不遵守数据伦理会在许多方面严重影响公司的信誉和声誉。结论10个数据科学最佳实践方法指南的列表到此结束,它们可以帮助您的数据科学事业。数据科学是一个快速发展的领域,应用范围不断扩大。如果实施得当,数据科学可以成为企业的重要组成部分,并为其增长做出重大贡献。唯一的问题是,公司应该为自己配备足够的数据科学基础设施,聘请合适的人员,广泛合作并遵循上述最佳实践操作指南,以充分利用他们的数据科学工作。译者介绍翟可,51CTO社区编辑,目前在杭州从事软件研发,从事过电商、征信等系统工作。他享受分享知识的过程,丰富自己的生活。参考链接:https://www.datasciencecentral.com/10-best-practices-for-data-science
