当前位置: 首页 > 科技观察

2020年数据科学的四大热门趋势

时间:2023-03-13 20:37:11 科技观察

数据科学的新能力不断演进并渗透到各个行业。随着世界各地的组织开始数字化转型,2019年出现了越来越多的公司利用数据做出更好决策的趋势。在这里,我们来看看预计将在2020年起飞的数据科学新趋势。2019年是数据科学的重要一年。全球各行各业的公司都在进行数字化转型。企业的招聘、营销、定价、战略等传统业务流程,都通过数字化技术实现了效率10倍以上的提升。数据科学已成为数字化转型不可或缺的一部分。使用数据科学,组织不再需要根据预感、猜测或小型调查做出重要决策。相反,他们正在分析大量真实数据,以根据真实的、数据驱动的事实做出决策。这就是数据科学的全部意义——通过数据创造价值。根据Google搜索趋势,将数据集成到核心业务流程中的趋势在过去5年中增长了四倍以上。数据为公司提供了超越竞争对手的巨大优势。随着更多的数据和更好的数据科学家使用它,公司可以获得他们的竞争对手甚至可能不知道的市场信息,这已经成为一场数据或灭亡的游戏。过去5年“数据科学”的Google搜索趋势在当今不断发展的数字世界中,要在竞争中保持领先地位需要不断创新。专利都出来了,敏捷方法论(译者注:又称轻量级方法,是一组开发方法的统称)和快速捕捉新趋势非常重要。组织不能再依赖他们坚如磐石的旧方法。如果出现数据科学、人工智能、区块链等新趋势,需要提前预见并迅速适应。以下是2020年最热门的4大数据科学趋势。这些趋势今年引起了企业越来越多的兴趣,并将在2020年继续增长。(1)数据科学自动化即使在当今的数字时代,数据科学仍然需要大量的人工操作工作。存储、清理、可视化和探索数据,最后对其建模以获得实际结果。这些手动任务正在寻求自动化,因此数据科学自动化和机器学习的兴起。几乎数据科学过程的每一步都已经或正在变得自动化。自动数据清理在过去几年中得到了广泛的研究。清理大数据通常会占用数据科学家的大部分宝贵时间,初创公司和大公司(如IBM)都提供数据清理的自动化和工具。数据科学的另一个重要部分,称为特征工程,受到??了重大打击。Featuretools(译者注:一个可以自动构建机器学习特征的Python库)提供了自动化特征工程的解决方案。最重要的是,现代深度学习技术(例如卷积神经网络和递归神经网络)无需手动特征工程即可学习自己的特征。最重要的自动化发生在机器学习领域。DataRobot和H2O通过提供端到端的机器学习平台确立了自己在行业中的地位,这些平台使数据科学家更容易访问数据管理和模型。用于自动模型设计和训练的AutoML在2019年也蓬勃发展,因为这些自动化模型的性能优于新技术。尤其是谷歌,正在大力投资CloudAutoML。总的来说,公司正在大力投资构建和购买用于自动化数据科学的工具和服务,即使只是为了让这个过程更便宜、更容易。同时,这种自动化也适用于规模较小、技术含量较低的组织,它们可??以利用这些工具和服务来使用数据科学,而无需建立自己的团队。(2)数据隐私与安全隐私与安全一直是技术领域的敏感话题。所有公司都希望快速发展和创新,但失去客户对隐私或安全问题的信任可能是致命的。所以他们被迫把它作为一个优先事项,至少不要泄露私人数据。在过去的一年里,数据隐私和安全已成为一个非常热门的话题,大规模的公共黑客攻击加剧了这一话题。就在最近,即2019年11月22日,在谷歌云上发现了一个不安全的公共服务器。该服务器包含12亿条个人信息,包括姓名、电子邮件地址、电话号码以及LinkedIn和Facebook个人资料信息。FBI也参与了调查,这是有史以来最大的数据泄露事件之一。它位于GoogleCloud服务器上,任何人都可以创建。数据如何到达那里?它属于谁?谁负责该数据的安全性?虽然人们不会在看到这条消息后删除他们的LinkedIn和Facebook帐户,但这确实引起了一些担忧。消费者越来越关心他们将电子邮件地址和电话号码提供给谁。能够保护客户数据隐私和安全的公司会发现,他们更容易说服客户(通过继续使用他们的产品和服务)向他们提供更多数据。如果政府颁布任何要求客户数据安全协议的法律,这些公司还应确保他们已做好充分准备。因此,很多公司选择SOC2PrivacyPrinciples(译者注:美国注册会计师协会(AICPA)制定的隐私保护审计标准)来证明自己的安全实力。整个数据科学过程都是由数据推动的,但其中大部分都不是匿名的。数据不仅代表原始数字,而且描述真实的人和真实的事物。如果使用不当,这些数据可能会导致全球隐私灾难并影响人们的日常生活。随着数据科学的发展,我们还将看到围绕数据的隐私和安全协议发生转变。其中包括建立和维护数据安全性和完整性的流程、法律和不同方法。如果网络安全成为年度流行语,也就不足为奇了。(3)云中的超大规模数据科学多年来,数据科学已经从一个小众市场发展成为一个成熟的领域,可用于分析的数据量呈爆炸式增长,组织正在收集和存储比以往更多的数据。典型的财富500强公司可能需要分析的数据量远远超过个人计算机的处理能力。一台像样的PC可能有64GB内存、8核CPU和4TB存储空间。这适用于个人项目,但当您为一家拥有数百万客户数据的跨国公司(例如银行或零售商)工作时,效果就不佳了。因此,云计算进入了数据科学领域。云计算让任何人在任何地方都能获得几乎无限的处理能力。AmazonWebServices(AWS)等云提供商提供多达96个虚拟CPU内核和高达768GB的??内存。这些服务器可以设置在一个自动缩放组中,数百台服务器可以以所需的计算能力启动或停止而不会有太多延迟。除了计算,谷歌云数据中心还提供完整的数据分析平台。谷歌云提供了一个名为BigQuery的平台,这是一个无服务器且可扩展的数据仓库,使数据科学家能够在该平台上存储和分析PB级数据。BigQuery还可以连接到其他谷歌云服务以进行数据科学。使用CloudDataflow创建数据流管道,使用CloudDataProc对数据运行Hadoop或ApacheSpark,或者使用BigQueryML在庞大的数据集上构建机器学习模型。从数据到处理能力的一切都在增长,随着数据科学的成熟和数据量的增加,我们最终可能会完全在云端进行数据科学。(4)自然语言处理在深度学习研究领域取得重大突破后,自然语言处理(NLP)稳步进入数据科学领域。数据科学最初是对纯原始数据的分析,因为这是处理数据并将其收集到电子表格中的最简单方法。如果需要处理任何一种文本,通常需要对其进行分类或以某种方式将其转换为数字。然而,将一段文字压缩成一个数字是非常困难的。自然语言和文本包含着丰富的数据和信息,而由于缺乏将这些信息表示为数字的能力,我们常常会丢失很多有用的信息。深度学习在NLP领域取得的巨大进步,推动了NLP与传统数据分析的全面融合。现在,神经网络可以从大量文本中快速提取信息。他们能够将文本分类为不同的类别,确定对文本的情感,并对文本数据进行相似性分析。最后,所有这些信息都可以存储在一个数字特征向量中。NLP已成为数据科学中的强大工具。大量的文本数据存储,不仅仅是一个单词的答案,而是可以转换为数字数据以进行标准分析的完整段落。现在,我们可以探索更复杂的数据集。例如,假设一个新闻站点想要查看哪些主题获得了更多的浏览量。如果没有先进的NLP,所有的关键词都是无用的,或者只是一种预感:为什么一个特定的标题相对于另一个标题效果如此好?使用NLP,我们可以量化网站的文本,比较整个文本甚至网页的各个段落以获得更全面的洞察力。总体而言,数据科学仍在不断发展,它将融入每个行业(技术或非技术)和每个企业(无论大小)。随着这个领域的长期发展,它成为我们软件工具箱中的常用工具,并被大众大规模使用也就不足为奇了。