当前位置: 首页 > 科技观察

2017年大数据年终盘点:开源工具,MySQL和Python是最大赢家!_0

时间:2023-03-16 10:27:21 科技观察

2001年,Gartner给出了大数据的概念,即大数据需要新的处理模型,以具有更强的决策力、洞察力发现力和流程优化能力,以适应海量、高增长率和多样化的信息资产。这指出了大数据关键的3V特征,即海量、速度和多样性,也明确地为我们指出了大数据在哪些方面存在挑战。然而,16年过去了,大数据的发展还没有走到尽头,仍然是一个充满想象力的领域。因为数据的存在,很多新兴产业都展现出了巨大的价值。社交媒体网站可能是一个典型的例子。对于企业来说,目前主要的问题是如何利用收集到的数据来创造价值。为此,Dzone社区对734位大数据相关技术人员进行了调查。让我们来看看一些有趣的结论。开源仍是大势所趋开源是整个IT技术的大势所趋,在大数据领域也不例外。根据Dzone的一项相关调查,71%的受访者正在使用开源工具进行数据科学相关工作,只有16%的受访者使用商业工具。开源工具在个人开发项目和企业应用程序中得到快速采用。Spark是2016年曝光率最高的开源工具,今年的采用率为45%,高于去年的31%。TensorFlow绝对是今年曝光度最高的开源工具第一名。自谷歌一年半前发布以来,TensorFlow的采用率已达到17%。开源工具的出现,让大数据的应用得到了更快的推进。如果你不能快速适应新的开源工具,那么数据科学的相关工具就无法开发。ApacheHadoop仍是老大日前,在预测数据库未来发展趋势时,有专家提出了“Hadoop终将消亡”的观点,但通过具体数据,我们发现ApacheHadoop依然强劲。65%的数据工程师正在使用或曾经使用过ApacheHadoop。47%的技术人员使用Yarn进行集群管理。62%使用ApacheZooKeeper,55%使用Hive进行数据存储。得益于MapReduce处理和存储数据的能力,ApacheHadoop自2011年发布以来就呈现出快速发展的趋势,现在流行的很多高级工具都是建立在Hadoop之上的。对于开发人员和数据科学家来说,Hadoop是一盏明灯,可以帮助他们在未来的职业生涯中取得进步。当然,为了克服MapReduce的局限性,ApacheSpark应运而生,同时也衍生出一些其他新技术,如SparkSQL、GraphX、MLib和SparkStream等。数据库的发展关于数据库的发展,今年的格局没有大的变化。根据Dzone的调查,60%的受访者在生产和非生产环境中使用MySQL。47%的受访者在生产环境中使用MongoDB,在非生产环境中使用48%。41%的受访者在生产环境中使用PostgreSQL,40%在非生产环境中使用。虽然商业数据库可能由于许可问题,但似乎不如开源数据库受欢迎。而其他一些数据库,比如SQLite这样的轻量级数据库,也会占据一定的份额。但是NoSQL数据库的发展越来越稳定,56%的数据科学从业者选择使用NoSQL。编程语言、工具、库和框架数据科学在很大程度上依赖于开源编程语言、工具、库和框架。在编程语言方面,Python和R都是数据科学的流行语言。相比于R语言,Python可能更受欢迎,有63%的受访者支持,而R语言获得了61%的支持。框架方面,SparkStream在流式数据计算框架中颇受欢迎,Kafka在数据采集环节获得了54%的支持。剩下的一些框架并没有获得超过25%的支持率,但是其中有一匹黑马,那就是GraphX,它在迭代图处理类别中获得了24%的支持率。