当前位置: 首页 > 科技观察

十大必备Python数据科学包_0

时间:2023-03-22 15:12:10 科技观察

[.com快速翻译]过去五年来,人们对数据科学的兴趣显着上升。虽然适用于数据科学和机器学习的编程语言有很多,但Python是最受欢迎的。由于它是机器学习的首选语言,本文涵盖了以Python为中心的十个基本数据科学包,包括最流行的机器学习包。Scikit-LearnScikit-Learn是一个基于SciPy和NumPy的Python机器学习模块。它由DavidCournapeau开发,最初是Google的“编程之夏”项目。从那时起,它已经发展到超过20,000次提交和超过90次发布。摩根大通和Spotify等公司将其用于数据科学工作。由于Scikit-Learn的学习曲线非常平坦,即使是企业的业务人员也可以使用。例如,Scikit-Learn官方网站(https://scikit-learn.org/stable/auto_examples/index.html#examples-based-on-real-world-datasets)上的一系列教程向您展示了如何分析真实世界数据集。如果您是初学者并想了解机器学习库,Scikit-Learn是您的起点。要求如下:Python3.5或更高版本NumPy1.11.0或更高版本SciPy0.17.0或更高版本PyTorchPyTorch擅长两件事。首先,它使用强大的GPU来加速张量计算。其次,它在基于磁带的autograd系统上构建动态神经网络,允许重用和更高的性能。如果您是一名学者或工程师,并且想要一个易于学习的软件包,那么PyTorch是您的不二之选。在特定情况下,PyTorch表现得特别好。比如上面提到的,你想用GPU更快地计算张量?然后使用PyTorch,因为NumPy做不到。想使用RNN进行语言处理?使用PyTorch,因为它具有运行时定义的函数。或者你想使用深度学习但你只是一个初学者?然后使用PyTorch,因为Scikit-Learn不适合做深度学习。PyTorch的要求取决于您的操作系统。安装比Scikit-Learn稍微复杂一些。我建议使用“入门”页面(https://pytorch.org/get-started/locally/)作为指南。它通常需要以下条件:Python3.6或更高版本Conda4.6.0或更高版本CaffeCaffe是最快的卷积网络实现之一,非常适合图像识别。它擅长处理图像。YangqingJia在攻读博士学位时开始开发Caffe。在加州大学伯克利分校。它根据BSD2-Clause许可发布,被称为市场上性能最高的深度学习框架之一。据官网介绍,Caffe的图像处理速度相当惊人,号称“使用单个NvidiaK40GPU每天可处理超过6000万张图像”。需要强调的是,虽然学习曲线仍然比较平坦,但Caffe假设你在学习中至少具有机器中级知识。与PyTorch一样,要求取决于您的操作系统。在此处查看安装指南(http://caffe.berkeleyvision.org/installation.html)。如果可以,我建议你使用Docker版本,这样你就可以马上使用它。强制依赖如下:CUDAforGPUMode(https://developer.nvidia.com/cuda-zone)库版本7或更高版本和最新的驱动程序版本被推荐,但是6系列版本5.5和版本5.0是兼容的,但是通过ATLAS、MKL或OpenBLAS(http://en.wikipedia.org/wiki/Basic_Linear_Algebra_Subprograms)考虑BLAS的旧版本Boost1.55或更高版本(http://www.boost.org/)TensorFlowTensorFlow是其中之一最著名的机器学习库有一些很好的理由。它擅长使用数据流图进行数值计算。TensorFlow最初由GoogleBrain开发,并且是开源的。它针对一系列任务使用数据流图和可微分编程,使其成为有史以来最灵活、最强大的机器学习库之一。如果您需要快速处理大型数据集,这是一个不容忽视的库。最新的稳定版本是v1.13.1,但新的v2.0现在正在进行Beta测试。TheanoTheano是最早用于深度学习开发的开源软件库之一,最适合高速计算。虽然Theano在2017年发布v1.0后宣布停止重大开发,但你仍然可以对其进行历史研究。它在本文中名列前10名的Python数据科学包,因为如果你熟悉它,你可以大致了解它的创新后来如何演变成你在今天激烈竞争的库中看到的特性。PandasPandas是一个用Python编写的强大而灵活的数据分析库。虽然不是严格意义上的机器学习库,但它非常适合对大型数据集进行数据分析和处理。我特别喜欢将它用于数据结构(如DataFrame)、时间序列操作和分析以及数字数据表。许多大公司和初创企业的业务员工可以轻松地使用Pandas进行分析。此外,它非常容易上手,其数据分析能力可与竞争图书馆相媲美。如果您想使用Pandas,您需要具备以下条件:Setuptools24.2.0版或更高版本NumPy1.12.0版或更高版本Pythondateutil2.5.0或更高版本pytzKeras用于跨平台时区计算Keras专为快速实验而设计。它还可以在TensorFlow等其他框架上运行。作为一个深度学习库,Keras以易于快速制作原型而著称。Keras以其易于使用的API深受深度学习库爱好者的欢迎。JeffHale对主要的深度学习框架进行了梳理和排名,Keras毫不逊色。Keras的唯一要求是拥有三个后端引擎之一:例如TensorFlow、Theano或CNTK。NumPyNumPy是使用Python进行科学计算所需的基本包。它非常适合需要易于使用的Python库进行科学计算的研究人员。事实上,NumPy正是为此目的而设计的。它使数组计算变得容易得多。最初,NumPy的代码是SciPy的一部分。但是,需要在工作中使用数组对象的科学家必须安装笨重的SciPy包。为了避免这种情况,从SciPy派生了一个名为NumPy的新包。如果要使用NumPy,则需要Python2.6.x、2.7.x、3.2.x或更高版本。MatplotlibMatplotlib是一个Python二维绘图库,可以轻松创建跨平台图表和图形。到目前为止,我们已经介绍了很多机器学习、深度学习甚至是快速计算的框架。但在数据科学方面,你还需要绘制图形和图表。提到数据科学和Python,人们会立即想到用于绘图和数据可视化的Matplotlib。它非常适合创建出版质量的图表。对于长期支持,当前稳定版本是v2.2.4,但您可以下载v3.0.3以获得最新功能。它确实需要您拥有Python3或更新版本,因为对Python2的支持已经停止。SciPySciPy是一个庞大的数据科学包库,主要用于数学、科学和工程。如果您是数据科学家或工程师,并且想要运行技术和科学计算所需的一切,那么SciPy非常适合您。由于SciPy是基于NumPy构建的,因此它具有相同的目标受众。它有大量的子包,每个子包都专注于一个特定的领域,例如傅里叶变换、信号处理、优化算法、空间算法和最近邻。事实上,这是典型数据科学家所需的配套Python库。从需求上来说,需要SciPy,就需要NumPy。这些是与数据科学相关的前10个Python库。原标题:Python十大必备数据科学包,作者:TJSimmons