python之所以受欢迎,是因为它被广泛使用,之所以被广泛使用,是因为它包含了很多强大的库。对于我们这些不是专业数据分析师的人来说,我们在工作和生活中通常会使用python来获取信息和制作可视化报告,但是专业的数据工程师需要使用一些更专业的python库。今天分享给大家的文章是数据工程师需要掌握的18个python库。希望对您有所帮助。Sourceofthearticle:GettingupearlyPythonAuthor:LiuZaogeearlygettingupearlyCatalogDataAcquisitionSeleniumScrapyBeautifulSoupDataCleaningSpacyNumPyPandasDataVisualizationMatplotlibPyechartsDataModelingScikit-learnPyTorchTensorFlowModelCheckingLimeAudioDataProcessingLibrosaImageDataProcessingOpenCV-PythonScikit-imageDataCommunicationPymongoDataAnalysisResultsWebDeploymentFlaskDjangoDataAcquisitionSeleniumSeleniumisawebtestautomationframework,originallycreatedforsoftwaretesters.它为浏览器提供了一个网络驱动程序API来与用户操作交互并返回响应。它运行时会直接实例化一个浏览器,完全模拟用户的操作,比如点击链接、输入表单、点击按钮提交等等。所以我们可以用它来非常方便的登录网站和爬取数据。您可以使用brewinstallselenium来快速安装selenium。数据采集??ScrapyScrapy是一个用Python开发的快速、高级屏幕抓取和网页抓取框架,用于抓取网站和从页面中提取结构化数据。它的魅力在于任何人都可以根据需要轻松修改它。它还提供了各种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本提供了对web2.0爬虫的支持。我们可以启用选择器(例如XPath、CSS)从网页中提取数据。我们需要先安装Twisted,因为直接安装scrapy会安装失败。所以使用pipinstallTwisted-18.9.0-cp37-cp37m-win32.whl安装,然后使用pipinstallscrapy安装scrapy。数据获取BeautifulSoupBeautifulSoup也是一个从网站爬取数据的库。它提供了一些简单的Pythonic函数来处理导航、搜索、修改解析树等。它是一个工具箱,通过解析文档为用户提供他们需要抓取的数据。因为简单,不需要太多代码就可以写出一个完整的应用程序。你可以使用brewinstallbeautifulsoup4来快速安装bf4。数据清洗Spacyspacy可用于分词、命名实体识别、词性识别等,核心数据结构为Doc和Vocab。Doc对象包含Token序列和Token注释。Vocab对象是spaCy用来存储语言中共享数据的词汇表。SpaCy通过集中存储字符串、词向量和词汇属性来避免存储多个数据副本。.数据清洗NumPyNumPy(NumericalPython)是Python语言的扩展程序库,支持大量的维数组和矩阵运算,也提供了大量数组运算的数学函数库。NumPy可用于对数组执行数学和逻辑运算。NumPy提供了许多有用的功能,用于在Python中对n维数组和矩阵进行操作。数据清理Pandaspandas是一个基于NumPy的工具,旨在解决数据分析任务。Pandas整合了大量库和一些标准数据模型,提供了高效操作大型数据集所需的工具。pandas提供了大量的函数和方法,可以让我们快速方便地处理数据。您很快就会发现,它是使Python成为强大而高效的数据分析环境的原因之一。数据可视化Matplotlibmatplotlib是受MATLAB启发而构建的。MATLAB是数据绘图领域广泛使用的语言和工具。MATLAB语言是面向过程的。使用函数调用,MATLAB可以轻松地使用一行命令进行绘制,然后使用一系列函数来调整结果。它在matplotlib.pyplot模块中有一组完全仿照MATLAB函数形式的绘图接口。这套函数接口方便了MATLAB用户向matplotlib的过渡。数据可视化PyechartsEcharts是百度开源的一款数据可视化工具。凭借良好的交互性和精美的图表设计,得到了众多开发者的认可。当Python遇上Echarts,就变成了PyEcharts。目的是与PythonDocking集成,方便使用数据直接在Python中生成图表。数据建模scikit-learnscikit-learn包含了很多顶级的机器学习算法,主要有六大基本功能,即分类、回归、聚类、数据降维、模型选择、数据预处理。scikit-learn有一个非常活跃的用户社区,基本上它的所有功能都有非常详细的文档供用户查阅。您可以研究scikit-learn的用户指南和文档,以更全面地了解其算法的使用。数据建模PytorchPyTorch是美国互联网巨头Facebook在深度学习框架Torch的基础上使用Python重写的全新深度学习框架。它更像是NumPy的替代品。它不仅继承了NumPy的诸多优点,还支持GPUs计算。在计算效率上比NumPy有更明显的优势;不仅如此,PyTorch还有很多高级功能,比如丰富的API,可以快速完成深度神经网络模型的构建和训练。数据建模TensorFlowTensorFlow是一个开源软件库,用于使用数据流图进行数值计算、机器学习和神经网络。节点代表图中的数学运算,图中的边代表节点之间相互连接的多维数据数组,即张量。其灵活的架构让您可以在各种平台上运行计算,例如台式计算机、服务器、移动设备等中的一个或多个CPU(或GPU)。模型检查LimeLIME能够解释所有我们可以获得预测概率的模型(在R中,即每个使用predict(type="prob")的模型)。它利用了线性模型易于解释的事实,因为它们基于特征和类标签之间的线性关系:复杂模型函数由原始训练集的局部拟合线性模型排列近似。音频数据处理Librosalibrosa是一个非常强大的python语音信号处理第三方库。用于音频、音乐的分析、处理和一些常用的时频处理、特征提取、绘制声音图形等功能,功能非常强大。学习了librosa之后,就不需要再用python去实现那些复杂的算法了,一句话就可以轻松实现。图像数据处理OpenCVOpenCV是计算机视觉领域应用最广泛的开源工具包,基于C/C++,支持Linux/Windows/MacOS/Android/iOS,提供Python、Matlab、等语言接口Java,由于其丰富的接口、卓越的性能和对商业友好的许可,在学术界和工业界都非常受欢迎。anaconda中可以安装OpenCV图像数据处理Scikit-imagscikit-image是一个用于图像处理的开源Python包。包括分割、几何变换、颜色操作、分析、过滤等算法,用于结合一些科学计算库(Numpy、Scipy)集成到python计算环境中安装sudoapt-getinstallpython-skimagesource代码gitclonehttps://github.com/scikit-ima...数据库相关PymongoMongoDB是用C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统。它的内容存储形式类似于JSON对象。它的字段值可以包含其他文档、数组和文档数组,非常灵活。使用python进行操作,需要pymongo。安装pip3installpymongoconnectionclient=pymongo.MongoClient(host='localhost',port='ip')数据分析结果可视化部署FlaskFlask是一个用Python语言编写的轻量级可定制框架,相比其他框架效率更高同类型灵活、轻便、安全、使用方便。此外,Flask还具有高度可定制性。用户可以根据自己的需要添加相应的功能。在保持核心功能简单的同时,可以丰富和扩展功能。其强大的插件库可以让用户实现个性化的网站。定制和开发功能强大的网站。数据分析结果可视化部署DjangoDjango是一种由高级Python编程语言驱动的开源模型。View,controller风格的web应用框架,起源于开源社区。使用这种架构,程序员可以轻松快速地创建高质量、可维护的、数据库驱动的应用程序。另外,在Django框架中,还有很多强大的第三方插件,使得Django具有很强的可扩展性。安装pipinstallDjango文档https://docs.djangoproject.co...
