数据科学是一门研究数据并从中挖掘信息的学科。它不需要创建或学习新的算法,只需要知道如何研究数据和解决问题。此过程的关键之一是使用适当的库。本文概述了数据科学中常用且具有一定重要性的库。在进入主题之前,本文介绍了解决数据科学问题的5个基本步骤。这些步骤都是作者自己总结写的,没有对错之分。正确的程序取决于用于研究数据的方法。数据科学的五个重要步骤包括:1.获取数据2.清洗数据3.探索数据4.构建数据5.呈现数据这五个步骤只是经验,不是标准答案。但是仔细想想,你会发现这五个步骤是非常合理的。1.获取数据获取数据是解决数据科学问题的关键步骤。你需要提出一个问题并最终解决它。这取决于您获取数据的方式和位置。获取数据的更好方法是从Kaggle下载或从网络上抓取。当然,你也可以使用合适的方法和工具从网上抓取数据。Web数据抓取最重要和常用的库包括:1.BeautifulSoup2.Requests3.PandasBeautifulSoup是一个可以从HTML和XML文件中提取数据的Python库。建议读者阅读BeautifulSoup库的官方文档。如果您已经安装了Python,只需输入以下命令即可安装BeautifulSoup。本文涉及的所有库都给出了安装方法。但我建议读者使用GoogleColab练习代码。在GoogleColab中,无需手动安装,输入“importlibrary_name”即可,Colab会自动安装。pipinstallbeautifulsoup4导入BeautifulSoup库:frombs4importBeautifulSoupSoup=BeautifulSoup(page_name.text,'html.parser')Python的Requests库以更简单易用的方式发送HTTP请求。Requests库中有很多方法,其中最常用的是request.get()。在URL转发成功或失败的情况下,request.get()可以返回URL转发状态。建议读者阅读Requests库的官方文档获取更多信息(https://realpython.com/python-requests/?source=post_page-----a58e90f1b4ba----------------------)。InstallRequests:pipinstallrequestsImportRequestslibrary:importrequestspaga_name=requests.get('url_name')Pandas是一个方便易用的高性能数据结构,也是一个Python编程语言分析工具。Pandas提供了一个数据框架,可以清晰简洁地存储数据。Pandas库的官方文档如下:https://pandas.pydata.org/pandas-docs/stable/?source=post_page-----a58e90f1b4ba---------------------安装Pandas:pipinstallpandas导入Pandas库:将pandas导入为pd2。清洗数据清洗数据有很多重要步骤,通常包括去除重复行、去除离群值、查找缺失值和空值、将对象值转换为空值并绘制成图等。常用的数据清洗库包括:1.Pandas2.NumPyPandas可以说是数据科学中的“灵丹妙药”——随处可用。Pandas的介绍上面已经很详细了,这里就不再赘述了。NumPy,NumericPython,是一个支持科学计算的Python库。众所周知,Python本身并不支持矩阵数据结构,但是Python中的NumPy库支持创建和运行矩阵计算。NumPy库的官方文档如下:https://numpy.org/devdocs/?source=post_page-----a58e90f1b4ba-----------------------运行以下命令下载NumPy(确保已安装Python):python-mpipinstall--usernumpyscipymatplotlibipythonjupyterpandassympynose导入NumPy库:将numpy导入为np3。探索性数据分析(EDA)是一种通过定期修剪和绘制索引的基本特征来增强对信息索引的理解的工具。使用EDA可以帮助用户更深入、更清晰地探索数据,展示重要信息收集的发布或情况。常用的运行EDA的库包括:1.Pandas2.Seaborn3.Matplotlib.pyplotPandas:详见上文。Seaborn是一个Python数据可视化库,提供了绘制数据图表的高级接口。安装新版本的Seaborn:pipinstallseaborn推荐读者阅读Seaborn官方文档:https://seaborn.pydata.org/examples/index.html?source=post_page-----a58e90f1b4ba---------------------#example-gallery使用Seaborn,您可以轻松绘制条形图、散点图、热图等图表。导入Seaborn:importseabornassnsMatplotlib是一个Python的二维图形绘制库,可以在多种环境下绘制图表,可以替代Seaborn。事实上,Seaborn是基于Matplotlib开发的。安装Matplotlib:python-mpipinstall-Umatplotlib推荐阅读Matplotlib官方文档:https://matplotlib.org/users/index.html?source=post_page-----a58e90f1b4ba----------------------导入Matplotlib.pyplot库:importmatplotlib.pyplotasplt4。建立模型建立模型是数据科学中的关键步骤。这一步比其他步骤更难,因为它需要根据要解决的问题和获得的数据建立机器学习模型。在此步骤中,问题陈述是关键点,因为它会影响问题的定义和建议的解决方案。互联网上的公开数据集大多是基于某个问题收集而来的,所以解决问题的能力就显得尤为重要。而且,由于没有最适合你的特定算法,你需要在多种算法中进行选择,考虑数据是否适合回归、分类、聚类或降维算法。选择算法往往是一件令人头疼的事情。读者可以使用SciKit学习算法选择路径图来跟踪哪种算法表现最好。下图是SciKitlearn的路径图:不难猜到最常用的建模库有:1.SciKitlearnSciKitlearn是一个简单易用的Python构建机器学习模型的库。它基于NumPy、SciPy和Matplotlib开发。SciKit学习库官方文档如下:https://scikit-learn.org/stable/?source=post_page-----a58e90f1b4ba----------------------导入scikit-learn:importsklearn安装scikit-learn:pipinstall-Uscikit-learn5。呈现数据这是数据科学的最后一步,也是许多人不想做的一步——毕竟,没有人愿意公开发布他们的数据发现。呈现数据也有规则,这种方法非常重要,因为无论如何结果最终都会呈现给人们。而且由于人们不关心使用的算法,他们只关心结果,所以介绍应该简洁明了。为了展示数据结果,建议读者安装Jupyternotebook:https://jupyter.org/install.html?source=post_page-----a58e90f1b4ba---------------------同时安装如下命令为笔记本配备显示选项:pipinstallRISE阅读文章:http://www.blog.pythonlibrary.org/2018/09/25/creating-presentations-with-jupyter-notebook/,了解更多有关如何使用笔记本制作精彩演示文稿的信息。请务必按照教程的步骤操作。读者也可以观看Youtube视频学习:以上就是本文的全部内容。本文从最基础的内容开始。阅读整篇文章后,读者已经知道在数据科学中如何、何时以及在哪一步使用Python库。
