建议读者阅读Requests库的官方文档获取更多信息(https://realpython.com/python-requests/?source=post_page-----a58e90f1b4ba----------------------)。安装Requests:pipinstallrequests导入Requests库:importrequestsrequestspaga_name=requests.get('url_name')Pandas是一个方便易用的高性能数据结构,也是Python编程语言分析工具。Pandas提供了一个数据框架,可以清晰简洁地存储数据。Pandas库的官方文档如下:https://pandas.pydata.org/pandas-docs/stable/?source=post_page-----a58e90f1b4ba---------------------安装Pandas:pipinstallpandas导入Pandas库:importpandasaspd2。清理数据清理数据有很多重要的步骤,通常包括去除重复行、去除离群值、查找缺失值和空值、将对象值转换为空值和绘制图形等。数据常用的库清理包括:PandasNumPyPandas可以说是数据科学中的“万事通”——它无处不在。Pandas的介绍上面已经很详细了,这里就不再赘述了。NumPy,NumericPython,是一个支持科学计算的Python库。众所周知,Python本身并不支持矩阵数据结构,但是Python中的NumPy库支持创建和运行矩阵计算。NumPy库的官方文档如下:https://numpy.org/devdocs/?source=post_page-----a58e90f1b4ba-----------------------运行以下命令下载NumPy(确保安装了Python):python-mpipinstall--usernumpyscipymatplotlibipythonjupyterpandassympynoseimportNumPylibrary:importnumpyasnp3。探索性数据分析(ExploratoryDataAnalysis,EDA)是一种用于增强对信息索引理解的工具,通过定期剪枝和图形化索引的基本特征来实现。使用EDA可以帮助用户更深入、更清晰地探索数据,展示重要信息收集的发布或情况。运行EDA常用的库包括:PandasSeabornMatplotlib.pyplotPandas:详见上文。Seaborn是一个Python数据可视化库,提供了绘制数据图表的高级接口。安装最新版本的Seaborn:pipinstallseaborn推荐读者阅读Seaborn官方文档:https://seaborn.pydata.org/examples/index.html?source=post_page-----a58e90f1b4ba-----------------------#example-gallery使用Seaborn,您可以轻松绘制柱状图、散点图和热图等图表。导入Seaborn:importseabornassnsMatplotlib是一个Python2D图形绘制库,可以在多种环境下绘制图表,可以替代Seaborn。事实上,Seaborn是基于Matplotlib开发的。安装Matplotlib:python-mpipinstall-Umatplotlib推荐阅读Matplotlib官方文档:https://matplotlib.org/users/index.html?source=post_page-----a58e90f1b4ba----------------------导入Matplotlib.pyplot库:importmatplotlib.pyplotasplt4。建立模型建立模型是数据科学中的关键步骤。这一步比其他步骤更难,因为它需要根据要解决的问题和获得的数据建立机器学习模型。在此步骤中,问题陈述是关键点,因为它会影响问题的定义和建议的解决方案。互联网上的公开数据集大多是基于某个问题收集而来的,所以解决问题的能力就显得尤为重要。而且,由于没有最适合你的特定算法,你需要在多种算法中进行选择,考虑数据是否适合回归、分类、聚类或降维算法。选择算法往往是一件令人头疼的事情。读者可以使用SciKit学习算法选择路径图来跟踪哪种算法表现最好。下图是SciKitlearn的路径图:来源:scikitlearn不难猜到最常用的建模库有:(1)SciKitlearnSciKitlearn是一个简单易用的机器学习模型构建库在Python中。它基于NumPy、SciPy和Matplotlib开发。SciKit学习库官方文档如下:https://scikit-learn.org/stable/?source=post_page-----a58e90f1b4ba----------------------导入scikit-learn:importsklearn安装scikit-learn:pipinstall-Uscikit-learn5.呈现数据这是数据科学的最后一步,也是很多人不想做的一步-毕竟,没有人愿意公开发布他们的数据发现。呈现数据也有规则,这种方法非常重要,因为无论如何结果最终都会呈现给人们。而且由于人们不关心使用的算法,他们只关心结果,所以介绍应该简洁明了。为了展示数据结果,建议读者安装Jupyternotebook:https://jupyter.org/install.html?source=post_page-----a58e90f1b4ba---------------------同时安装以下命令为笔记本配备显示选项:pipinstallRISE阅读文章:http://www.blog.pythonlibrary.org/2018/09/25/creating-presentations-with-jupyter-notebook/了解更多关于如何使用笔记本进行精彩演示的教程。Besuretofollowthestepsofthetutorial.读者还可以观看Youtube的视频进行学习:https://mp.weixin.qq.com/s?__biz=MzI2NjkyNDQ3Mw==&mid=2247491724&idx=2&sn=84ec47e8fa0cb390f8031225317fa1c5&chksm=ea84185addf3914c71e5c3bcc83e7bcf7655c57a1a125c87961cf0f9eba9f1f4c68f2a72e5d4&mpshare=1&scene=23&srcid=&sharer_sharetime=1572619264987&sharer_shareid=9603544ecd5d7f3dc66603ae089636f4#rd来源:LiveLessons本文就这些了。本文从最基础的内容开始。阅读整篇文章后,读者已经知道在数据科学中如何、何时以及在哪一步使用Python库。
