当前位置: 首页 > 后端技术 > Python

闻起来真香!墙裂推荐6款Python数据分析神器!!

时间:2023-03-26 16:00:22 Python

作者:东哥飞飞,数据爱好者Python数据科学大家好,我是东哥!每个人都熟悉使用Python处理数据。虽是套路操作,但套路之下还是有一些隐藏技巧的。在本文中,东哥分享了6个有趣又高效的操作,帮助大家提高效率。1.PandasProfilingPandasProfiling提供了数据的整体报告,是帮助我们理解数据的一个过程。它可以对Pandas中的数据框数据进行简单快速的探索性数据分析。事实上,Pandas中的df.describe()和df.info()函数也可以实现数据探索过程的第一步。但它们只提供了非常基本的数据概览。Pandas中的Profiling功能可以通过一行代码简单地显示大量信息,还可以生成交互式HTML报告。对于给定的数据集,Pandas中的profiling包计算以下统计量:PandasProfiling包计算的统计量包括直方图、众数、相关系数、分位数、描述性统计,其他信息包括类型、单变量值、缺失值等。您可以使用pip和conda进行安装,使用方法非常简单,如下:pipinstallpandas-profilingcondainstall-canacondapandas-profilingUsage使用titanicdataset来演示profiling功能。importpandasaspdimportpandas_profilingdf=pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)除了导入库外,只需要一行代码就可以显示数据报告的详细信息,包括必要的图表。还可以使用以下代码将报告导出到交互式HTML文件中。profile=pandas_profiling.ProfileReport(df)profile.to_file(outputfile="Titanicdataprofiling.html")其次,prettyprintpprint是Python中的一个内置模块。它能够以干净、可读和漂亮的格式打印任意数据结构。一个例子比较了print和pprint。#定义一个字典,testmy_dict={'Student_ID':34,'Student_name':'Tom','Student_class':5,'Student_marks':{'maths':92,'science':95,'social_science':65,'English':88}}print#正常printprint(my_dict)#输出结果如下:{'Student_ID':34,'Student_name':'Tom','Student_class':5,'Student_marks':{'maths':92,'science':95,'social_science':65,'English':88}}pprint#使用pprint输出importpprintpprint.pprint(my_dict)#输出结果如下:{'Student_ID':34,'Student_class':5,'Student_marks':{'English':88,'maths':92,'science':95,'social_science':65},'Student_name':'Tom'}可以清楚的看到pprint的优点之一是数据结构一目了然。3.PythonDebugger交互式调试器也是一个神奇的功能。如果在运行代码单元时发生错误,您可以在新行中键入%debug来运行它。这将打开一个交互式调试环境,自动转到错误发生的位置,并检查程序中分配的变量值并执行操作。要退出调试器,请按q。比如下面的例子。x=[1,2,3]y=2z=5result=y+zprint(result)result2=x+yprint(result2)应该可以看到x+y肯定会报错,因为两者不是类型相同,不能进行算术运算。然后我们输入%debug。%debug这时候会出现一个对话框让我们交互输入命令,比如我们可以如下操作。4.袖扣之前也介绍过。超级好用的数据探索可视化分析,用很少的代码就可以生成漂亮的可视化图形。这是一个例子。详情请参考这篇文章Python代码行获得炫酷可视化。您需要了解袖扣。cufflinks在plotly的基础上做了进一步的封装,方法统一,参数配置简单。其次,它还可以结合pandasdataframe自由灵活地画图。可谓是像pandas一样的可视化。比如下面的lins线图。importpandasaspdimportcufflinksascfimportnumpyasnpcf.set_config_file(offline=True)cf.datagen.lines(1,500).ta_plot(study='sma',periods=[13,21,55])另一个例子是箱线图。cf.datagen.box(20).iplot(kind='box',legend=False)5.Pyforest这是一个可以让你偷懒的导入神器。可以提前在配置文件中写好要导入的三方库,这样每次编辑脚本的时候省去很多一开始导入各种库的麻烦,无疑是提高效率的利器之一对于有常用库和经常使用库的朋友。pyforest支持大多数流行的数据科学库,如pandas、numpy、matplotlib、seaborn、sklearn、tensorflow等,以及常用的辅助库,如os、sys、re、pickle等。这种用法非常方便经常自己调试,但是对于经常跨环境的比如共享脚本调试给他人用处不大,因为别人可能用不到。苦东哥之前也有详细介绍过。惊人的!这个Python库可以偷懒,跟导入说再见!看下面的操作就明白了。6.Jupyternotebook注释高亮此方法只适用于Jupyternotebook。当我们想要突出笔记,让笔记变得漂亮的时候,这个方法就很香了。笔记的高亮颜色根据不同的情况分为几种。前端同学一看就懂。不同之处在于每个颜色代码的类类型不同。其他的只需要在div标签中写上内容即可。看看下面的用法。蓝色代表信息Tip:使用蓝色框(alert-info)表示提示和注释。如果是注释,则不必包含“注释”一词。

黄色表示警告示例:黄色框通常用于包含附加示例或数学公式。
绿色表示成功仅在必要时使用绿色框,例如显示相关内容的链接。
红色代表危险避免红框很好,但可以用来提醒用户不要删除一些重要的代码等。
这里是一个小提示,如果直接复制到jupyternotebook中可能会报错,因为默认是代码的格式,所以需要选中单元格按Esc切换到可切换模式,再按Y切换到文本模式.这时候再运行shift+ok就ok了。请参见下面的示例。以上就是本次分享的内容,欢迎小伙伴们点赞留言收藏。欢迎大家关注我的原创微信公众号Python数据科学。

猜你喜欢