大家都很熟悉用Python处理数据。就是套路操作,但是套路之下还是有隐藏技巧的。在本文中,我将分享6个有趣且高效的操作,帮助您提高效率。1.PandasProfilingPandasProfiling提供了数据的整体报告,是帮助我们理解数据的一个过程。它可以对Pandas中的数据框数据进行简单快速的探索性数据分析。事实上,Pandas中的df.describe()和df.info()函数也可以实现数据探索过程的第一步。但它们只提供了非常基本的数据概览。Pandas中的Profiling功能可以通过一行代码简单地显示大量信息,还可以生成交互式HTML报告。对于给定的数据集,Pandas中的profiling包计算以下统计数据:PandasProfiling包计算的统计数据包括直方图、众数、相关系数、分位数、描述性统计,其他信息包括类型、单变量值、缺失值等。您可以用pip和conda安装,使用方法很简单,如下:importpandasaspdimportpandas_profilingdf=pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)用法使用titanic数据集演示分析功能。importpandasaspdimportpandas_profilingdf=pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)除了导入库外,只需要一行代码就可以显示数据报告的详细信息,包括必要的图表。还可以使用以下代码将报告导出到交互式HTML文件中。profile=pandas_profiling.ProfileReport(df)profile.to_file(outputfile="Titanicdataprofiling.html")其次,prettyprintpprint是Python中的一个内置模块。它能够以干净、可读和漂亮的格式打印任意数据结构。一个例子比较了print和pprint。#定义一个字典,testmy_dict={'Student_id':34,'Student_name':'Tom','Student_Class':5,'Student_marks':{'maths':92,'social_Social_,'Social_:65,'English':88}}print#正常printprint(my_dict)#输出如下:{'Student_ID':34,'Student_name':'Tom','Student_class':5,'Student_marks':{'maths':92,'science':95,'social_science':65,'English':88}}pprint#使用pprint输出importpprintpprint.pprint(my_dict)#输出结果如下:{'Student_ID':34,'Student_class':5,'Student_marks':{'English':88,'social_science':92,'science':95,pprint'Social_science':65},'Student_name'可以看出Tom的优势'一清二楚'数据结构一目了然。最近花了几天时间整理了一个Python入门理论+实践进阶教程。这可能是您见过的最好的学习材料之一。独家打造,完全免费,需要的同学可以关注gzh【Python编程学习圈】,发送“学习资料”获取~3.PythonDebugger交互式调试器也是一个神奇的功能。如果在运行代码单元时发生错误,可以通过在新行中键入%debug来运行它。这将打开一个交互式调试环境,自动转到错误发生的位置,并检查程序中分配的变量值并执行操作。要退出调试器,请按q。比如下面的例子。x=[1,2,3]y=2z=5result=y+zprint(result)result2=x+yprint(result2)应该可以看到x+y肯定会报错,因为两者不是类型相同,不能进行算术运算。然后我们输入%debug。%debug这时候会出现一个对话框让我们交互输入命令,比如我们可以如下操作。4.Cufflinks这个库之前也介绍过。超级好用的数据探索可视化分析,用很少的代码就可以生成漂亮的可视化图形。举个例子:cufflinks在plotly的基础上做了进一步的封装,方法统一,参数配置简单。其次,它还可以结合pandasdataframe自由灵活地画图。可谓是“熊猫般的可视化”。比如下面的lins线图。importpandasaspdimportcufflinksascfimportnumpyasnpcf.set_config_file(offline=True)cf.datagen.lines(1,500).ta_plot(study='sma',periods=[13,21,55])例如框型图片.cf.datagen.box(20).iplot(kind='box',legend=False)看着这张动态图,爱不释手,有没有!5.Pyforest是一款可以让你偷懒的导入神器。可以把要导入的三方库提前写在配置文件里,这样每次编辑脚本的时候可以省去很多一开始的导入。各种库,对于有常用库和固定库的朋友来说,无疑是提高效率的利器之一。pyforest支持大多数流行的数据科学库,如pandas、numpy、matplotlib、seaborn、sklearn、tensorflow等,以及常用的辅助库,如os、sys、re、pickle等。这种用法非常方便经常自己调试,但是对于经常跨环境的比如共享脚本调试给他人用处不大,因为别人可能用不到。看下面的操作就明白了:6.Jupyternotebook笔记高亮此方法只适用于Jupyternotebook。当我们想要突出笔记,让笔记变得漂亮的时候,这个方法就很香了。笔记的高亮颜色根据不同的情况分为几种。前端同学一看就懂。不同之处在于每个颜色代码的类类型不同。其他的只需要在div标签中写上内容即可。看看下面的用法。蓝色代表信息
