提示和技巧,尤其是在编程领域,非常有用。有时一个小技巧可以节省时间和生命。一个小的快捷方式或附加组件有时可以证明是天赐之物和真正的生产力助推器。所以这里有一些我最喜欢的提示和技巧,我在本文中一起使用和编译了它们。有些可能相当熟悉,有些可能是新的,但我相信在您下次处理数据分析项目时它们会派上用场。一、pandas数据框的分析Profiling(分析)是一个帮助我们理解数据的过程,而PandasProfiling就是执行这个过程的python包。这是在PandasDataframes上进行探索性数据分析的一种简单快捷的方法。Pandas的df.describe()和df.info()函数通常用作EDA过程的第一步。但是,它仅提供了非常基本的数据概览,对于大型数据集的帮助不大。另一方面,PandasProfiling函数使用df.profile_report()扩展了pandas数据帧以进行快速数据分析。它用一行代码显示大量信息,也在交互式HTML报告中。对于给定的数据集,pandas分析包计算以下统计数据:由PandasProfiling包计算的统计数据。安装使用让我们使用古老的泰坦尼克号数据集来演示多功能python分析器的功能。编者按:本文发表一周后,Pandas-Profiling发布了重大升级,版本2.0.0。语法有点变化,事实上,它的功能已经包含在pandas本身中,报告也变得更加全面。下面是最新的使用语法:用法要在Jupyternotebook中显示报告,运行以下代码:您只需要这行代码就可以在Jupyternotebook中显示数据分析报告。该报告非常详细,包括必要的图表。您还可以使用以下代码将此报告输出到交互式HTML文件。2.为pandas图表带来交互性Pandas有一个内置的.plot()函数,它是DataFrame类的一部分。但是,使用此功能呈现的可视化效果不是交互式的,这使得它的吸引力降低。相反,不能排除使用pandas.dataframe.plot()函数绘制图表的便利性。如果我们可以使用pandas像plotly一样绘制交互式图形而无需主要代码更改会怎么样?实际上,您可以使用Cufflinks库来做到这一点。Cufflinks库结合了plotly的强大功能和pandas的灵活性,便于绘图。现在让我们看看如何安装这个库并让它在pandas中运行。安装使用是时候看看Titanic数据集的神奇之处了。df.iplot()vs.df.plot()右边的可视化显示了一个静态图,而左边的图是交互式的并且更详细,所有这些都没有对语法进行任何重大更改。3.一点魔法魔法命令是JupyterNotebook中的一组方便的函数,旨在解决标准数据分析中的一些常见问题。您可以使用%lsmagic命令查看所有可用的魔法命令。所有可用魔法函数列表魔法命令有两种类型:行魔法和单元魔法,前者以单个%字符为前缀,并在一行输入上运行;后者与两个%%前缀关联,并且对多行输入进行操作。如果魔术函数的选项设置为1,则无需键入初始%即可调用它。让我们来看看一些在常见数据分析任务中可能有用的神奇函数:%pastebin%pastebin将代码上传到Pastebin并返回其url。Pastebin是一种在线内容托管服务,我们可以在其中存储源代码片段等纯文本,然后与他人共享url。事实上,Githubgist也类似于Pastebin,虽然它有版本控制。我们假设有一个python脚本file.py包含以下内容:在JupyterNotebook中使用%pastebin生成一个pastebinurl地址。%matplotlibnotebook%matplotlib内联函数用于在Jupyter笔记本中呈现静态matplotlib图。尝试用笔记本替换内联部分,您可以轻松获得可缩放和可调整大小的图。确保在导入matplotlib库之前调用该函数。%matplotlibinline与%matplotlibnotebook%run%run函数在笔记本中运行python脚本。%%writefile%%writefile会将单元格的内容写入文件。此处的代码将写入名为foo.py的文件并保存在当前目录中。%%latex%%latex函数将单元格的内容呈现为LaTeX。它对于在单元格中编写数学公式和方程很有用。4.查找和消除错误交互式调试器(interactivedebugger)也是一个神奇的功能,但我把它单独归为一类。如果在运行代码单元时遇到异常,请在新行中键入%debug并运行它。这将打开一个交互式调试环境,它将带您到异常发生的地方。您还可以在此处检查程序中分配的变量值并执行操作。要退出调试器,请按q。5.打印输出也可以很漂亮如果你想为你的数据结构生成漂亮的表示,pprint是首选模块。它在打印字典或JSON数据时特别有用。让我们看一个使用print和pprint来显示输出的例子。6.使注释突出显示。我们可以在JupyterNotebook中使用信息提示/注释框来突出显示重要的内容或需要突出显示的内容。注释的颜色取决于您指定的提示类型。您需要做的就是将以下任何或所有代码添加到需要突出显示的单元格中。蓝色消息框:信息黄色消息框:警告绿色工具提示:成功红色工具提示:危险7.在一个单元格中打印所有输出假设您有一个JupyterNotebook单元格,其中包含以下代码行:仅打印最后一个输出是一个普通属性单元格的输出,对于其他输出,我们需要添加print()函数。事实上,我们只需在笔记本顶部添加以下代码片段即可打印所有输出。现在所有的输出都被一一打印出来了。恢复到原始设置:8.使用“i”选项运行Python脚本从命令行运行Python脚本的典型方法是:pythonhello.py。但是,如果您运行带有附加-i的相同脚本,例如python-ihello.py,它会提供更多优势。让我们找出来。首先,python不会在程序结束后退出解释器。这样,我们就可以检查程序中定义的变量的值和函数的正确性。其次,我们可以使用以下代码轻松调用python调试器,因为我们仍在解释器中:这会将我们带到异常发生的地方,然后我们可以处理代码。这个技巧的原始来源。(http://www.bnikolic.co.uk/blog/python-running-cline.html)9.自动注释代码Ctrl/Cmd+/会自动注释单元格中选中的行。再次点击组合键将取消注释同一行代码。10、能删除的是人,能恢复的是神。你有没有不小心删除了JupyterNotebook中的单元格?如果是,那么这是撤消此删除的快捷方式。如果您删除了单元格的内容,按CTRL/CMD+Z即可轻松恢复如果您需要恢复完全删除的单元格,请单击ESC+Z或“编辑”>“撤消删除单元格”结论在本文中,我列出了收集到的主要提示在使用Python和JupyterNotebook时。我相信它们会对您有用,您还将从本文中学到一些东西,以便轻松编码!
