当前位置: 首页 > 科技观察

让你快速提升数据分析能力的7件事

时间:2023-03-21 19:20:46 科技观察

想要让你的数据分析能力更上一层楼?本文可以帮助你形成一份“加速数据分析能力每日清单”。#1:PandasProfiling这个工具的优势是显而易见的。下面的动画是使用df.profile_report()简单方法的结果。亲自观看节目;使用此工具只需安装和导入PandasProfiling包即可。#2:使用Cufflinks和Plotly绘制熊猫数据大多数所谓的“有经验”的数据科学家或数据分析师都非常熟悉matplotlib和pandas协同作用。也就是说,他们可以使用.plot()函数快速绘制pd.DataFrame或pd.Series图像。有点无聊吧?就这样吧。如何制作交互式全景可缩放图像?袖扣可以做到!(由Plotly提供)在系统中安装袖扣!快速安装Cufflinks-只需在您喜欢的终端中更新即可。您可以观看下面的动画:好多了!请注意,唯一改变上述结果的是Cufflinks的输入和设置cf.go_offline()函数。剩下的只是将.plot()更改为.iplot()。.scatter_matrix()等其他函数可以实现漂亮的可视化效果:酷!任何想要做大量数据可视化工作的人都可以看看Cufflinks和Plotly的东西,有很多方法可以做到!#3:IPythonMagic命令IPython的Magics本质上是对IPython的一系列增强,叠加在Python语法之上。Magic命令有两种:一种是linemagics,以%为前缀表示,对一行输入代码进行操作;而cellmagics以%%作为前缀表示,并在多行输入代码上运行。以下是Magics的一些有用功能:%lsmagic:Everything。不妨先尝试一些传统但有用的方法。如果你只记得一个魔法命令,那可能就是它了。执行%lsmagic将显示所有可用魔法命令的列表:%debug:交互式程序调试这可能是最常用的魔法命令。我们中的大多数人都尝试过:程序员执行一段不断失败的代码。绝望的程序员写下20行类似print()的代码来输出每个变量的内容。然后,当程序员最终解决问题时,他将不得不返回并删除所有列出的功能。但现在不是了!遇到问题只要执行%debug,就可以执行任意部分代码:所以,总结以上:1.有一个函数,以一个列表为输入,对所有偶数求平方。2.运行函数,某处出错。但是找不到错误。3.当出现错误时,将%debug命令标记到函数中。4.让调试器显示x的值和type(x)。5.发现错误:6被当成了字符串!可以想象,这个命令对于越来越复杂的功能非常有用!%store:此命令也非常适合在笔记本之间传输变量。先说起因吧。程序员花时间清理了notebook中的一些数据,现在想在另一个notebook上测试一些功能,所以需要在同一个notebook中实现功能,放到另一个notebook中。使用%store存储变量并在任何笔记本中检索它们:%store[variable]存储变量。%store-r[variable]读取/检索存储的变量。%who:列出所有变量。曾经为变量赋值但忘记了变量名吗?不小心删除了分配给变量的单元格?使用%who,您可以获得所有分配的变量:%%time:魔法计时。使用此命令,您可以获得所需的所有时间信息。只需将%%time应用于任何可执行代码,您就会得到以下输出:24微秒。一般般。%%writefile:编辑单元格内容到文件。这是本文的最后一个命令。当你在notebook中写了一些复杂的函数或类别,想把它们从notebook中分离出来,保存在一个文件中时,这个命令就非常有用。只需在函数或其类别中添加前缀%%writefile,然后添加文件名即可保存:如图所示,可以直接将创建的函数存放在“utils.py”文件夹中,将函数导入到任何形式。能。其他笔记本也一样!(只要它们都在utils.py文件夹中的同一目录中)#4:Jupyter中的出色格式化这太棒了!基本上,Jupyter允许在降价单元格中进行一些HTML/CSS格式化。以下是一些常见的:忧郁和新潮:很花哨

热血和有点痛苦:Thisisbaaaaad!
多愁善感和冷静:Thisgooood!
This这是操作动画:当你想以笔记本的形式显示结果时,这些命令非常有用!#5:Jupyter的快捷键学习了键盘快捷键后,你可以使用命令面板:Ctrl+Shift+P.这个操作可以直接调出notebook中的功能列表,下面是一些基本的命令:Esc:使用这个快捷键可以直接切换到命令模式。这也是你用方向键在notebook中导航的方式。在命令模式下:?A和B:键入新单元格,向上移动([A]bove)或向下移动([B]elow)现有单元格。?M:标记现有单元格([M]arkdown)。?Y:更改现有单元格单元格到一个代码。?D,D:确认删除([D]确实[D]删除)现有单元格。输入:返回现有单元格的编辑模式。在编辑模式下:?Shift+Tab:显示用于在现有单元格中键入的Docstring(文档字符串)-长按快捷键可切换文档模式。?Ctrl+Shift+-:从光标所在位置分离现有单元格。?Esc+F:查找和替换没有输出的代码。?Esc+O:切换单元格输出。选择多个单元格:?Shift+向下和Shift+向上:向下或向上选择下一个单元格。我个人认为可以用演绎法来判断。?Shift+M:合并选定的单元格。?请注意,一旦选择了单元格,就可以批量删除/复制/粘贴/运行它们。#6:Jupyter(或IPython)每个单元多个输出这也很好。曾经想显示pandasDataFrame的.head()和.tail()吗?但是创建一个额外的代码单元来运行.tail()太麻烦了。不用担心,现在您可以显示所有需要的输出:fromIPython.core.interactiveshellimportInteractiveShellInteractiveShell.ast_node_interactivity="all"看,多输出的力量就在这里:小菜一碟#7:继续扩展自己使用RISE,Jupyter笔记本可以转换成一张张幻灯片的形式。最棒的是,笔记本还在手边,可以在演示演示文稿的同时实现实时编码!根据个人系统环境,可以通过conda或者pip安装RISE来使用这个工具:condainstall-cconda-forgerise///OR///pipinstallRISE现在可以点击新建按钮从中创建演示文稿笔记本: