当前位置: 首页 > 后端技术 > Python

提高EDA(探索性数据分析)效率的3个简单工具

时间:2023-03-26 17:13:40 Python

数据对当今每个行业都很重要,几乎每个公司都在收集数据并使用它来制定数据驱动的业务决策。此过程中最重要的步骤之一是分析数据。有许多专门用于数据可视化的python库。比如Matplotlib、Seaborn等,但是他们只提供了图标功能,如果我们要做EDA,就需要自己手动写代码。在本文中,我们将介绍3种工具,它们可以使我们的探索性数据分析几乎自动化。1.pandas_profilingpandas_profiling可以扩展DataFrame的功能,通过使用df.profile_report()函数,可以进行快速的数据分析,提供数据集的描述性总结。它为数据集提供报告生成功能,并为生成的报告提供大量自定义函数。要安装pandas_profiling,请在您的jupyternotebook中运行以下命令。!pipinstallpandas_profiling从pandas_profiling导入ProfileReport并运行以下代码。df是数据集的名称。importpandas_profilingfrompandas_profilingimportProfileReportprofile=ProfileReport(df,explorative=True,dark_mode=True)profile.to_file('output.html')上面的代码会生成一个报告,报告会保存在与运行时相同的文件夹中笔记本。该报告包含数据集的详细描述性摘要,并支持交互式自定义分析。以下是生成的报告中的一些片段屏幕截图。DataFrame总体概览单个变量信息2.D-TaleD-Tale是一款结合Flask后端和React前端开发的工具。它可以让您查看和分析Pandas数据结构,并与Notebook和python/ipython终端无缝集成。目前该工具支持DataFrame、Series、MultiIndex、DatetimeIndex和RangeIndex等Pandas对象。使用下面的代码安装dtale。!pipinstalldtale下面的代码会返回一个表格,可以直接和表格交互进行数据分析操作。包括数据清理、突出异常值、检查缺失值、执行相关性检查、借助图表进行分析等。importdtaledtale.show(df)执行以上代码后,在table选项卡中打开相应选项进行数据分析操作,如下图:3.dataprepDataprep是一个开源的Python库,可以自动化探索性数据分析过程.(这个在我们之前的文章中已经介绍过了)!下面的代码pipinstalldataprep将自动生成EDA报告。可以在报告中单独检查每个变量的统计数据。并提供多个图表供深入分析。fromdataprep.edaimportcreate_reportcreate_report(df)上面的代码片段只是dataprep工具提供的部分内容。Dataprep还可以用于NLP,因为它提供了检查词频等选项。总结本文简要介绍了3款非常好用的数据可视化和分析工具,可以自动帮助我们用很少的代码进行快速详细的数据分析。希望这三个工具能对你有所帮助。https://www.overfit.cn/post/6697662e5c1a4c1c82ddd50cbef445c0作者:TamannaSharma