原文来自Python实用书籍:7行代码Python热图可视化分析缺失数据处理)你有没有遇到过处理大量数据的情况csvtable有时很难找到表中每一列丢失的数据,或者处理速度很慢?当然,如果你的Excel水平很高,这可能不是你的问题,但是如果你想可视化每列缺失数据的分布和数量怎么办?这时候就需要用Python来绘制热力图了!1、安装需要的第三方Python库在开始之前,我们需要安装如下Python包(库),打开你的CMD(Windows系统)/Terminal(macOS系统)输入如下命令:pipinstallseabornpipinstallpandaspip安装matplotlib其中pandas用于数据操作和处理,matplotlib和seaborn主要用于Python数据可视化,也就是绘制我们需要的热图。2.Python加载数据。现在开始使用pandas加载数据:importpandasaspdimportnumpyasnpimportseabornimportmatplotlibdata=pd.read_csv('training_data.csv')是的,pandas的使用就是这么简单,直接使用read_csv函数读取csv文件,你可以使用你需要的csv文件,也可以使用我们提供的:点击下载PythonTwitter机器人分类数据集中的training_data.csv,你只需要移动到currentcode文件夹下即可。3.Python构造热图使用Python构造热图来识别表中缺失的数据:seaborn.heatmap(data.isnull(),yticklabels=False,cbar=False,cmap='viridis')#heatmap,当数据中有空格时,值被标记为黄色,会标成黄色,cmap是颜色图集,viridis是蓝-绿-黄。另外matplotlib.pyplot主要是用来显示图片的。如果你需要了解更详细的seaborn参数文档,可以阅读这篇文章。整体代码如下(一共只用了7行)importpandasaspdimportseabornimportmatplotlibdata=pd.read_csv('training_data.csv')seaborn.heatmap(data.isnull(),yticklabels=False,cbar=False,cmap='viridis')matplotlib.pyplot.tight_layout()matplotlib.pyplot.show()我们的文章到此结束。如果你今天想要我们的Python教程,请继续关注我们。如果对您有帮助,请点个赞/在看,有什么问题可以在下方留言区留言,我们会耐心解答!Python实战宝典(pythondict.com)不只是一个合集欢迎关注公众号:Python实战宝典
