当前位置: 首页 > 后端技术 > Python

数据可视化【从编程初学者到绘图高手】:五、数据分布

时间:2023-03-25 22:02:41 Python

参考来源:Vitu.AI本篇我们将学习如何看待数据的分布,其中比较常用的是直方图和密度图设置你的笔记本,让我们在开始时像往常一样设置它。importpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsprint("settingcomplete")选择数据集这次我们将使用Iris数据集,Iris是常用的分类实验数据集,由Fisher收集,1936年,Iris是也叫鸢尾花数据集,是多变量分析的数据集。数据集包含150个数据样本,分为3类,每类50条数据,每条数据包含4个属性。可以通过萼片长度、萼片宽度、花瓣长度和花瓣宽度这四个属性来预测鸢尾花属于三种(Setosa、Versicolour、Virginica)中的哪一种。iris利用iris的特性作为数据源,常用于分类操作。该数据集由3种不同类型的鸢尾花的50个样本数据组成。其中一个物种与其他两个物种是线性可分离的,而后两个是非线性可分离的。数据集包含4个属性:Sepal.Length(萼片长度),单位为cm;Sepal.Width(萼片宽度),单位为cm;Petal.Length(花瓣长度),单位为cm;Petal.Width(花瓣宽度)单位为厘米;物种:IrisSetosa(山鸢尾)、IrisVersicolour(杂色鸢尾)和IrisVirginica(弗吉尼亚鸢尾)。下载并上传点击此处下载数据集,然后将csv文件上传到Vitu的数据集空间接下来,我们使用pandas加载这个文件:#文件路径toreadiris_filepath="iris.csv"#读取文件放入变量iris_datairis_data=pd.read_csv(iris_filepath,index_col="Id")#打印datairis_data.head()直方图的前5行让我们创建一个直方图来查看花瓣宽度的分布,使用sns.distplot函数#Histogramsns.distplot(a=iris_data['PetalLength(cm)'],kde=False)densitymap接下来我们要探索的是密度图内核密度估计(KDE)。如果你不熟悉KDE,你可以粗略地把它想象成一个平滑的直方图。我们使用sns.kdeplot命令绘制#KDEplotsns.kdeplot(data=iris_data['PetalLength(cm)'],shade=True)二维密度图我们也可以使用sns.jointplot绘制二维密度图dimensionaldensitymap#2DKDEplotsns.jointplot(x=iris_data['花瓣长度(cm)'],y=iris_data['萼片宽度(cm)'],kind="kde")原文地址:数据可视化【来自编程绘图高手的新手]:5.数据分布