当前位置: 首页 > 后端技术 > Python

数据可视化【从编程小白到绘图高手】:4.散点图的秘密

时间:2023-03-26 16:09:08 Python

参考来源:Vitu.AI在上一篇文章中,您已经学习了如何绘制直方图和热图。接下来,让我们了解散点图。散点图是研究两个变量之间关系的最佳工具。像往常一样在开始时设置您的Let'ssetnotebook。importpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsprint("settingcomplete")选择数据集。在本文中,我们将使用不同人群的数据来购买保险。为什么有些人比其他人更愿意购买保险?点此下载数据集,用excel打开如下:数据栏含义age:主要受益人年龄sex:保险合同人性别bmi:体重指数,提供相对于身高衡量的指标说体重是重还是轻孩子:有多少孩子吸烟者:你抽烟吗?地区:地区收费:Premium我们把csv文件上传到Vitu的数据集空间。接下来,我们使用pandas加载这个文件:#文件的路径到readinsurance_filepath="insurance.csv"#将文件读入变量insurance_datainsurance_data=pd.read_csv(insurance_filepath)是时候检查数据了。我习惯打印数据集的前5行insurance_data.head()散点图Debut让我们使用sns.scatterplot创建一个新的散点图sns.scatterplot(x=insurance_data['bmi'],y=insurance_data['charges'])这个散点图可以显示身体质量指数bmi和premiumcharges有很好的相关性。体重指数高的投保人往往会购买保额较高的保险。这也很好理解。一般来说,身体质量指数高的人患病的风险更高。让我们用回归来量化它。,将命令改为sns.regplotsns.regplot(x=insurance_data['bmi'],y=insurance_data['charges'])带颜色分类的散点图我们也可以用带颜色分类的散点图看两者之间的关系三个变量针对上述研究的数据集,我们来看看吸烟对身体质量指数和premiumsns.scatt的影响erplot(x=insurance_data['bmi'],y=insurance_data['charges'],hue=insurance_data['smoker'])这个图很有意思,可以看出吸烟者支付的保费比不吸烟者多,我们用sns.lmplot来看一下sns.lmplot(x="bmi",y="charges",hue="smoker",data=insurance_data)你会发现回归完成后,斜率吸烟者的回归线比不吸烟者陡峭的程度,说明吸烟者的体重指数与保费的相关性更强。在吸烟者中,身体质量指数较高的人支付的保险费较多。Dana]:4.散点图的秘密