当前位置: 首页 > 科技观察

Python数据分析实践,技巧数据集应用

时间:2023-03-13 07:11:39 科技观察

一、数据源本节使用Python的第三方库seaborn自带的数据集。tip数据集是餐饮行业收集的数据,其中total_bill是消费总额,tip是小费金额,sex是顾客的性别,smoker是顾客是否吸烟,day是消费的星期,time是聚餐的时间段,size是聚餐的人数。importnumpyasnpfrompandasimportSeries,DataFrameimportpandasapdimportseabornassns#导入seaborn库tips=sns.load_dataset('tips')#seaborn库自有数据集tips.head()2.小费金额和总消费金额之间是否存在相关性?性别、吸烟、星期几、就餐人数和小费数额之间是否存在一定关系?小费占小费总额的百分比是否服从正态分布?3.数据清洗tips.shape#数据集的维度(244,7)有244条数据7列。tips.describe()#描述性统计描述性统计结果如上所示。tips.info()#查看缺失值信息本例中没有缺失值。4.数据探索tips.plot(kind='scatter',x='total_bill',y='tip')#画散点图从图中可以看出,tip金额与tip金额之间存在正相关关系消费总额。importnumpyasnpfrompandasimportSeries,DataFrameimportpandasaspdimportseabornassns#importseaborn库tips=sns.load_dataset('tips')#seaborn库自带数据集tips.head()3.0896178343949052female_tip=tips[tips['sex']=='Female']['tip'].mean()#女性平均消费金额)#男女平均小费直方图从图中可以看出,女性小费的金额要小于男性。sun_tip=tips[tips['day']=='Sun']['tip'].mean()sat_tip=tips[tips['day']=='Sat']['tip'].mean()thur_tip=tips[tips['day']=='Thur']['tip'].mean()fri_tip=tips[tips['day']=='Fri']['tip'].mean()#每个日期的平均小费值s=Series([thur_tip,fri_tip,sat_tip,sun_tip],index=['Thur','Fri','Sat','Sun'])ss.plot(kind='bar')#日期平均小费直方图从图中可以看出,周六和周日的小费高于周四和周五。tips['percent_tip']=tips['tip']/(tips['total_bill']+tips['tip'])tips.head(10)#tips['percent_tip'].hist(bins)的百分比=50)#Tippercentagehistogram从图中可以看出,小费金额占总小费金额的百分比基本服从正态分布。