一、项目背景案例类型:练习案例工具:Python、Qgis案例目的:通过实战学习,让大家综合运用基础知识,加深印象,巩固记忆。2.提问①通过餐饮数据分析选择最具竞争力的品类;②通过建立综合得分指标计算公式,选择最合适的地址。3、了解数据读取数据集后,使用info()和describe()方法查看数据的基本情况。data.info()——————————————————————————————RangeIndex:96398条目,0到96397数据列(共10列):类别96258非空对象行政区域96255非空对象评论数96398非空int64口味96398非空float64环境96398非空float64服务96398非-nullfloat64人均消费96398nullnullint64city96398non-nullobjectLng96398non-nullfloat64Lat96398non-nullfloat64dtypes:float64(5),int64(2),object(3)memoryusage:7.4+MBtotaldata96398,10个变量/特征,数据类型个数为float64(5),int64(2),object(3)。粗略观察发现数据明显存在缺失值,需要对数据进行清洗。4、数据处理使用data.isnull().values.sum()查看空值个数,共查出283个空值。由于空值占总数据的比例为283/96398=0.0029,删除空值并不会影响整体数据情况,所以这里采用删除空值的方法来处理空值。使用data.dropna()删除空值,然后使用data.isnull().values.sum()检查,结果为0。数据清洗后共有96255条数据。根据①餐饮数据分析选出最具竞争力品类的要求,选取相关变量,选取[‘品类’、‘口味’、‘环境’、‘服务’、‘人均消费’]5个变量。创建一个['Category','Taste','Environment','Service','PerCapitaConsumption']的DataFrame,过滤掉所有得分和消费都大于0的情况。因为根据实际情况,score和consumption为0的数据对此没有参考意义。引入“性价比”栏目。性价比的计算方法是将所有的分数相加,除以人均消费金额,计算出以分/元为单位的数值,代表单价得到的分数,代表其性价比。这样得到df如下,筛选出54886条需要的数据。df.info()————————————————————————————————Int64Index:54886个词条,0到96395数据列(共6列):类别54886非空对象口味54886非空float64环境54886非空float64服务54886非空float64人均消费54886非空int64性价比54886非-nullfloat64dtypes:4float6,int64(1),object(1)memoryusage:2.9+MB5.构建模型得到数据集df,选择'category'进行groupby分组,然后进行取均值并等待每个类别的值。使用箱形图检查异常值。箱形图使用异常值去除功能去除异常值。构造一个公式的因子来选择竞争类别,如“口味”、“人均消费”、“性价比”,然后通过异常值去除功能得到数据集。将三组数据集放在同一张图上。显然这是由于缺乏数据标准化。数据标准化后,设计计算公式,自己设计分数的计算公式。比如按照口味:人均消费:性价比=2:5:3的比例来计算。先合并df_kw_max_min、df_rj_max_min、df_xjb_max_min,通过pd.merge合并。计算最终得分表明“甜点”是最好的类别。使用Qgis创建与“人口密度”、“道路密度”、“餐厅密度”、“竞争产品密度”、“经度”和“维度”相关的数据集。如果数据集有空值,使用dealdata.fillna(0,inplace=True)填充0。观察数据发现‘人口密度’、‘道路密度’、‘餐厅密度’、‘竞品密度’'不在同一个纬度上,所以数据是标准化的。然后计算新列['综合指数']的值。按照“人口密度”:“道路密度”:“餐饮密度”:“竞品密度”=4:3:2:1的比例。6.数据可视化使用matplotlib作图,使用散点图。新增:使用bokeh绘制空间交互图形。结论:甜品店的位置是(121°472′E,31°301′N),(121°473′E,31°274′N),(121°493′E,31°244′N)等地方开最好。文渊网,仅供学习,侵删。学习Python的路上肯定会遇到困难,不要慌张,我这里有一套学习资料,包括40+电子书,800+教学视频,涉及Python基础、爬虫、框架、数据分析、机学习等等,别怕你学不会!https://shimo.im/docs/JWCghr8...《Python学习资料》关注公众号【蟒圈】,每日优质文章推送。