当前位置: 首页 > 后端技术 > Python

用Python分析淘宝2000安全套,得出这些有趣的结论

时间:2023-03-26 17:18:37 Python

到现在,我们的淘宝教程已经写到第四篇了,前三篇分别是:第一篇:Python模拟登录淘宝,详细讲解How使用请求库登录淘宝PC。第二篇:淘宝自动登录2.0,加入cookie序列化,教大家保存cookie。第三篇:Python爬取淘宝商品避孕套,手把手教你如何爬取淘宝PC端商品信息。今天我们就来看看淘宝系列的第四篇吧。我们在上一篇文章中爬取了淘宝数据,但没有做数据分析。所以今天的文章就是教大家如何分析数据,得出一些有用的结论!Python语言相对于其他语言有哪些优势?朱哥认为数据分析和人工智能是两大领域,这两个方向的需求会逐渐增加,所以想学Python但不知道学哪个目标的同学可以考虑往这两个方向发展!1.Analysis目标数据分析在我们需要清楚的知道我们要分析什么之前,也就是首先要搞清楚我们的目标。在公司里面,可能是公司的财报,用户增量变化,产品热度,一些报表等等。那么我们今天的目标是什么?一起来看看:安全套标题高频关键词关系分析,安全套标题高频关键词与商品数量关系分析,安全套标题高频关键词与平均销量关系分析,以及分析安全套标题中的高频关键词与平均售价之间的关系。安全套产品价格区间分布关系分析安全套产品销售区间分布关系分析安全套产品价格区间与平均销量关系分析安全套商家数量全国分布关系首次爬取的2500个淘宝商品(默认排序)不代表淘宝上所有安全套产品!2.分析与实现有了明确的目标之后,我们就要开始技术选型了。首先,数据处理的库很容易确定。基本上就是numpy和pandas这两个必备的库,所以大家首先要确定这两个库已经安装好了。那么数据可视化库呢?这么多可视化库如何选择?如果你不知道如何选择,朱哥给你推荐:国人开发的可视化库pyecharts,在下面的文档中寻找你想要的图表类型即可。中文文档:https://pyecharts.org/#/zh-cn...源码地址:https://github.com/pyecharts/...最后,技术选型完成后,我们就可以开始正式的了代码分析起来。(分析题目会和上面的分析目标一一对应)0.数据清洗在我们分析数据之前,我们需要对数据进行清洗。因为从淘宝爬取的数据不是标准数据,比如:商品销量,爬取到的数据是:25000+人付费,我们需要将其转化为:25000(整数),方便后面处理!我们先来看一下从淘宝爬取的原始数据,看看需要清洗哪些数据。根据用库的经验,朱大哥认为有两列数据需要清洗:1.销售量转为整数2.地区转为只包含省份。让我们看看如何清理它的代码!可以看到最后朱哥又重新生成了一个excel文件,目的是为了不污染原来的数据,因为原始数据很重要,所以在以后的数据处理中尽量保留原始数据,并且没有必要做更多的备份。多余的!1、安全套标题分析清洗完高频关键词数据后,我们就可以开始分析了。分析标题中的高频关键词是老生常谈的过程,即先用jieba分词,然后统计词频,最后生成词云图。相信经常看朱哥的同学一定会看腻的。这种小功能闭着眼睛都能搞定。十几行代码就够了。我们来看看效果图。分析结论:从整体来看,商家名称偏爱“情”字。从物质上看,尿酸最多。从功能上看,粒子和线程比较多。ps:不要问朱哥你最喜欢哪个字,求一拖再拖。2.分析安全套标题中的高频关键词与产品数量的关系。上面我们只看到了哪些功能比较受欢迎。如果我们需要查看特定数据怎么办?我们统计一下包含这些高频关键词的产品数据有多少。代码解释在图片下方,下同!我们取频率最高的20个关键词,然后遍历所有数据的标题是否包含该关键词。如果是这样,关键字的值将为+1。来看看生成的直方图效果吧!分析结论:包含“兴趣”一词??的产品有1150个,占总数的46%(2500+)。前三名分别是:趣味、尿酸、颗粒ps:朱哥有一个问题想请教各位老司机:这个一次性用品是怎么用的?3.分析安全套标题中的高频关键词与平均销量的关系。这个分析很有意思,相当于用户更喜欢安全套的什么功能或材质。高频关键词和平均销量分析数据的实现方法也是遍历所有数据的title,如果包含关键词,则将这条数据的销量放在关键词的值中(一个列表),统计后完成后对每个关键词取值取平均值,最后根据平均销量排序。来看看效果吧!分析结论:线程功能的平均销量最高,大家最喜欢的功能平均销量前三的分别是:线程、颗粒、秒杀小号居然榜上有名,哈哈ps:很多同学问:为什么不超薄?超瘦对我来说很棒,但我的女朋友呢?4.分析安全套标题中的高频关键词与平均售价的关系。分析完大家喜欢的功能,这些功能的价格如何呢?安全套哪些功能比较贵?高频关键词与平均售价的关系分析原理与上述类似。使用相同的方法,但将原始销量替换为价格。一起来看看效果图吧!分析结果:可以看到前排的三项基本都是材质,凝胶,透明,一次性。这三样东西的平均价格是最贵的,超过了100大洋。司机用过,和一般的有什么区别?5、分析安全套的价格区间分布关系。产品的标题和功能就差不多完成了。让我们分析一下价格!朱哥人为把价格分为:'0-20','21-40','41-60','61-80','81-100','101-120','121的9个区间-150'、'151-200'、'over200',然后对数据进行切割、统计、排序,最后分别生成直方图和饼图。分析结论:价格区间在21-40的产品最多778个,占比约31%。100以内和100以上的产品比例大概是7:1ps:没想到100多的有这么多。请问200元的安全套是什么感觉?6、分析安全套的销售区间分布关系。分析完价格,当然还要分析销售区间。销售区间分布分析的实现原理:认为是一个销售分区,大致可以分为:‘1000以内’,‘1000到5000’,‘5000到10000’,‘10000到50000’,'5万到10万','10万多',这六个区间,然后和上面一样进行统计,排序,可视化。分析结论:销量低于1000辆,占比90%左右,销量超过10000的车型只有10款,可见销量超过100000ps的爆款车型寥寥无几:我想知道销量超过10万个的安全套产品信息有哪些?关注朱哥微信公众号“裸睡猪”回复:爆款安全套,你可以看看!7.分析安全套价格区间与平均销量的关系。如果您是避孕套销售商,并且您推出了一款新的避孕套,您是否想知道应该设定什么价格才能获得更高的销量?这时候我们就可以通过分析价格与产品销量之间的关系,用实际数据来定价,这也是数据分析的价值之一。商品价格区间与平均销量关系分析的实现原理是:使用pandas自动分区将价格分成12个分区,然后对销量数据进行分组平均,可视化后看效果。分析结论:销售均价在31.9-39区间最高,10元以内成交893件。销量实际上是第二高的。对经销关系的名称、价格、销量进行了分析。最后,我们还分析了营业地点的数据。分析的目标是统计全国各省安全套商家的数量,然后做热图和直方图。统计商户数量比较简单,因为我们之前清理数据的时候只保留了省份数据,所以直接用value_counts()就可以得到想要的数据,看看效果如何!分析结论:安全套商家前三名:广东、上海、浙江ps:贵州周边都有安全套商家,为什么没有?跟地理有关系吗?9、全国避孕套商家平均销量的关系分析分析完商家数量,我们再来看看各省的平均销量。商家全国平均销量关系分析的实现原理:我们新建一个数据透视表,对销量进行平均,然后进行排序,最后生成热图和直方图。分析结论:没想到山西39家商户的平均销量是1535。ps:为什么山西的平均销量第一?是什么原因?我真的想不通。3、小结通过以上数据分析,我们得到了一些有趣的结论:用户更喜欢线状、颗粒状、狼牙状等功能性凝胶、透明物质、免清洗。这三款均价最贵,超过100价格区间21-40的产品最多778,占比31%左右,1000以内销量最多,占比90%左右.前三名:广东、上海、浙江山西省平均销量最高。山西最高。综合以上分析结果,如果朱哥作为安全套商家,想推出一款产品,标题设置为线状、颗粒状、钉状,价格定在31.9-39元,这样可能更受欢迎。数据分析作为一把利刃,可以让你看到别人看不到的东西。如果使用得当,它可以成为您事业的重要支点!最后朱哥再给大家一个忠告:想学数据分析,一定要学好pandas!!!获取源码:关注微信公众号“裸睡猪”回复:分析安全套获取!