我用Python爬取了4400条淘宝商品数据,总结发现了这些“潜规则”。项目内容本例选择产品类别:沙发。数量:100页4400件。筛选条件:天猫,销量从高到低,价格500元以上。该项目的目的是分析产品标题的文本,并将词云可视化。统计分析不同关键词对应的销售额。分析产品的价格分布。分析产品销售分布。分析不同价格区间产品的平均销售分布。分析产品价格对销售的影响。商品价格对销售额的影响分析商品数量在不同省市的分布商品平均销售额在不同省份的分布注:本项目仅以上述分析为例。项目步骤数据采集:Python爬取淘宝商品数据,对数据进行清洗处理文本分析:jieba分词、wordcloud可视化数据直方图可视化:barh数据直方图可视化:hist数据散点图可视化:散点数据回归分析可视化:regplot工具&模块工具:Anaconda的Spyder,本案例的代码编辑工具。模块:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn等。爬取数据,因为淘宝是反爬虫。虽然使用了多线程,修改了headers参数,但是还是不能保证每次都100%爬取,所以我加入了循环爬取,每次都爬取没有爬取成功的页面。直到成功抓取所有页面。注:淘宝商品页面为JSON格式,这里使用正则表达式解析。代码如下:datacleaning,processingdatacleaning,processing这一步也可以在Excel中完成,然后读入数据。代码如下:说明:根据需求,本例中只使用item_loc、raw_title、view_price、view_sales4列数据,分别分析region、title、price、sales。代码如下:数据挖掘与分析对raw_title列标题进行文本分析。使用stutteringtokenizer并安装模块pipinstalljieba:过滤title_s(listoflistformat)中每个list的元素(str),去掉不需要的。words,即去掉stopwords列表中的所有词:因为下面统计了每个词的个数,所以为了准确,过滤后的数据title_clean中每个list的元素都进行了去重,即每个title后面的词都是分段是唯一的。观察word_count表中的单词,发现jieba默认的词典不能满足需求。一些词(如可拆洗、不可拆洗等)被剪切,根据需要在词典中添加新词(也可以直接在词典dict.txt中添加或删除,然后加载修改后的dict.txt)。词云可视化需要安装词云模块。模块安装有两种方式:pipinstallwordcloudDownloadPackages安装:pipinstall包名包下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud注:下载的软件包放在Python安装路径下。代码如下:分析结论:组合和打包产品占比较高。从沙发材质来看:布艺沙发占比较高,多于真皮沙发。从沙发风格来看:简约风格最多,其次是北欧风格,其他风格依次为美式、中式、日式、法式等。户型方面:小户型占比比例最高,其次是大户型和小户型,大户型最少。不同关键词对应的销售额之和统计分析:比如“简单”这个词,统计产品标题中包含“简单”这个词的产品的销售额之和,即产品的销售额之和用“简单”的风格来计算。和。代码如下:可视化表df_word_sum中的两列数据,word和w_s_sum。(本例以销量排名前30的词作图)从图中可以看出:合并后的商品销量为***。从品类来看:布艺沙发的销量非常高,远超真皮沙发。从户型来看:小户型沙发销量最高,大户型次之,大户型最少。从风格上看:简约风最畅销,其次是北欧风,其次是中式、美式、日式等。可拆洗转角沙发销量可观,也深受消费者青睐。对商品价格分布的分析分析发现,有些数值偏大。为了让可视化效果更直观,这里我们结合自己的产品情况,选取价格在2万以内的商品。代码如下:从图表中可以看出,商品数量一般是随着价格呈阶梯式递减。价格越高,出售的商品就越少。以低价商品居多,500-1500的商品最多,1500-3000的商品次之,万以上的商品很少。1万元以上的商品,在售商品数量上相差不大。商品销量分布分析同样,为了可视化更直观,这里我们选择销量大于100的商品,代码如下:从图表和数据中可以看出,销量大于100的商品100仅占3.4%,其中销量100-200的产品最多,其次是销量200-300的产品。当销量在100-500之间时,产品数量随销量呈下降趋势,且趋势陡峭,多为低销量产品。销量超过500件的商品很少见。不同价格区间的商品平均销量分布代码如下:从图表中可以看出:1331-1680之间的商品平均销量最好,其次是951-1331之间的商品,售价9684元以上***。整体走势先涨后跌,但高点处于相对低价阶段。说明消费者购买沙发的需求更多处于低价阶段。1680元以上的价格越高,平均销量越低。商品价格对销售的影响分析同上。为了让可视化效果更直观,这里我们结合自己的产品情况,选取价格在2万以内的商品。代码如下:从图表中可以看出:总趋势:随着商品价格的上涨,其销量下降,商品价格对其销量的影响很大。价格在500-2500之间的少数产品销量很高,价格在2500-5000之间的大部分产品销量低,也有少数比较高,但是5000以上的产品销量很低,没有销量突出的产品。商品价格对销量影响的分析代码如下:从图表中可以看出:总体趋势:从线性回归拟合线可以看出,商品销量随着价格的增长呈上升趋势。大多数商品的价格都很低,销售也是如此。0-2万的产品销量高的只有少数,2万-6万的只有3个产品销量高,6万-10万的产品销量高,性价比最高。各省商品数量分布代码如下:从图中可以看出,广东最多,上海次之,江苏第三。特别是广东,数量远超江浙沪等地。商店占主导地位。江浙沪等地数量相差不大,基本相同。各省产品平均销量分布代码如下:扫描下方热力图二维码,关注技术栈微信公众号,回复“淘宝”下载“源码”
