Gitee Ware
anaconda安装WordCloud命令
数据源基于Python的第三张库,即Douban.com的Top10的电影信息以及他们的一些电影评论信息(大约100个)。
准备攀岩信息,将其封装成dict字典。在连接到机器的MongoDB的帮助下,将真实数据插入数据库之前,然后使用MongoDB和Map_Reduce机制和协议机制来收集,组和总结数据。基于MongoDB,商店胶片和电视信息,和评论信息,同时分析电影的综合价值。
本部分可以参考Gitee仓库:https://gitee.com/ccuni/pymongo-douban-comment-analysis
这里
流程信息首先,将原始DataFrame的胶片评论信息转换为可以插入MongoDB的DICE词典
过程结果:
根据结果,10部电影中的平均得分为9.5分,仍然处于很高的水平。当然,这种情况没有实际意义,主要是熟悉MapReduce的基本用途
可视化
分析过程:
通过PymongoDB的MapReduce过程,Douban Top10膜评论差异的统计图最终如上图所示。
总而言之,对于Top10电影,除了得分,观看数字和其他指标外,得分差异率反映了电影和电视的影响,这意味着观众可以以较小的差异选择这部电影作为参考获得更好的观看体验。在同一时间,对于同行,您可以参考一些深层拍摄方法和绘图解释方法。
评论词云的结果如下图所示:
美丽的生活:
辛德勒的名单
这是两部电影的评论,这是1月21日之后的评论。在MongoDB的大力支持下,有关某个日期的文档数据已遍历。这样,我们可以感受到从去年到现在的电影影响的电影。
原始:https://juejin.cn/post/70949023386781439