当前位置: 首页 > 后端技术 > Python

低分《鹿鼎记》辣眼睛?用数据告诉你,韦小宝哪位老婆最接近

时间:2023-03-25 23:41:42 Python

CDA数据分析师出品:米卡数据:振达【攻略】近日,张一山主演的新版《鹿鼎记》被骂上了热搜。原本因为在《余罪》中的出色表现,观众对张一山饰演的韦小宝一角的期待值也不低。然而开播没几天,口碑就一落千丈,豆瓣2.6分,直接坐上了史上最差的《鹿鼎记》版。不仅演技夸张被网友诟病,剧情更是走火入魔。原著中聪明的韦小宝,被张一山惊艳演绎成“猴精猴相”的猴戏。新版《鹿鼎记》真的那么烂吗?在《鹿鼎记》的各种版本中,哪个版本最经典?七个老婆中,韦小宝最喜欢哪一个?_今天我们就用数据好好看看。__01。_算一算《鹿鼎记》过去的各个版本,哪个版本最受欢迎?作为金庸闭笔前的最后一部作品,从1984年至今,各种版本的《鹿鼎记》层出不穷。细数以往《鹿鼎记》的各种版本,哪一个版本最受欢迎呢?下面我们对比一下大家比较熟悉的七个版本,分别是:1984年的梁朝伟版、1992年的周星驰版、2000年的陈小春版、2008年的张卫健版、14年的黄晓明版、20年的韩东版年,还有张一山的版本。《鹿鼎记》豆瓣评分对比从豆瓣评分来看,2000年以前的梁朝伟版、周星驰版、陈小春版、张卫健版口碑都不错,评分都在7分以上。尤其是1998年,陈小春的版本更是拿到了8.8分的最高分,成为无数观众心中的经典。随后,黄晓明和韩东的版本在5、6分左右徘徊。张一山版最低,只有2.6分。各个版本的评价分布《鹿鼎记》然后我们分析一下各个版本的评价,可以看到陈小春获得了最高的好评,达到了92%。张一山版则是另一个极端,差评高达92%。_02、_最差《鹿鼎记》豆瓣2.6分有错吗?那么史上最差的《鹿鼎记》豆瓣评分2.6,有错吗?张一山版《鹿鼎记》评价星分布我们分析爬取了500个豆瓣评分数据,可以看到87.2%的人给了1星,差评占绝大多数。词云图对比:陈小春版VS张一山版大家都在吐槽什么?我们对比了评分最高的《鹿鼎记》版本、陈小春版本和张一山版本最低的评价词云,可以看出大家对陈小春版本的评价集中在“经典”和“经典”两个方面。“好看”青衣水儿的夸奖。在对张一山版本的评价中,“夸张”“不堪”“逼格”“丑陋”等吐槽不绝于耳。评测的讨论点也主要集中在张一山的演技、夸张、剧情等多个角度。_03、_数据分析告诉你韦小宝和哪个老婆最亲?《鹿鼎记》的看点之一就是韦小宝的七个漂亮老婆。在之前的版本中,七位太太个个都很漂亮,各有特色,让人过目不忘。陈小春版《鹿鼎记》韦小宝和七位太太,不过新版的七位太太让网友们瞎喊,分不清彼此。新版《鹿鼎记》韦小宝的七个老婆那么韦小宝的七个老婆中,哪一个最亲呢?我们爬取了《鹿鼎记》整本小说的txt文件,用数据分析告诉你。首先,我们这样定义亲密度指数:小说中有不同的段落,我们用韦小宝和他的七个妻子在同一个段落中一起出现的次数作为亲密度指数。假设韦小宝和双儿同段出现,那么韦小宝和双儿的亲密度+1。整体实现流程如下:小说网爬虫数据清洗整理数据可视化探索Apriori关联分析1.小说网爬虫我们选择金庸作品集网站进行数据抓取,网址为:http://jinyong.zuopinj.com/爬虫思路:先请求小说首页的url,获取每章详情页的url;然后请求详情页的url并解析提取文本数据;将捕获的数据按章节保存在本地txt文件中。实现代码:#importlibraryimportrequestsimportparselimportosfrommultiprocessing.dummyimportPoolclassJinyongSpider(object):def__init__(self):self.headers={'User-Agent':'Mozilla/5.04;Win104;WindowsNTAppleWebkit/537.36(KHTML,LIKEGECKO)chrome/86.0.4240.198safari/537.36'}#保存子页面的urlself.titles=[]self.chapter_links=[]#createafolderifos.path'../鹿鼎记'):os.mkdir('../鹿鼎记')defparse_home_page(self,url='http://jinyong.zuopinj.com/3/'):#发起请求response=requests.get(url,headers=self.headers)#修改编码response.encoding=response.apparent_encoding#解析数据selector=parsel.Selector(response.text)ath#获取数据xdorselect/class="classivstitle="book_list"]/ul/li/a/@title').extract()chapter_link=selector.xpath('//div[@class="book_list"]/ul/li/a/@href').extract()#追加数据self.titles.extend(title)self.chapter_links.extend(chapter_link)defparse_detail_page(self,zip_list):print(f'Crawlingnovelsinchapter{zip_list[0]}!')#发起请求questquest.response=get(url=zip_list[1])#修改编码response.encoding=response.apparent_encoding#解析数据selector=parsel.Selector(response.text)#获取数据idect(@dorivel/noval_text.="xhtmlContent"]//text()').extract()novel_text='n'.join(noval_text)#用open(f'../Deerdingji/{zip_list[0]}.txt','w',encoding='utf-8')asfp:print(f'写入{zip_list[0]}章节')fp.write(noval_text)fp.close()print('写入完成,关闭文件!')defmultiprocees_function(self):#实例化线程,一个进程开启多个线程pool=Pool(10)zip_list=list(zip(self.titles,self.chapter_links))#map操作(每个list元素映射到get_video_data函数,parse_detail_page函数接收列表元素)pool.map(self.parse_detail_page,zip_list)#关闭线程池pool.close()#主线程等待子线程结束后才结束pool.join()if__name__=='__main__':#实例化对象jinyongspider=JinyongSpider()#获取第一章页面链接jinyongspider.parse_home_page(url='http://jinyong.zuopinj.com/3/')#通过线程池运行爬虫jinyongspider.multiprocees_function()爬取的数据保存在本地,格式如下:2、数据清洗与排序使用pandas对数据进行预处理。具体处理思路如下:首先,将爬取到的小说文本进行分段保存在列表中;遍历列表以匹配每个名称是否在每个段落中。如果出现则标记为T,否则为F。处理后的格式如下:3.数据可视化将处理后的数据导入SPSSModeler进行后续的数据挖掘分析。以下是部分分析结果:韦小宝在文章段落中的出现次数经过预处理,文章段落共有7880条记录,其中关键词“韦小宝”出现了4981次,占比63.21%。从链接关系图中可以看出韦小宝与七个妻子的亲密度,双儿亲密度最高,韦小宝同段出现284次。其中:双儿、君竹、阿可、方毅强连;苏权适度连接;建宁公主和曾柔的关系很弱。人物之间的链接关系图我们还可以画出两个人物之间的链接关系图。4.Apriori关联分析Apriori算法是一种常用的挖掘数据关联规则的算法,可以用来找出数据值中频繁出现的数据集。在Apriori算法中,支持度表示数据集中出现的若干关联数据占总数据集的比例,置信度反映了一个数据出现后另一个数据出现的概率,或者说数据的条件概率。下面是在定义为最小条件支持度3%,最小置信度30%的参数下运行的结果:从分析结果可以看出,双儿出现时,韦小宝出现的概率为79.77%会出现。这发生在4.5%的数据集中。结论现在就这些。最后想说的是,对于翻拍来说,摆在面前的这么多珠宝,难免会被拿来比较。正因如此,我们更应该思考如何拍出与以往不同的亮点。而不是一味地模仿不好。经典之所以成为经典,是因为难以被超越。还是希望以后能看到更好的国产翻拍。