当前位置: 首页 > 后端技术 > Python

用Python吃瓜王力宏

时间:2023-03-26 18:19:38 Python

大家好,我是程序员皮克。今天就来教大家用python吃瓜~这几天被王力宏的瓜刷屏,很多女性朋友都表示震惊和愤怒。我对王力宏的总体印象就是,高学历、流利的英语和满满的经济气息,他创作的很多好听的歌曲至今还流行于大街小巷。我没想到会有这样的行为。今天用Python抓取两方下方评论区的内容,绘制了词云图。Themaincodeisasfollows@retry(stop=stop_after_attempt(7))defdo_requests(uid,pageNum):headers={"cookie":"SCF=Anhuv5v0Lu8oFE06-PmKm-uqVmUQgSwrLYauTMNCvEmRH0iOd-jT0poB-pgkpX_aJsOYqZjgw_F8TAZ0SL_aE9Q.;_T_WM=32be9637e54d4f58408755d6f8100d5c;SUB=_2A25MueV4DeRhGeRN7lQY8ynEwziIHXVsRYswrDV6PUJbkdAKLRPSkW1NU7D9XCuoP6vJEUUVjb0HcSPigsLzxFaW;SSOLoginState=1639814440","user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/96.0.4664.110Safari/537.36"}url="https://weibo.cn/repost/L6w2sfDXb?&uid={}&&page={}".format(uid,pageNum)response=requests.get(url,headers=headers)returnresponse.textdefget_comment(html_data):html_text=BeautifulSoup(html_data,'lxml')comment_list=html_text.select("span.ctt")returncomment_listdefjieba_():stop_words=set([line.strip()forlineinopen("chineseStopWords.txt",encoding="GBK").readlines()])forwordin["Reply","Isthereany"]:stop_words.add(word)comment_list=[]withopen("comment_data.txt","r",encoding="utf-8")ascomment_data_list:forcommentincomment_data_list:comment_list.append(comment)text=",".加入(comment_list)word_num=jieba.lcut(text,cut_all=False)rule=re.compile(r"^[\u4e00-\u9fa5]+$")word_num_selected=[word_num中的单词,如果单词不在停用词中,andre。search(rule,word)andlen(word)>=2]returnword_num_selecteddefplot_word_cloud(text):#打开词云背景图cloud_mask=np.array(Image.open('gua_1.jpg'))#定义词cloud一些属性wc=WordCloud(#背景图片分割颜色为白色background_color='white',#背景图案mask=cloud_mask,#显示最大字数max_words=200,#显示中文font_path='KAITI.ttf',#最大尺寸max_font_size=100)text_=",".join(text)#词云函数x=wc.generate(text_)#生成词云图像image=x.to_image()#显示词云图像image.show()#存词云图wc.to_file('melon_1.png')为男主评论区生成词云图如下。看得出来,都是对男主的侮辱和怨恨。很多人要屏蔽男主和他前妻的帖子在下面的评论区,生成的词云如下。每个人都在鼓励前妻坚强起来,去面对生活,走出人生的低谷。你只是用python提取了很多关键字吗?有兴趣了解人们对这件事的看法的朋友也可以试一试。我的分享到此结束。喜欢就点赞关注吧~