当前位置: 首页 > 后端技术 > Node.js

爱奇艺《中国新说唱2020》弹幕分析,制作不完全数据大屏

时间:2023-04-03 17:07:55 Node.js

爱奇艺《中国新说唱2020》弹幕解析,数据不全做大屏《中国新说唱2020》如约而至,作为一个休闲伪嘻哈迷,还有淡泊世俗的梅根,绝对是必看的(单按X4爽~)。看视频的时候还在爱奇艺上做了个数据不全的大屏《中国新说唱2020》。感兴趣的朋友可以点这里https://www.fishhere.fun/rap先睹为快。获取爱奇艺弹幕想要做大屏,第一步就是获取数据。我们先来看看弹幕。其实这一步还是很简单的。网上有很多先行者,网友写的很清楚。您只需搜索即可找到获取方法。不过大多数人用的是python,我这里用的是node。打开web控制台,搜索“bullet”,点击z末尾的链接,找到我们要找的链接。链接中的最后一个数字每300秒递增1,直到视频结束。因此,遍历次数是视频时长除以300并向上取整。视频分为两集,所以要执行两次。使用node请求数据,这里使用eggjs框架。constres=awaitthis.ctx.curl(url,{//gzip:true,});是否支持gzip响应格式,默认为false。启用gzip后,HttpClient会自动设置Accept-Encoding:gzip请求头,并自动解压带有Content-Encoding:gzip响应头的数据。(摘自eggjs官方文档)我这里拿到的是一个buffer格式的文件。我以为如果我设置gzip为真,我可以得到解压后的文件,但事实并非如此。使用node的zlib解压文件,最终可以得到正确的文件。用xml2js制作词云来操作xml文件constxml2js=require('xml2js');constparser=newxml2js.Parser();parser.parseString(xmlData,function(err,result){console.log(result)})nodejieba提取关键词constnodejieba=require("nodejieba");letresult=nodejieba.extract(sentence,100);console.log(result){name:'吴亦凡',value:14263.133233106502},{name:'gai',value:9743.53957487934},{name:'GAI',value:8522.66232694265},{name:'哈哈哈',value:7698.80620601334},{name:'张靓颖',value:7492.465254428031name,{'value:836655{name:'凡凡',value:6632.650433502201},{name:'真',value:6022.47052337153},{name:'可爱',value:5797.61069876588},{',name:'feeling:4642.93663210213},{name:'饭哥',value:4554.811271148415},{name:'哈哈哈哈',value:4305.01735446552},{name:'giao',value:4273.0703677784095},{name:'Mencius',value:4055.0087039027}这个地方孟子坤变成了孟子,哈哈哈哈用echarts做词云importechartsfrom'echarts';import'echarts-wordcloud';chart.setOption({series:[{name:'Danmaku',type:'wordCloud',shape:'circle',textStyle:{normal:{color:'#927e55'}},data:this.data}]})统计品牌所有者让Kris=['吴亦凡','凡哥','凡凡子','凡凡']letJaneZhang=['张靓颖','张姐','姐姐','晶莹']letWilberPan=['潘玮柏','ShuaiPan']letGAI=['GAI','gai']遍历nodejieba提取的关键词,添加匹配词。使用echarts的折线图,颜色自由发挥。我觉得这里的配色还是蛮好看的。饭饭子的人气还是很高的。潘帅不在第一期,所以人气比较低。使用echarts的饼图Pie统计用户发送的弹幕数量。大多数人只会发弹幕,当然也有像我这样连账号都没有的长视频网站重度用户。统计用户数前10的弹幕用户使用echarts的柱状条。第一名发布了55条消息。弹幕点赞top10看来GAI的话深入人心。结论有兴趣的可以点此查看https://www.fishhere.fun/rap。上次使用的弹幕数据时间是2020年8月19日中午更新的,之后我会关注每一期,更新弹幕统计。写给网络小编的一句话,原文链接在这里https://yiluyanxia.github.io/...,无论如何还是感谢大家爬取我的文章。最后,感谢您的阅读。如果您有好的建议或意见,请回复我,谢谢。