最近《都挺好》真的很火。它流行到什么程度?微博热搜霸榜,办公室评论无处不在,大强轻轻松松抓表情包,就连N年没追剧的“瘦屋”也开始沉迷其中,直呼真香。剧很精彩,但追剧界有一句话:“弹幕往往比剧更精彩”。为了让精彩继续下去,我终究还是忍不住(腾讯视频)的弹幕。图源微博画师@Mario小黄折腾了一番发现弹幕是动态加载JSON格式的,而且加载很有规律,每隔30秒(80-100)一次,多余的会隐藏。共爬取394452张弹幕(连雨露,平均每集8575张,每30s爬取一次),挖掘弹幕宝藏。弹幕基础盘概览爬取的源数据为红色:发现部分用户名丢失。由于这部分用户占比较小(仅0.61%),我们直接暴力去除这部分噪声。清理后,仍有117484位用户发送的弹幕392051条,平均每个用户发送的弹幕数为3.34条。再来看看每个人发的弹幕数量分布:显然,大部分用户比较信佛。71607名用户(占比60.95%)46期仅发过一条弹幕,严格遵循“爱就一个字,我只发一次”的弹幕发送原则。发送3条及以下消息的用户占比83.73%,贡献了133331条弹幕,占总条数的34.01%。另一方面,其余16.27%的用户贡献了65.99%的弹幕量。从这个角度来看,80/20法则更像是这里的27/20法则(20%的用户贡献了70%的内容)。谁在发疯似的发弹幕,谁在迷上弹幕弹幕发射器”?为此,我们筛选出累计发弹幕前十的用户,用微一操作(爬虫、清洗、分析均使用Python):danmu_counts=df.groupby('username')['commentid'].count().sort_values(ascending=False).reset_index()danmu_counts.columns=['用户名','累计发送弹幕数']danmu_counts.head(10)上一步我们知道平均每个人都会全场共发送3.34条弹幕,弹幕发送榜前十的弹幕均过千条。我们加上这个用户发弹幕涉及的集数,进一步看平均每集发的弹幕数。为了更直观,形象化一下:一个叫“@L”的用户带头,这就是毫无疑问的C位输出。在46集的电视剧中,他的弹幕血洗了32集,一共发射了2773条弹幕,平均每集86.66条。什么概念?一集电视剧时长约42分钟,也就是说,在看电视剧的时候,这个大佬还能保持每分钟2.06条的发送频率,坚持了32集。这里大家会有疑惑,认为他一定是用了很多“666”、“来了”等无意义的内容来霸榜,所以我把他输出的内容筛选出来做成词云图:这个..这位大佬输出的内容不仅紧跟剧情,而且文风多变,时而概括内容,时而嬉笑怒骂,时而抒发生活感慨,时而输出成诗。毫不夸张的说,比起普通的弹幕都要有内涵。我的膝盖开始发软了……只能大喊“山(频)抬头停,景行行行”。谁的弹幕最受欢迎(点赞数)根据每个用户的累计点赞数排序,获取弹幕点赞数:其中《追剧小奶鹅》平均每集发6条弹幕,而且每条弹幕都能获得4585个赞!除了大佬还有大佬吗?看剧经常能被他的弹幕刷屏,而且他的弹幕停留的时间比别人长,颜色也更艳丽。经核实发现,《小奶鹅追剧》竟然是“嫡系”:腾讯视频电视剧弹幕专业聊天,难怪好评如潮。而第二名是我们的老板“@L”。凭借着高频、稳定、持续的输出,累计点赞21.69万,平均每条弹幕点赞78.22。老大,请收下我的膝盖!高赞的弹幕是什么招数?①引兵我们单挑腾讯的引兵“小奶鹅”,是因为他几乎垄断了高赞弹幕TOP300。加持直线光环,点赞可能有膨胀之嫌,但不妨碍我们单独分析他的内容套路(其实小奶鹅的很多弹幕并不精彩,但都是他的毕竟自己的儿子):暴力可以用一句话来概括的话:战斗整齐而有力,明玉被感动和赞扬。②受到非指挥部队(non-directed)高度赞扬的朋友们在演唱会上获得了节奏名言“现场的朋友们,举起你们的手,让我看到你们的热情”的真传。“我认为XX是对的,请点击谢谢”,“喜欢XX!”套路是获得好评的法宝,另一个法宝是推动剧情的内容总结。弹幕视角的主角情感分析苏家弹幕关注度最高的人是谁要分析苏家弹幕关注度最高的人是谁,首先要识别定位基于关键词的剧中角色。这里有一个简单的苏家词典,用来识别弹幕说的是谁。54.31%的弹幕没有主观倾向,没有提到具体的苏家(可能会提到剧中的其他人,这里不考虑)。明玉居然抢了大强的宝座,以19.91%的弹幕提及率高居榜首,大强以16.16%的关注度紧随其后。emmm,不管是剧外的热度还是追剧时的弹幕槽,我觉得大强应该是最关心的吧!作为一个认真的追剧人,我开始查弹幕,发现很多剧明星在发弹幕的时候都在玩角色扮演。他们发弹幕的时候,总是在一开始就签上“苏明玉:”或者剧中的其他角色,仿佛是在代言。清理掉这些恶作剧的用户后,排行榜出现了新的变化:果然,除了其他人,大强以15.16%的关注度领跑全家,明玉又把两兄弟拉开了距离。距离,占比8.82%,明诚和明哲分别关注4.84%和4.28%。PS:明诚之所以关注度低,是因为很多弹幕骂人都不点名:),明哲对这个排名很失望。弹幕情绪分析看剧(弹幕)时,从最初的“老鼠过马路,大家喊打”到后来的“明诚懂事”,都能明显感受到观众对明诚的态度。从数据分析来看,明诚洗白成功了吗?这里我们调用百度的情感分析API,对每条评论的情感打分,用情感分数来验证上面的问题(分数在0-1之间,越接近0,负面倾向越强,越接近到1,情感越亲切)。调用方法很简单:#installtheaippackagefromaipimportAipNlp#去后台配置权限,获取相关ID和KEY。目前,API是免费且无限制的。SECRET_KEY'client=AipNlp(app_id,api_key,secret_key)#定义一个函数来爬取defsentiment_analy(text):data=client.sentimentClassify(text)sentiment=data['items'][0]['positive_prob']returnssentimentfortextindf['content']:try:sentiments.append(senti_analy(text))except:#print(text)sentiments.append('pass')df['sentimentsscore']=sentimentsscore中每个人的平均情绪得分的一集苏家,画个图(4个人把折线图看不懂,就只有委屈的弟弟):小能手”导致情绪评分急速下滑。11集的低谷正式印证了大强的“疯狂之作”,随后评分徘徊在0.38左右。随着“蔡根华宝贝”梗的出现,“讽刺”取代了指责,使得评分略有上升(情感评分很难准确判断高级黑讽刺)。阿尔茨海默病发作后,大强对明玉的喜爱度一举突破0.5,达到历史高峰,成功落地。②茗玉是原生家庭的牺牲品,也是靠自己成功的女强人。前期爱恨分明,情感评分一度飙升至0.59(高于所有其他角色)。网友对18集开始的买房纠纷表示强烈的同情(例:明玉不能像十年前一样不理他们吗?感情分只有0.041),导致明玉的相关感情分严重下滑,随后弹幕的主旋律还是以掌声和同情为主。③明诚的情感评分走势比较有意思。通过欺负他的妹妹,分数迅速下降。可以说是“大家喊打”,然后比分一路飙升,一度追上了明玉,主要是明诚的期待值本来就极低,但他这种宠妻的行为却得到了观众的认可。中期,真性情被骂到低谷。27季明诚的情绪评分再次超过0.5,原来是因为明诚要吓跑大强的一系列骚操作(尤其是广场舞)。后来,明诚悔过自新,走上了正轨。分数稳定在0.45左右,算是洗白成功了。看来,前期放低期待,中期随性做,后期逆风撕逼,最终还是会被观众接受。
