CDA数据分析师作者:Mika数据:Zhenda后期:Mika【攻略】给我看数据,用数据说话!今天我们就来说说“农民工”的Python分析。近期,“打工仔”在朋友圈持续火爆。”表情包也席卷了整个网络,铺天盖地,到处唱着农民工的正能量语录。“累吗?累是对的。舒适是为富人保留的。早安,打工人!冷吗?冷是对的,暖是留给开车的人。早安,打工人!”相比以往带点“丧”的社畜梗,工薪族用意气风发、积极向上的心态对抗工作焦虑。这些农民工语录是自言自语-贬低,也是一种解压生活本质的心态,迎接每一天的每一份新工作之前各个平台都在讨论农民工的话题,我们也从中得到了一些启发,今天我们主要来分析一下B站上“打工仔”的相关视频,看看为什么这6625个视频背后,“打工仔”的表情包突然刷网,我们使用python获取,技术分析过程分为以下三个步骤:网络数据获取,数据读取和数据清洗,数据可视化分析,爬虫的部分代码暂时省略,f先导入分析需要的包,读入数据集,原始数据集一共包含6625个样本,7个字段。字段含义分别为:分区标签、视频标题、上传时间、浏览量、弹幕数、up主、视频url。01.数据读取导入包importnumpyasnpiimportpandasaspdimportmatplotlib.pyplotasplt读取数据df=pd.read_excel('./data/B站10-28.xlsx')df.head()print(df.形状)(6625,7)02。数据预处理这部分我们对原始数据进行初步处理,包括:去除重复值view_num和danmu:单位转换过滤数据处理后的数据如下:deftransform_unit(x_col):"""功能:转换单位ofanumericvariable"""提取值s_num=df[x_col].str.extract('(d+.d)').astype('float')提取单位s_unit=df[x_col].str.extract('([u4e00-u9fa5]+)')s_unit=s_unit.replace('万',10000).replace(np.nan,1)s_multiply=s_num*s_unitreturns_multiply去重df=df.drop_duplicates()删除列df.drop('video_url',axis=1,inplace=True)变换单元df['view_num']=transform_unit(x_col='view_num')df['danmu']=transform_unit(x_col='danmu')过滤时间df=df[(df['upload_time']>='2020-09-01')&(df['title'].astype('str').str.contains('Worker'))]df.head()03.数据可视化分析首先导入需要的包,其中jieba用于中文分词,pyecharts用于绘制动态可视化图形,stylecloud包用于绘制词云图。关键部分代码如下:importjiebafrompyecharts.chartsimportBar,Line,Pie,Map,Scatter,Pagefrompyechartsimportoptionsasoptsfrompyecharts.globalsimportSymbolType,WarningTypeWarningType.ShowWarning=False01可以看到“workerPeople”相关视频最早出现在2020年9月5日,第一个月并没有引起太大的水花。一个月后,随着关于打工的表情包逐渐走红,B站上的相关视频也火了起来。10月16日,up主“老墨鱼艺人”的《加油!打工人!》播放量突破350万。几天后的10月22日,up主“三鹿有毒”的视频《早安,打工人!》加入了各种农民工的精彩语录,同时配上神奇的画面和声音,直接炸站。B、视频播放量已超过913万。随后,“打工”视频如雨后春笋般涌现,仅10月27日就发布了292条视频。time_num=df.upload_time.value_counts().sort_index()time_num[:5]2020-09-0512020-09-0812020-09-0912020-09-1212020-09-131名称:上传时间,数据类型:int64条形图line1=Line(init_opts=opts.InitOpts(width='1350px',height='750px'))line1.add_xaxis(time_num.index.tolist())line1.add_yaxis('',time_num.values.tolist(),markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_='min'),opts.MarkPointItem(type_='max')]))line1.set_global_opts(title_opts=opts.TitleOpts(title='workHuman视频发布趋势图',pos_left='40%'),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate='90')),visualmap_opts=opts.VisualMapOpts(max_=int(time_num.max()),is_show=False),)line1.set_series_opts(linestyle_opts=opts.LineStyleOpts(width=3),label_opts=opts.LabelOpts(is_show=False))line1.render()02从视频中不同分区的视频发布数量partition从图中可以看出,居住面积以56.6%的比例占据半壁江山。03各区视频发布量各区视频发布量在生活区中也表现突出,共计1393万条。04Top10播放量最高的视频那么哪些“打工”视频的播放量最高呢?我们分析整理出了点击量前十的视频,播放量最高的视频是up主“三鹿有毒”的《早安,打工人!》。截至发稿,浏览量已达913万。第二位是up主“魔域老艺术家”的《加油!打工人!》,截至发稿播放量已达357万。下面我们就分析一下播放量第一和第二的“打工人”视频的弹幕,看看大家在讨论什么。05早安,工人们!弹幕词云弹幕中出现最多的是“眼泪”和“工人”两个词。其中,魔性十足的“叶娘是河南人”也引起了不少弹幕。恶魔狗,热情的语气也很吸引人,让人忍不住说一声“早安,工人!”06《加油,打工人!》弹幕词云“加油”“打工”“真实”都是合适的高频词,再加上最近二次创作经常用的卡通《校园小子》,很有味道《文艺复兴》07打工标题词云最后,我们也整理了打工视频中出现的标题词云,发现除了“打工人”,还有很多正面的词,比如如标题中的“早安”、“晚安”、“加油”、“每天”,以及“快乐”、“优越”等词也经常在标题中出现。结论大家都不喜欢工作,但人人都是工人,虽然这些打工人的笑话中包含着一些自嘲和对生活压力的调侃,但最流行的那句“早安打工”依然蕴含着对新一天的期待,加油,打工人!
