AO3是一个外网免费创作网站,全称ArchiveofOurOwn。它在Alexa世界排名第690位,是雨果最佳相关作品奖的获得者。作为一个非营利性的开源同人小说数据库网站,本站文章均为网友投稿,无验证机制。1月30日,网友“博君一笑”在AO3发表并连载同人图《下坠》,并同步上传微博,并设置了自己的警告。希望不能接受的人不要点开。几天后,这篇文章连载到12章,原微博文章还附上ao3网站和lofterapp的链接,引来了一大波波小CP的粉丝。26日,不少粉丝觉得cp文中含有侮辱性的字眼,无法接受这样的话,于是开始撕X,网传阵营和lof阵营开始排队,互相呼气,显示中华民族几千年的文化底蕴。事情继续发酵,最后惹上了某处,某处看到了,我X,原来是有这条漏网之鱼,才替他挡了。真是冤枉,但又不能说人家乱关,为什么呢?由于同人文大多取材于原著,读者将部分作品中的人物置于新的环境中,以展现自己与原作不同的观念,而大多数时候,这些观念最终会夹杂色情因素.看看我们下面对《下坠》的分析。这篇文章的完整解析代码可以在公众号后台回复:降序获取。本文不对代码进行详细分析,但是你可以在这两篇文章中学习到这段代码的知识:Python情人节超强技巧导出微信聊天记录生成词云Python识别文本情感就这么简单1.词频统计我们使用Python中的jieba分词和matplotlib模块对整篇文章进行词汇分析,提取出词频前20的词。结果如下:确实,涉及两位明星的话最多,其次是阿里姐(不知道是不是作者头像)。赞赞是个女性角色,难怪粉丝火爆。这样的分析似乎并没有透露出太多的内涵,我们再细化一下维度。从敏感性的角度来看,这个词频是什么样的?因为纯粹接受不了,所以做了个马赛克(如果你能猜到是什么字的话……嗯……建议多看天线宝宝):经过统计,共有20367个非-色情词汇,284个色情词汇。色情词的出现概率约为1.4%,也就是说每100个词中就会出现一个色情词。最后用词云来结束这部分:2.句型分析我们使用Lstm逐行分析整篇文章,看看这些句子所呈现的情感特征是否倾向于片面的。当度数大于0.7,或负信度大于0.7时,分别分为正分类和负分类。其他情况是中性的:结果如下:>>{'neg':988,'pos':332,'mid':471}否定句占55%,文章负面情绪较多。负面情绪只是衡量一篇文章的情绪倾向,并不能说明什么。下一步是识别句子的色情程度。同理,当概率置信度设置为大于0.7时,进行分类:得到的结果如下:>>{'porn':280,'not_porn':1511}1800句其中,280句涉及色情内容,概率高达16%。每100句大约有16个色情片断,《失乐园》可能愿意低头。说到这里,大家可能会觉得这部同人小说被举报是很正常的事情(虽然粉丝对某明星被当成女性角色很不满)。当然,如果大家有兴趣,也可以使用词法分析工具来分析文章中的攻防次数,很有意思,但是涉及到敏感词,这里就不展开了(逃避)。这篇文章的完整解析代码可以在公众号后台回复:降序获取。这是我们文章的结尾。如果你今天想要我们的Python教程,请继续关注我们。如果对您有帮助,请在下方点赞或观看。如果您有任何问题,可以在下方留言区留言。我们会耐心解答!欢迎关注公众号:Python实战宝典,更多Python实战教程等你来。Python实战可视化数据分析《下坠》
