撰文:千山最近,有同事向我推荐了一个名为“原神玩家指标”的扩展脚本。相传只要安装这个脚本,打开B站任意一个视频,就可以识别出评论区说话的网友是不是元神玩家。出于好奇,我尝试了一下,发现它很有趣。《源神玩家指标》脚本信息截图@GreasyFork初衷只是“玩玩”这个《源神玩家指标》发布在GreasyFork这个专门为用户提供扩展脚本的论坛。作者laupuzxu在公开消息中表示,这款扩展脚本主要用于哔哩哔哩视频的评论区,安装了该工具的用户可以识别说话的网友是否是原神玩家。被标注为“原神选手”@B站示意图根据新闻中是否有原神相关内容,通过剧本符合要求的网友将在昵称后标注“原神选手”字样。由于作者自己也提到自己只是玩玩,所以不太擅长更新迭代,缺点始终存在。在后续的开发中,一批开发者在此基础上将这个“指标”发挥到了极致。.有的开发了多平台升级版,可以覆盖哔哩哔哩、微博、知乎。更多人跳出了游戏圈,做了可以识别Vtuber的V圈指标和可以识别追星的粉圈指标,甚至是用户可以自定义关键字的指标……以其中一款“新·三相力指标”为例。该指标主要用于bilibili网页版,其运行原理类似:通过抓取用户动态,在视频评论区用户ID后标注其“成分”。所谓“三相”,就是指原神、明日方舟和王者荣耀这三款热门游戏。作者对这个脚本的解释是“B站评论区会自动标记三相选手,根据动态中是否有三相相关内容”。我试着操作了一下,得到了一堆五颜六色的“配料”后缀。例如,如果你没有在新闻中提到这三款游戏,脚本会在你的用户名后标注“普通丨纯好”;如果你提到《王者荣耀》,你将被标记为紫色“稀有”|农批”。被标记用户提示截图@哔哩哔哩。如果同时有《明日方舟》和《原神》,就会变成红色的《史诗|二维双象限”;如果三项都被提及,则会被标记为金色“传奇|三相的力量”。被标记的用户表示截图@B站,但是无论渲染效果多么花哨,这类脚本的逻辑都比较简单粗暴,还有很多bug需要剔除.例如,不少用户对【隐藏丨动态抽奖】的筛选机制表示不解。此外,很多人还反映了一些可笑的乌龙现象——一些无关紧要的东西,比如动态里的“恢复宝可梦”。评论“原神”话题的人也会被标记为“原神玩家”。可以说这类指标的娱乐性远大于它的功能性,但是脚本工具的初衷只是“为了好玩”,只是在后来的一些发展中逐渐发生了变化。灰色的“爬虫”在GreasyFork上,你可以快速搜索找到各种指标和“组件”检测器。单从技术实现的角度来看,这类脚本的开发并不复杂。它的核心含义是“爬虫”技术。这种自动抓取网络数据的程序被常见的搜索引擎广泛使用。曾几何时,在大数据行业,爬虫技术甚至被滥用。不少大数据公司甚至利用爬虫技术,过度收集、非法窃取和出售个人数据信息。直到政策收紧和监管加强,这种混乱才得到遏制。爬虫技术难度不高,技术本身也不好不坏。关键在于用户如何使用它。哪些数据可以“抓取”,哪些数据可以“抓取”但不应该“抓取”,用户是否知道、同意或不同意,以及如何防止抓取到的数据被窃取,这些问题都需要认真审视和用户的判断。但正因为这些问题的答案往往模棱两可,“爬虫”们仍时常徘徊在灰色地带。虽然随着科技的进步,很多公司都开启了反爬虫功能来保护数据安全,但是对于一些社交娱乐平台来说,用户的转发、评论、头像、昵称、空间动态等通常都是公开信息。可以通过爬虫获取。“元神玩家指标”正是利用了这一点,通过读取社交平台的API数据,抓取用户在动态和评论中公开发布的信息,然后按照设定的匹配规则进行筛选。用户有时会主动分享自己的数据,以获得更好的服务,实现更便捷的交互。但是这个“度”是怎么定义的呢?红线应该画在哪里?如何控制风险?太多的问题有待回答。目前常用的应对策略是将Robots协议放在网站的根目录下。本协议旨在建立爬行方与被爬行方之间关于爬行意愿的共同遵循的技术规范。Robots协议通常会告诉网络搜索引擎的机器人哪些内容不应该获取,哪些内容可以获取。严格按照Robots协议爬取网站相关信息一般不会造成太大问题。如果Robots更像是一个“君子协定”,那么使用爬虫技术的法律边界在哪里呢?上海市检察院二分院三检察厅副厅长吴巨平在一份公开文件中提到,网络爬虫通过从以下三个方面限制其合法性,可以体现和保持技术中立性:一是爬取对象,它应该仅限于公共数据。其次,在技术手段上,网络爬虫不应该是侵入式的。是否具有侵入性要从两个方面来判断:技术本身是否具有侵入性,数据爬取行为是否符合爬虫协议和契约。第三,从爬取的目的来说,一定要合法、合理、公平。当然,大部分用户认为指标等工具只是玩玩,爬取的数据都是公开信息,不涉及盈利目的,安装脚本的用户数量也不多。如果安装脚本的用户数量急剧增加,极大地干扰了网站的正常运行,引起了平台的关注,那么开发者和用户都可能面临较大的风险。当我们在“原神玩家指标”诞生所引发的一系列连锁反应中被粗暴地“贴标签”时,给陌生网友贴标签的动机是相当值得深入研究的。各类指标通过自定义关键词识别不同群体,将网络陌生人归类为群体形象。对于用户来说,这种“成分”检测简单粗暴,但在一定程度上完成了一定的Social“过滤”。一方面,通过“标记”他人的方式屏蔽自己不想看到的内容和社交账号,就像如今各种社交平台上常见的屏蔽、屏蔽功能,只是此类指标的筛选更为广泛;另一方面,在社交媒体上对意见不同、喜恶不同的陌生人进行标签化解释,然后发出“原来他是XX人,难怪……”之类的感叹。但仔细一看,这种鉴别方法不就是另一种“狂妄”吗?区分“道不同,不相谋”的对象,防止他们陷入无意义的争论,本意没有问题,但通过贴标签、戴帽子的方式来识别他人,只是另一种强化二极管思维。此外,将对某个群体感到不舒服的个人联系起来也会加深人们对标签群体的厌恶。在现在的网络环境下,发表意见、讨论事情,首先要关心的不是事件的真相,而是先打听对方的“成分”。站在道德制高点上对己方有利。在试验指标脚本的过程中,我发现不少人指出了这种危险。某指标开发者表示:截图@GreasyFork一位脚本讨论论坛用户更是直言不讳:截图@GreasyForkDocumentaryTheSocialDilemma提到:“我们用互联网技术创造了全世界整整一代人,背景他们的成长,彼此之间的交流,以及操纵的幽灵都渗透在文化中。”标签化对于人们来说可能是一种互联网思维的异化,只要有一个账号,我们所看到的、听到的、所做的、购买的,留下的所有痕迹都被视为数据,“喂”给算法,机器根据标签对它们进行分类,然后进一步“择其所好”。如何避免习惯这种驯化,可能是我们每个人都应该思考的问题。参考链接:https://www.pingwest.com/a/270659https://baijiahao.baidu.com/s?id=1744114153150546502https://view.inews.qq.com/a/20220704A07CS500https://greasyfork.org/zh-CN
