你的“看”有人看,清华研究人员从微信“看看”唐杰等人最近的一项研究中发现了这些规律。清华大学的一位研究人员通过微信“看看”的数据分析了点击阅读文章和点击“在看”的用户的行为模式。分析了以自我为中心的网络结构的这些不同方面。该研究还提出了一种预测模型,与其他方法相比具有更高的预测精度。目前,该论文已发表在《IEEE Transactions on Knowledge and Data Engineering》(TKDE)期刊上。论文链接:https://arxiv.org/pdf/2103.02930.pdfGitHub链接:https://github.com/zfjsail/wechat-wow-analysis微信??文章的“看”按钮想必大家都不陌生.在发现页面点击“在看”,微信用户可以看到好友点击“在看”的文章,也可以点击这些文章阅读,或者点击“在看”。微信“看看”页面示例。(“哇按钮”即“正在看”按钮。)那么,哪些因素会影响用户点击阅读这些文章并点击“正在看”的行为呢?影响“看看”用户行为的因素有哪些?本研究从三个层面进行分析。从用户人口统计信息来看,不同性别、不同年龄段的用户在“观看”和点击行为上都有很大的变化。当考虑交叉属性因素时,情况就更复杂了;就二元关联而言,当他们的活跃朋友存在结构漏洞和意见领袖时,用户的行为可能会大不相同;而对于自我网络(EgoNetwork)来说,“观看”和点击阅读文章的概率与用户的活跃好友形成的连通分量数量强相关。下面是具体的分析结果。用户人口统计信息表1、图2、图3显示了不同性别和年龄的用户在“看看”点击“正在看”和点击阅读文章的概率。由此我们可以发现:男性的点击概率明显高于女性,女性点击“正在观看”的概率略高于男性(见表1);20、30岁的年轻人是网络社交圈的中流砥柱,但他们点击“正在看”和点击阅读文章的概率是所有年龄段中最低的(见图2);当同时考虑性别和年龄属性时,情况有所不同:20岁以下人群中,男性比女性更活跃;但40岁以上的女性比例更大,60岁以上的女性点击阅读文章的比例更大(见图3)。二元和三元关联为方便起见,本研究在二元关联中只考虑用户与一个活跃好友的交互,在三元关联中只考虑用户与两个活跃好友的交互。研究人员从人口统计属性和社会角色两个方面对其进行了分析。1.二元关联和人口统计属性下表2显示了用户性别和朋友性别对用户活跃度的影响。可以看出,在点击行为方面,当两个人的性别相同时,用户的点击概率更高;但对于“观看”行为,当好友为女性时,用户的点击概率更高。高的。从年龄的角度来看,下图4展示了用户年龄和好友年龄对用户“观看”行为概率的影响。由此我们可以发现,当用户年龄较小(<40岁)时,他们比同龄人更容易受到年长朋友的影响;年长的用户更容易受到同辈朋友的影响。2.二元关联和社会角色下面的表4显示了当用户和朋友具有不同的社会角色——意见领袖(OL)和普通人(OU)时对用户活跃度的影响。可以发现,当活跃好友不是意见领袖时,用户点击“观看”并点击阅读文章的概率更高。下面的表5显示了结构洞(SH)和普通人(OU)两种社会角色对用户活跃度的影响。(“结构洞”是指社交网络中的缺口,即社交网络中的一个或某些个体与某些个体有直接联系,但与其他个体没有直接联系,即没有直接关系或关系中断。从整体网络来看似乎是网络结构出现了空洞。)可以看出,当朋友是结构空洞时,普通用户的活跃率更高。对于结构洞的用户,当他们的朋友是非结构洞时,他们的点击概率更高,但差异不显着。3.三变量关联和人口统计属性下图5显示了用户性别和好友性别对用户活跃度的影响。可以看出,当两个好友的性别与用户性别相同时,用户的活跃度最高。这显示出强烈的同质性。下图6展示了用户年龄和好友年龄对用户活跃度的影响。由此我们可以发现,如果一个朋友与用户同龄,而另一个更年轻,则用户的活跃度高;年长的用户更关注年轻的用户。以自我为中心的网络属性此外,研究人员还探索了用户活动与其以自我为中心的网络属性之间的关联,发现用户的在线行为(点击阅读和“观看”)受朋友圈(以自我为中心的朋友圈)的影响很大网络)。自我中心网络指的是用户活跃朋友的诱导子图。本研究从三个方面分析了自我中心网络的特性:自我中心网络中的朋友数量、连接组件的数量(#CC)以及清洁后的自我中心网络中的#CC(k-核图)。下图8展示了活跃好友数量增加对用户活跃率的影响。从图中可以看出,点击和“看”行为的趋势是完全不同的。通过这些分析,研究人员得到以下发现:男性更喜欢点击阅读文章,女性更喜欢点击“看”,而年轻人“看”的活跃度最低;在二元或三元关联方面,用户与其好友(如性别)存在“同质性相吸”的有趣现象,但当活跃好友超过一个时,属性多样性(如地域)与用户活跃度呈正相关;根据以自我为中心的网络拓扑结构,“看”和点击行为的模式有很大不同。例如,当活跃好友数量固定时,用户点击“看”的概率与连接的分支负相关由活跃的好友组成,但点击行为则相反。当自我中心网络被清除时,这种模式更加明显。现在预测模型已经发现了一些模式或规律,我们是否可以利用它们来预测用户的在线行为?study创建了一个预测模型DiffuseGNN,如上图所示,DiffuseGNN模型包括五个步骤:预处理egocentric网络、输入层、特征平滑层、层次图表示学习、输出层。核心组件和基本思想模型如下:对于输入的用户特征,研究人员考虑了不同的用户特征,比如用户的人口统计信息(性别、年龄等)和预训练的用户嵌入,并尝试对特征交互进行建模;然后通过在可训练的调制频谱域中传播初始特征来学习用户嵌入,这样学习到的用户嵌入可以捕获以自我为中心的网络中的有用信息并过滤噪声;接下来,研究人员将学习到的中间表示进一步输入到层次图表示模型中,该模型通过迭代聚类节点来学习子图嵌入;该研究还使用了一种新颖的注意力模型来模拟用户特征和朋友特征之间的交互。实验研究人员在他们收集的微信“看看”数据和微博公众号数据集上测试了模型对用户行为的预测效果,并选择了多种方法进行比较,包括:1)传统分类器:LR和RF;2)建模特征交互的深度学习方法:xDeepFM;3)基于自我中心网络的SOTA用户行为预测方法:DeepInf和Wang等;4)层次图表示学习方法:SAGPool、ASAP和StructPool。其中,第3类和第4类都是基于GNN的方法。下面的表7给出了实验结果,从中可以看出DiffuseGNN模型始终优于基线方法。此外,该研究探讨了不同模型组件对用户行为预测的影响,见表7底部数据。由此我们可以发现,去除预训练嵌入和特征平滑步骤会导致性能大幅下降;添加二阶特征对基于微信数据的用户行为预测略有帮助,对基于微博数据集的用户行为预测效果较差。好的;该模型还可以在不使用手工制作的用户特征的情况下实现不错的性能。
