当前位置: 首页 > 科技观察

如何预测社交网络突发热点事件_0

时间:2023-03-16 00:17:28 科技观察

【.com速译】现实生活中,经常会出现突发热点事件,比如突发热点新闻、突发疫情、突发信息安全事件等等。如果能够提前预知突发事件,不仅可以避免重大安全事件的发生,而且在一些商业应用场景中还能带来很高的商业收益。无论是学术界还是工业界,突发热点事件都是研究和关注的焦点。信息级联是近年来社会网络分析领域的一个研究热点。信息瀑布模型主要研究信息在社交网络中的扩散,如豆瓣网对一本书的点赞行为的扩散模型。信息瀑布模型引起了学术界和工业界的广泛关注。作为全球最大的社交网站,Facebook也非常重视信息瀑布模型。本文编译自Facebook和VirginiaTech在知名国际会议WWW2017上联合发表的论文DetectingLargeReshareCascadesinSocialNetworks。信息瀑布模型可以简化为以下问题:判断一个社交网络什么时候会产生某一时期爆发性的流行行为。因为这种爆发式的流行行为是非常罕见和具有爆发性的,一些传统的算法会受到很大的影响。如果问题是通过分类来预测的,会导致分类不平衡的问题;如果采用时间序列分析的方法对问题进行建模,由于爆炸性的流行行为不符合时间序列平滑性的要求,也很难很好地刻画问题。生存分析技术可以很好地解决这个问题。为了解决这类信息瀑布模型问题,Facebook提出了SansNet方法。问题的场景是表征网站转发行为的信息传播模式。首先,我们来定义一下,什么样的行为被认为是爆炸性的、受欢迎的行为。Facebook认为转发行为在超过某个绝对或相对大小阈值时具有爆炸性,例如,一个帖子被转发10,000次。问题定义如下:Facebook使用扩展的COX模型预测m次转发的时间序列。该模型的生存函数如下:其中v(t)是信息瀑布在时间t的大小。爆红行为可以归结为如下优化问题:优化问题的本质是一个分类问题,其中分类标签(+1/-1)用于标记某个帖子的转播时间序列是否为爆红行为。是每个类的误分类率。这个问题的本质是通过生存概率最大化两个不同分类之间的最大间隔,或者说最小化分类问题的误分类率。SansNet算法的伪代码如下:SansNet的总时间复杂度为O(m(|R|+T))。Facebook研究人员选取了2015年8月8日上传到Facebook的25万张照片和视频,统计了每小时照片/视频的转发量,并将持续一周的数据作为实验数据集进行了算法实验。SansNet在照片和视频上的召回率(红线)如下:可以看出SansNet算法相比线性模型、逻辑回归、树模型、随机过程模型有明显的优势。SansNet在Top10热点中的覆盖情况如下:SansNet在Top30热点中的覆盖情况如下:Facebook的这篇论文是2017年发表的最新成果,具有广泛的应用场景。例如:新浪、网易等新闻网站都将热点预测作为重要的算法研究问题。此外,Twitter等社交网站对热门微博和热门话题的预测也引起了学术界和工业界的广泛关注。预测是大数据领域中一个具有重大现实意义的问题,尤其是长期预测,至今仍是一个具有挑战性的问题。原标题:检测社交网络中的大型转发级联,作者:KarthikSubbian、B.AdityaPrakash、LadaAdamic