权力的游戏最终季终于开播了!播送!是的!和大多数权羽粉一样,文摘君整个上午都在朋友圈里提心吊胆,生怕被剧透。却没想到竟然被“看到”了大结局!此外,它是一种算法,它给了我剧透。这波强烈剧透来自慕尼黑工业大学。在最后一季开始之前,这所大学的计算机科学专业的学生接到了一项特殊任务:使用机器学习来预测本赛季谁最有可能坐上铁王座。这个听起来很有趣的项目使用了一种相当残酷的算法——生存机会算法。生存率的具体预测是通过生命数据分析得出的结果。这种科学研究技术已广泛应用于医学领域,例如检查治疗方法和并发症对癌症患者的影响。事实上,ChanceofSurvivalAlgorithms是慕尼黑工业大学学期Javascript研讨会的一部分,该主题激发了学生之间的研究兴趣。他们开发了一个应用程序并创建了一个人工智能算法来计算每个角色的死亡率。时间回到2016年,第六季播出前,节目组的学生准确预测到了斯诺的复活。话不多说,让我们来看看这个强大算法预测的最终季大结局吧。根据算法,龙母丹妮莉丝·坦格利安(DaenerysTargaryen)有99%的存活率,小恶魔提利昂·兰尼斯特(TyrionLannister)也有97%的存活率。生存率排行榜一览除了死亡概率高的波隆和魔法山,被七大王国最聪明的人(提利昂·兰尼斯特饰)预测寿命最长的“三傻”(珊莎·史塔克饰)),她的死亡日期也被预测出来了很明显,死亡率高达73%。强力扰流板是如何工作的?算法是如何做到的?简单来说,就是从原剧和播出的剧集中提取人物、身份、性别、亲属数量、年龄、忠诚度、死亡概率等。数据分析预测。下面以珊莎为例简单说明一下。首先,在维斯特洛大陆,贵族普遍比平民长寿,女性角色比男性长寿。按主角划分,从北境之王的掌上明珠,到最屈辱的贵妇,再到临冬城公爵夫人,在主角的光环下,死亡率下降了16%。已婚妇女通常寿命更长。虽然几次不幸的婚姻给珊莎带来了惨痛的教训,但也印证了“凡是杀不死我的,都会让我变得更强大”。生在豪门,也会延年益寿!史塔克家族的子弟们虽然历经磨难,但除了“少狼王”,其他人都闯进了决赛。忍辱负重的珊莎能活到第八季实属不易,但预计高达73%的死亡率在剧中将如何实现,我们拭目以待。完整的角色列表和他们的统计数据(例如他们的生存机会)可在以下网站在线获取。?https://got.show“算法”与“数据”之歌研究问题的方法早已在现实世界中使用,对我们的日常生活产生了强大的影响。类似的算法也适用于金融和医学。《权力的游戏》世界互动地图截图数据提取考虑到实际情况,数据来源是维基百科上关于《权力游戏》的一系列介绍。维基百科基本包括5本书和8季电视剧的内容,共计2000字左右的信息。除了提取角色的生存状态,即是否死亡外,还需要其他角色特征信息。有了描述每个角色特征的数据集,下一步就是找到一个可以判断角色是否死亡的特征集。贝叶斯生存分析模型的主要目标是利用贝叶斯推理相关性方法来确定人物的不同特征与生存率之间的关系。该模型假设每个人都有一定的死亡概率。对于所有角色来说,“基本危险”到来时死亡的概率是相同的。演员之所以会收到饭盒,是因为他饰演的角色具有“死”的特点。例如,一个人有60%的死亡几率,如果住在兰尼斯特的家里,他的死亡率可能会降低50%。考虑到这两个因素后,就可以建立一个生存函数。这个生存函数具体描述:在某个时间点,角色的生存率。例如,它可能会告诉我们,琼恩·雪诺有45%的机会活到60岁,或者杰米·兰尼斯特被认为有60%的机会活到第八季。该模型使用MCMC模拟和pymc3包进行训练。选择以下特征进行分析:HouseLoversMarriageTitlesMajor/MinorcharacterMaleMaleNeuralNetworkPython的Keras用于构建模型。基本上是最简单的神经网络架构之一——前馈技术。这意味着输入值是具有任意数量的实值维度的向量,然后通过“隐藏层”进行处理,最终输出也是数字向量。此外,此类神经网络包含许多在训练期间自动更改的参数,因此网络的输出也尽可能接近给定的输入输出关系。必须考虑如何将有关字符的复杂信息转换为向量。一些信息是标量信息,例如人物在维基百科中的排名或其关系编号。其他信息可能是一组预定义的值,例如角色出现的情节。因此,您需要创建一个与情节相同维度的向量,如果角色出现在相应的情节中,则将维度设置为1.0,否则为0.0。这样,不同种类的信息就可以转化为向量,而这些向量只相互影响。最终,书籍数据的输入维度为1561个,显示数据为411个。以下是使用的数据类型?Original:性别,多少页,亲戚数量,年龄,文化,房屋,房屋面积,忠诚度,角色所属的Tome,位置,标题剧集:性别,内容多少,编号。亲属、年龄、忠诚度、角色出现的情节、头衔一般而言,“年龄”仍然是角色死亡的最重要因素;毕竟年纪越大,之前所受的危险就越大!年龄(如前所述的单热向量)也是神经网络输入的一部分。因为神经网络输出简单地将“存活百分比”确定为0到1之间的数字,所以可以为单个角色创建大约90个不同的输入向量,例如一个可能的年龄。如果角色在那个年龄还活着,神经网络将为该输入向量预测1.0,否则为0.0。总结一下,让我们看一下有关预测和神经网络的一些统计数据。首先,权力的游戏维基百科总共包含484个可用角色,其中188个用于训练(即死亡),其余296个活着的角色创建了预测。最终训练准确率达到88.75%,而最终验证准确率达到89.92%。类似地,可以从插曲维基百科中提取146个可用字符,其中82个用于训练,64个用于预测。这里最终的训练准确率为79.64%,最终的验证准确率为85.69%。【本文为栏目组织大数据文摘微信公众号《大数据文摘(id:BigDataDigest)》原创文章】点此查看作者更多好文
