【.com原稿】 面对突如其来的疫情,公众对信息聚焦的即时性、透明度和传递效率有了更高的期待在。与2003年“非典”时期相比,疫情爆发后,信息的洪流也更加汹涌。移动通信时代,人人都是自媒体,不仅是信息的接收端,更是无数舆论的中转站,是各种信息的生产端。形形色色的疫情信息,不仅降低了舆论场的“信噪比”,也为各种谣言提供了适宜的温床。 2020年2月上旬,世界卫生组织在一次会议上提出了“infodemic”一词,即信息+流行病,可以直接理解为“信息流行病”。疫情发生以来,在海量信息的狂轰滥炸下,人们往往难以辨别真假。信息的更新时刻牵动着公众的神经,催生不安、担忧、焦虑、恐惧。在群体情绪“超载”下,疫情防控的考验无疑更加严峻。值得注意的是,人工智能在梳理疫情相关舆情方面开始发挥“淘金”作用,利用NLP(自然语言处理)技术“提纯”有效信息,链接信息线索,打造一个公共危机事件信息中心。 AdvancingLDA:挖掘文本语义的利器 NLP被誉为人工智能皇冠上的明珠,因为自然语言是人类智慧的凝结,“让机器理解自然语言”寄托了人们最初的幻想AI——让机器听懂人类的语言,与人交谈,甚至理解语言背后的文化、意图和情感。今天,可以说“文字飞到哪里,NLP技术就燃烧到哪里”。 LDA(LatentDirichletAllocation)主题模型是NLP中非常基础的模型,具有很高的知名度。我们写文章的时候,一般人可能会先确定文章的几个关键主题,然后围绕这些主题来写词句。这个过程的逆向操作就是LDA所做的。通俗地说,就是让计算机根据给定的文档,逆向推断出它的话题分布,包括猜测和分析网络上每篇文章写了哪些话题,以及每篇文章中每个话题出现的概率。 在传统的方法中,判断两篇文档的相似度是通过识别两篇文档中有多少词是相同的。这种方法的局限性在于它没有考虑到语义背后的关联。 例如: 《同人小说站A03获得雨果奖》。收件人是颁奖词。两者的主题相似。可见,在判断文档的相似度时,需要考虑文档中的隐词或者两篇文档之间的联系。在主题模型中,一个主题就像一个袋子,里面装着出现概率很高的词,这些词与这个主题有很强的相关性。可以说LDA模型是语义挖掘的利器。在 疫情期间,使用LDA在数据集中提取主题也得到了应用。今年2月14日,“新冠肺炎疫情AI专题分析平台”正式上线。该平台由清华大学人工智能研究院与RealAI联合开发推出。在底层算法支持方面,平台采用了WarpLDA主题抽取算法的研发。与传统的吉布斯采样算法相比,WarpLDA在内存访问效率和并行性方面更具优势,可用于亿级文本的主题抽取。 去假留真:提取有效信息 记者在调查中了解到,该平台除了疫情数据的实时播报外,更侧重于对疫情相关热点话题的分析. “无论是疫情前线的故事、防控措施、科普知识,还是辟谣信息,只要是传播热门的,都可以在平台上找到。因此,定位我们平台更像是一个‘疫情话题热榜’。”RealAI的工作人员是这样介绍的。 打开手机端平台界面,可以看到:至此,已经上线的具体栏目包括“今日热点”关键词、“热点地区排行榜”、“实时热点”话题排行榜、“近三天”热点排行榜、“官方发布新闻”,这些模块组合在一起,在海量碎片化的内容中为大众搭建了一个信息门户。 从这些模块的设置中我们可以看到,针对信息“过载”的问题,平台自动抓取海量信息,识别公众关注的热点新闻、舆论趋势、区域变化等。注意力。过程中完成消息真实性的验证,在一定程度上保证了输出信息的可靠性。RealAI对如何完成有效信息的过滤给出了具体的说明。 首先,在抓取新闻源方面,平台将优先抓取官方渠道信息,如国家卫健委官网、新华网、人民网等权威媒体,平台将优先考虑来自这些渠道的新闻。重量。一般来说,“谣言”在社交平台上更容易产生和传播,因此微博、自媒体等渠道的权重相对较低。 另外,官方渠道发布的文章内容更严肃,风格也更一致,所以在抓取新闻时更容易聚焦一个话题。相比之下,那些天马行空的谣言通常在文字呈现和措辞上风格迥异,在做新闻聚合时更容易散乱,不易归纳成热点话题。 鉴于LDA主题模型的发展在当前NLP领域还有较大的拓展空间,平台在运行过程中也会有人工控制,以补充机器的不足。 针对网络谣言和假新闻,AI技术其实早在疫情之前就开始出现了。2019年,阿里巴巴在愚人节推出了“AI谣言粉碎机”。据悉,为了判断信息的真实性,该算法模型会首先寻找初始信息来源,分析用户画像,识别发布者的可信度。然后搜索互联网上的所有信息源,分析相关链接的域名来识别传播载体的可信度,最后提炼文本中的关键论点,与知识图谱中的权威知识库进行匹配,验证相关程度,可信度越高,自相矛盾,可信度降低。在SemEval全局语义测试中,该AI技术的识别准确率达到了81%。 看维智的作品:预警传染轨迹 人工智能除了过滤海量信息,还可以从信息海中的蛛丝马迹中预测危机的爆发。这对于提高对危机事件的快速反应能力和控制事件传播规模具有至关重要的作用。信息整理不到位也是新冠肺炎在武汉爆发之初未能得到有效遏制的原因之一。事实上,今年1月就有报道称,一家致力于公共卫生风险评估的加拿大公司BlueDot已于2019年12月下旬向其客户通报了新型冠状病毒。 在接受外媒采访时,BlueDot的创始人解释说:“该公司的预警系统使用AI(包括NLP和ML)通过每天分析65种语言的约100,000篇文章来跟踪100多种传染病的爆发。这些数据帮助公司知道何时通知客户传染病的潜在爆发和传播。” 从目前的公开信息来看,BlueDot并未公开使用的算法,他们避开了信息混乱的社交媒体。收集多语种新闻报道、官方公告和动物疾病报告,并整合全球航空动态和天气数据,为客户提供 BlueDot声称他们的数据来源主要来自三个来源,一个是全球新闻报道,设置关键词基本与流行病、动物疾病、公共卫生相关;另一个是机票数据,通过全球票务数据库的数据,追踪疑似感染者的流向,预测感染可能传播和传播的城市,及时将相关信息告知客户;还有对气候、温度和牲畜变化的监测特定时间段内的特定区域。此前,BlueDot准确预测该病毒将从武汉传播到to泰国曼谷、韩国首尔、中国台北和日本东京在其最初出现后的几天内。 放眼全球,虽然人工智能在疾病预防方面取得了一定成绩,未来可能成为公共卫生规划中的可靠工具,但目前的疾病预测算法仍需面对预测模型的缺陷。谷歌2008年发布的流感趋势预测工具FluTrends就是一个典型例子。 FluTrends可以监测数百万用户的健康数据,并提供数十个国家的流感趋势预测。然而,在2012年流感爆发期间,美国疾控中心在汇总各地数据后发现,谷歌的预测比实际情况夸大了近一倍。后来研究发现,谷歌工程师不了解搜索关键字与流感传播的关系,没有深入分析各种信息背后的关系,最终导致了荒谬的结果。之后,工程师们继续对算法进行微调,但每修正一个部分,总会出现另一个意想不到的错误。在瞬息万变的信息抗疫战场上,可以说唯一不变的就是千变万化的“算法”。 光影双生:人工智能带来的舆论风险 在信息战场上,人工智能可以起到积极的舆论引导作用,但不可忽视的是,如果人工智能使用不当,也会诱发舆论恐慌。技术本身没有价值,但技术的使用者有价值取向。人工智能技术在不同的利益相关者手中,必然会产生不同的后果。 2019年,AI换脸APP在社交媒体上的火爆一度引发争议。只需要一张人脸照片,就可以利用AI换脸技术,将其“嫁接”到所选视频中的某个角色身上。生成的视频画面流畅,表情自然,几近虚幻。合成图像、合成声音、合成产品充斥网络,让“眼见未必是真,耳闻未必是真”。 这些技术给很多用户带来了有趣的体验,但也有人质疑AI打开了潘多拉魔盒,反复踩踏伦理和法律的底线,带来版权、肖像权、个人隐私等问题。隐患,甚至可能引发盗窃、诈骗、色情视频制作等“技术作恶”的乱象。 更严重的是,如果利用人工智能技术恶意编造新闻事件广泛传播,极有可能导致谣言“发酵升级”,甚至影响舆论导向。 一家美国制作公司“猴爪”在2018年用AI制作了这样一段视频:奥巴马严厉批评美国现任总统特朗普。但实际上奥巴马的表情和动作是从“猴爪”创始人皮尔身上合成的。更极端的考虑,如果官方新闻发布平台或一些权威机构的媒体账号被黑客控制,传播人工智能合成的文字、视频和音频,更容易操纵舆论,煽动舆论,引起公众注意。舆论风波。 此外,“机器人军队”也值得警惕。它的存在本身就影响着舆论生态,在一些平台上已经形成规模。例如,一家在线商店使用机器人部队来收集好评。相较于雇人填水的操作,机器自动生成的信息更密集、更具侵蚀性,更容易将真实的评价淹没在无形之中。可想而知,如果将机器人水手引入社会事件,难免会胁迫舆论,掩盖真相,蒙蔽民众,甚至危及国家安全。具有讽刺意味的是,大多数人可能都没有意识到这一点。长此以往,即使“黑天鹅”再不来,“灰犀牛”也会出其不意地来。 参考资料:一位AI流行病学家发出武汉病毒的第一波警告https://www.wired.com/story/ai-epidemiologist-wuhan-public-health-warnings/amp注明原作者和出处为。com]
