当前位置: 首页 > 科技观察

基于深度学习的文本情感识别技术在5G不良消息安全管控平台中的应用

时间:2023-03-13 21:38:28 科技观察

基于深度学习的文本情感识别技术在5G坏消息安全管控平台中的应用随着5G网络的不断普及,大量用户开始接触和使用5G网络。5G网络不仅可以传输传统网络的语音、视频、文本等信息,还可以以更低的时延和高精度的定位能力应用于更实际的应用场景,例如:战场实时信息、卫星导航等。网络信息中经常夹杂着不良信息,如政治信息、涉黄信息、涉黑信息、涉诈骗信息、商业广告新闻等,不良信息数量呈逐年增加趋势,给用户造成极大的困扰。为净化网络环境,有效控制不良信息传播,中国移动5G不良信息安全管理平台应运而生。数据来源:中国移动集团信息安全中心1.5G不良信息管控平台应用场景该平台针对复杂的网络信息环境,对信息进行分类,如短信、语音信息、视频信息、富媒体信息等.对于:涉及政治、色情、黑社会、诈骗、商业广告、正常新闻等的新闻,然后通过相应的策略及时拦截,并根据不良新闻的严重程度进行后续处罚,从源头上净化网络环境,营造良好的网络空间。2、现有5G不良信息管控平台的技术要点该平台主要通过以下方式拦截不良信息:①设置一级关键词:一级关键词通常设置为一些极其敏感的词。包含一级关键词内容,即立即截取信息,信息内容无法投递,标记用户。②设置常用关键字:常用关键字设置为一些比较敏感的词,如果用户发送的信息中包含常用关键字内容,并且在一定时间内,用户发送敏感信息的次数超过了设置的拦截阈值系统,则系统会将用户列入黑名单,用户在一定时间内将无法使用完整的5G网络服务。③设置复杂文本信息监控:如果用户发送一个PDF文件,其中包含文本和图片,提取文件中的文本,过滤一级关键词和常用关键词机制,图片通过富媒体过滤机制,分别。根据文本和图片的过滤结果,采用从重处理的原则作为文件的处理结果。3、现有5G坏消息管控平台的技术短板。现有5G坏消息安全管控平台的过滤机制只能过滤特定的、有限的词组和短句。随着互联网的普及,每天都会涌现出大量的新词。手动添加词库导致无法及时快速更新词库。而且,在今天大量用户发短信的情况下,虽然整条短信没有违法词汇,但所表达的思想和情绪可能有很多不良情绪倾向,仅靠词汇和短讯是无法成功拦截不良情绪内容的。句子。因此,利用文本情感分析将具有不良情绪倾向的句子送去审查和拦截,可以进一步加强不良信息管控的效果,减少垃圾邮件对用户的侵蚀和毒害。通过建立包含网络流行短句和新闻的文本情感库,将文本中的情感分为积极情感、中性情感和消极情感三类,并根据这三类为每篇文本添加相应的文本。标签,利用深度学习网络对情感库中的文本进行训练,训练好的模型可用于5G不良信息管控平台拦截不良情感信息。4、基于深度学习的5G不良管控系统技术实现细节该技术包括三大课题:jieba分词系统、短语向量化、文本情感识别算法。技术抓取网络文字和新闻消息作为原文,将原文按照8:2的比例分为训练集和测试集,对训练集中的文本信息进行标注,然后将训练集中的文本信息通过测试集通过jieba分词工具进行分词处理,例如:他来到移动航研大厦。通过jieba分词工具分词后,结果为:he/coming/moving/hangyan/building,最后将分词后的数据组装成语料库。由于训练集和测试集的文本信息量很大(通常是百万级别的数据),分词后的语料库中的数据量也非常大(几十级别的数据量)百万)。虽然这些语料可以以数字的形式存储在语料库中,但由于数据量巨大,极易出现维数灾难。因此,对于文本信息中出现的语气词,如:“le”、“de”、“do”等,这些词虽然出现频率很高,但对情感效果几乎没有贡献,我们会选择将它们从语料库中移除,从而达到降维的目的。我们将训练集中向量化的词组送入深度学习网络进行学习训练,得到相应的模型,最后将测试集中的数据放入模型中,检查相应的识别结果。当模型可以获得较好的准确率时,模型接入5G不良管控平台,用户发送端到端信息进行过滤。在过滤过程中,如果发现不良信息,会及时拦截,让5G不良信息管控系统更系统、更全面地拦截不良信息。具体步骤如下:从网上爬取原文语料,对原文进行预处理,包括:去除语气词,删除文本中的标点符号和空白区域,删除文本中的终止符、稀疏词和特定词;利用jieba库进行分词,将文本句子根据词组准确分割成单个词组;将爬取的文本数据集按一定比例划分为训练集和测试集,对训练集中的文本句子进行人为分析标注,分为:积极情绪、消极情绪、中性情绪。并使用jieba库分别对训练集和测试集中的文本句子进行分词,将分词后的训练集构建成语料库;将步骤1中的词组向量化,将每个词段映射成一个多维连续值向量,得到整个数据集的词向量矩阵。通过先提取情感词所在的从句,降低句子的复杂度,然后根据各种特征预测情感对象在从句中的位置,再从相应的位置提取情感。情感抽取是获取文本中有价值的情感信息,判断词或短语在情感表达中的作用,包括情感表达者识别、评价对象识别、情感观点词识别等任务。将上述操作得到的情感向量送入深度学习网络,得到文本情感识别模型,再将测试集中的情感向量送入模型,检查测试结果,继续过滤检测结果正常的数据,如:文本匹配、富媒体识别等。5、5G融合深度学习的拦截系统优势与现有5G拦截系统相比,5G融合深度学习的拦截系统具有以下优势:采用深度学习技术提供高可靠性、高真实性的有效识别;采用深度学习技术进行情绪识别,人工干预少,工作效率高;利用文本情感识别,可以有效补充关键词屏蔽的不足;利用文字情感识别,可以及时自动更新和补充攻略中的新录入信息,提高效率。写在最后:目前深度学习的应用领域非常广阔。依靠其反复训练和自学习的方式,可以大大减少人工的工作量,提高效率和准确性。不仅适用于上述不良信息拦截系统,相信在不久的将来,这项技术也会在其他新兴领域大放异彩。当然,深度学习本身并不完美,不能解决所有难题。正因如此,我们应该不断将深度学习技术应用于新场景、新领域,以实现新的突破,创造更加美好的未来智能生活。