当前位置: 首页 > 科技观察

走出“题海战术”,让模型学会像人一样思考

时间:2023-03-19 12:58:57 科技观察

走出“题海战术”,让模型学会像人一样思考中国计算机学会推荐B类期刊《中文信息学报》收录。《中文信息学报》创刊于1986年,作为我国计算机与计算技术领域83种中文期刊评选的15种核心期刊之一,及时反映了我国中文信息处理的先进水平。数据显示,《中文信息学报》每个相关子方向平均每年录用约10篇文章,代表了我国中文信息处理的最新进展和学术动态。1、快速学习:从“话题海战术”到“触类旁通”当你在社交媒体上发布内容时,当你输入#时,社交媒体会为你推荐一个合适的hashtag(话题词),把内容分成相应的很方便对社交媒体的内容进行分类和管理。为什么在Hashtag推荐算法中引入小样本学习算法?复旦大学自然语言处理团队的曾兰军向我们介绍:比如现有的Hashtag推荐算法,一般都是使用分类框架来完成的。当你使用属于100个类别的社交媒体文本来训练模型时,在后面进行推荐时,模型只能将要推荐的文本分类到这100个类别中。如果不进行再训练,该模型将无法处理训练不可见的主题标签。但是,Hashtag将继续根据当前事件快速更新。研究团队希望,当你写#时,社交媒体会根据你社交媒体文本的历史特征和当前输入的文本内容,猜测你可能需要的Hashtag,并向你推荐合适的Hashtag。为了解决这个问题,论文提出将Hashtag推荐任务建模为小样本学习任务。同时结合用户对使用Hashtag的偏好,降低了推荐的复杂度。对通过互联网公开授权的API获得的数据集进行的实验表明,与目前最好的方法相比,该模型不仅可以取得更好的推荐效果,而且表现更鲁棒(即更稳定)。通用模型在识别一个类别时,需要大量的数据才能正确识别一个类别。这种靠数据学习的识别,就像高考机器一样。推理逻辑。而对于人类,甚至是孩子,当你告诉他他看到的是什么图片时,他能很快识别出这一类。小样本学习就是希望机器能有这样的能力。在看到一个只有少量样本的类别后,它有能力通过数据学习来识别这个类别。它可以根据用户的历史特征、以前学习的经验和少量的当前样本快速识别出这个新类别,从而提高识别效率。未来小样本学习可以应用到更多领域。在舞弊风险防控中,识别舞弊手段对于舞弊风险态势感知和舞弊控制至关重要。然而,新的欺诈方法会不断涌现,新方法的样本积累往往不足以训练出好的识别模型。如何在少量样本积累的情况下准确识别新方法也是一个问题。本次工作后续计划在小样本学习上迁移到欺诈检测场景。2、知识驱动:从“填鸭式接受”到“主动推理”除了小样本学习领域,魏中宇教授与蚂蚁天盾安全实验室在欺诈要素识别领域也有合作。魏中宇教授表示,本项目希望模型在面对大量用户的欺诈投诉文本时,能够利用举报的文本判断欺诈要素是否满足,进而判断欺诈事实是否成立。该项目的创新点在于:以往的模型识别都是由数据驱动;现在模型识别文本元素后可以主动推理,通过数据学习和知识推理的双重驱动,可以更有效地防患于未然。由于该项目与业务场景关联度高,但团队没有法律专家,前期在标注和识别欺诈文本方面遇到困难,只能通过信息检索系统及相关研究来设计文学。初步文本注释的框架。蚂蚁在合作中引入了司法团队,提供了相对专业的欺诈识别框架设计,使得标签体系的建立更加符合业务场景。基于该框架,校方团队将开展数据标注、模型自动识别等算法。设计来完成模型。蚂蚁前期提供的框架基础,在业务上相当于给研究团队一个非常实用的指导,最终的效果甚至超出了双方的预期。目前,团队对诈骗分子的识别准确率已超过85%,主要识别举报人是否被诱骗转账、收款人是否有非法占有目的等诈骗司法审判的关键证据。研究团队完成了40000个欺诈投诉样本要素的标注,通过欺诈要素识别模型的判断,引导用户主动补漏,提升用户在举报过程中的体验感和主观能动性。在此过程中,用户举报率提高了10%,举报信息质量提高了8%。确保舞弊定性准确率稳步提升,提高舞弊防控效率。根据课题组的研究成果,在识别用户证据文本中的欺诈证据元素的基础上,通过数据+知识推理进一步实现智能防御审判,模型基于用户的证据和大数据信息回顾逻辑链和结果(即模型不仅能给出结论,还能告诉你它的分析思路,提供有说服力的理由)。与传统依赖数据学习的欺诈识别算法相比,本次与蚂蚁的联合创新提出,将人类的知识、经验和规则输入到欺诈识别算法系统中,模型将实现基于推理的智能判断。相信课题组在该技术上的创新将更好地保护用户资金安全,也对提升行业整体风控水平起到重要作用。魏中宇教授表示:这种全新的校企合作模式,不仅带来了团队研究一直需要的应用落地场景,而且与蚂蚁的实际业务经验和团队在算法上的创新相得益彰,成为为今后科研项目的运作奠定基础。一个很好的示范。期待未来与蚂蚁的进一步长期合作,也期待这项研究在多个场景的应用,为用户推荐更精准的信息内容。