当前位置: 首页 > 科技观察

NLP模型「可理解分析+评价排行榜」,CMU最新工具助你找到好idea

时间:2023-03-16 13:47:07 科技观察

NLP模型“综合分析+评价排行榜”,CMU最新工具助你发现好点子辅助工具ExplainaBoard可完成单系统诊断、数据集分析、可靠性分析等任务,有效提升科研人员的学术体验。是不是看了一篇论文觉得别人的思路很合理,自己设计idea的时候就没思路了?你是否经常因为“模型效果很好,但没有给出深入全面的解释”而被审稿人打低分?当您厌倦了挖掘新的模型结构时,您是否对挖掘数据集特征感兴趣,这些特征可以为该领域带来更健康的发展方向?刚接触一个新领域时,如何快速了解该领域的发展现状,快速了解其瓶颈?大家还记得前不久在网上引起热议的自动审核系统吗?CMU团队近期发布了可解释系统排行榜(ExplainaBoard),定位为科研辅助产品,将看似“模型可理解分析”和“模型评估排行榜”两者巧妙结合。无关元素的组合,将很多我们在日常科研中忽略的重要部分转化为“一键式”操作,从而提升研究者的学术体验。系统链接:http://explainaboard.nlpedia.ai/论文链接:https://arxiv.org/pdf/2104.06387.pdf目前,ExplainaBoard在单个任务上支持分类、提取、生成等9种主流NLP任务,涉及40多个数据集,300多个模型;多任务方面,支持多语言评测基准,包括40多种语言和9个跨语言任务。技术解读随着深度学习模型的快速发展,Leaderboard已经成为跟踪各种系统性能的主流工具。然而,由于排行榜上排名靠前的模型所附带的声望,许多研究人员只关注提高评估指标的数字,而忽略了对模型属性的更深入的科学理解。ExplainaBoard就是在这样的背景下诞生的。它不仅可以对不同的模型进行排序,还提供了很多模型和数据集相关的可理解的、交互式的、可靠的分析机制(如下图所示):也就是说,它可以完成以下功能:通过单系统诊断解决:“我设计的模型擅长/不擅长的是什么?”系统对诊断可以解决的问题:“我设计的模型比别人好在哪里?”数据集分析可以解决的问题:“数据集有什么特点?”常见错误分析可以解决的问题:《top-5系统的常见错误预测是什么?》细粒度误差分析可以解决的问题:“模型误差预测主要出现在什么地方,具体有哪些误差?”系统组合可以解决的问题:“将top-5系统组合起来会不会得到更强大的系统?”可信度分析可以解决问题:“模型预测结果的可靠性如何?”校准分析可以解决的问题:“预测的可靠性如何校准其正确性?”应用前景在应用方面,刘说项目负责人彭飞博士介绍,ExplainaBoard已经收到了DeepMind、Google、Huggingface、Paperswithcode等公司以及投资方的合作邀请,例如Google&DeepMind最新的arXiv作品XTREME-R:TowardsMoreChallengingandPaperswithcodeNuancedMultilingualEvaluation使用ExplainaBoard升级其多语言评估基准。