深度学习长尾分类本科生在科研上能取得什么成果?在最近收录CVPR2022的一篇论文中,提供了解决深度学习中长尾分布数据分类问题的新思路,最终实现了新的SOTA。文章共有5位作者,包括新加坡A*STAR的博士生和高级研究员……第一作者是天津大学的本科生——李同学。神奇的是,这并不是这只“初生牛犊”的第一篇顶级会议论文。在此之前,他还拿下了数据挖掘领域的一个顶级会议(WWW2022),这也是第一部作品。本科生搞科研的势头已经这么强劲了吗?大三进实验室,大四在手toppapers2篇。李老师来自天津大学智能与计算系,今年大四。这篇CVPR文章主要是使用一种新的集成学习策略来解决长尾分类问题。长尾分布大家都知道,对这些数据进行分类是深度学习中很常见的应用。其难点主要在于样本量极度不平衡,尤其是尾部样本量过小,难以获得有效的训练结果。目前,基于集成学习的方法显示出巨大的潜力,可以实现SOTA性能。但这种方法有两个局限性:一是在故障敏感应用中的预测通常是不可靠的,这对极易出错的尾部数据影响很大;另一个是它会为所有样本(专家)分配统一数量的资源,这会导致简单样本的冗余和高计算成本。因此,李等人。提出通过引入不确定性积分实现对尾部类别样本的自动感知。在此基础上,提出为尾部样本动态分配比头部样本更多的模型资源(专家),以平衡性能和效率。△测试阶段,采用哈佛提出的DS理论,形成联合不确定性。最终得到的模型实现了尾部类别样本的自动检测和训练调整,成为解决长尾分类问题的通用模型。对分类、尾部检测、异常值检测和故障预测等一系列任务的综合实验证明,该模型的性能成功击败了现有的SOTA方法。大三时,李老师凭借优异的成绩进入学院机器学习与数据挖掘实验室。在导师张常青(天津大学博士生导师)的带领下,经过短短一年半的学习,就中标了两篇顶级会议论文。可以说,年轻一辈的厉害。越来越多的本科生开始发topconferences。但是说到本科生做科研,其实大家还是要注意的。很多学校对这件事越来越开放和认真:在大三或低年级,会开放一些名额,让有潜力的学生进入实验室,与研究生、博士生一起从事科学研究。例如,清华大学“星火班”招收大二学生,北京大学也鼓励学生从大二开始开展科研项目,中国科学技术大学等高校对取得相应成果的本科生给予专项奖学金.在这样的情况下,像李同学这样在本科期间就在topconference上发表论文的学生已经不少了,可以说是气场十足。比如熟悉清华特等奖获得者的2016级本科生高天宇,大学四年有四篇顶级论文:两篇AAAI论文,两篇EMNLP论文,还有一个致力于传授科学知识的直播研究经验。比如麻省理工本科生毛晓,大四就中标了计算机理论顶级会议FOCS2021,并获得了最佳学生论文奖。又如清华大学电子系本科生刘红,一篇论文写了三篇论文;北京大学本科生吴克文不仅出席了会议(ACM计算理论年会STOC),还获得了最佳论文奖;还有电子科技大学本科生王坦,CVPR2020也有1篇论文,浙江大学本科生ICML2019也有1篇……类似的例子还有很多。可以说本科生的科研实力越来越强了。你怎么认为?
