当前位置: 首页 > 科技观察

Kaggle大师使用哪些语言、框架和模型?这里有一个详细的统计_0

时间:2023-03-15 01:16:28 科技观察

统计网站:https://mlcontests.com/作者得出了几个重要的结论:1.在所有的比赛中,Kaggle上的比赛数量仍然占到1/3,而奖金占总奖池270万美元的1/3;2、所有比赛中,67场比赛在排名前5的平台(Kaggle、AIcrowd、天池、DrivenData和Zindi)举办,仅去年就有8场比赛在某比赛平台举办;3.几乎所有获奖者都使用Python,只有一位冠军使用C++;4、77%的深度学习解决方案使用PyTorch(去年高达72%);5.所有获奖者6.所有获奖的NLP解决方案都使用Transformer。以下是调查的详细信息:平台类型作者在本次调查中总共统计了16个平台上的83场比赛。这些比赛的总奖池超过270万美元,其中奖金最高的比赛是FacebookAI图像相似性挑战赛:根据驱动数据匹配轨迹,奖池为20万美元。竞赛类型调查显示,2021年最常见的竞赛类型是计算机视觉和自然语言处理。这个细分领域与2020年相比是一个很大的变化,当时NLP比赛仅占比赛总数的7.5%。在众多NLP比赛中,Zindi与AI4D(非洲发展人工智能)合作举办的比赛数量最多,包括将非洲语言翻译成英语或其他语言,对非洲语言进行情感分析等。语言和框架在本次调查中,主流的机器学习框架仍然是基于Python的。Scikit-learn非常通用,几乎在每个领域都有使用。毫不奇怪,两个最受欢迎的机器学习库是Tensorflow和Pytorch。其中,Pytorch是深度学习竞赛中最受欢迎的。与2020年相比,深度学习竞赛中使用PyTorch的人数突飞猛进,PyTorch框架每年都在飞速发展。ChampionModelSupervisedLearning在经典的机器学习问题中,Catboost和LightGBM等梯度提升模型占据了主流。例如,在室内定位导航Kaggle竞赛中,参赛者需要设计算法,根据实时传感器数据预测智能手机在室内的位置。冠军解决方案考虑了三种建模方法:神经网络、LightGBM和K最近邻。但在最终的流水线中,他们只用LightGBM和K-NearestNeighbors取得了最高分。计算机视觉自从AlexNet在2012年赢得ImageNet比赛后,CNN算法就成为许多深度学习问题中使用的算法,尤其是在计算机视觉方面。递归神经网络和卷积神经网络并不相互排斥。尽管它们似乎用于解决不同的问题,但重要的是这两种架构都可以处理某些类型的数据。例如,RNN使用序列作为输入。值得注意的是,序列不限于文本或音乐。视频是图像的集合,也可以用作序列。递归神经网络,例如LSTM,用于数据具有时间特征(例如时间序列),数据上下文敏感(例如句子完成)的情况,其中反馈循环的记忆功能是实现的关键所需的性能。RNNs也成功地应用于计算机视觉的以下领域:“白天图片”与“夜间图片”是图像分类的一个例子(一对一RNN);图像描述(一对多RNN)是根据Content为图像分配标题的过程,例如“狮子猎鹿”;手写识别;最后,RNN和CNN的结合成为可能,这可能是计算机视觉最先进的应用。当数据适用于CNN但包含时间特征时,混合RNN和CNN的技术可能是一种有利的策略。在其他架构中,EfficientNet脱颖而出,因为它专注于提高模型的准确性和效率。EfficientNet使用了一种简单有效的技术——复合系数(compoundcoefficient)来放大模型,使用缩放策略创建了7个不同维度的模型,其精度超过了大多数卷积神经网络的SOTA水平。与2020年的NLP一样,2021年NLP领域采用大规模语言模型(如Transformer)的比例将大幅增加,达到历史新高。作者找到了大约6个NLP解决方案,它们都是基于Transformer的。获胜团队作者追踪了数据集中35场比赛的获胜者。其中,只有九人从未在比赛中获奖。与2020年相比,你可以看到赢得了很多比赛的老选手一次次获胜,只有少数几个第一次获胜,百分比没有真正明显的变化。在机器学习竞赛的获奖解决方案中,集成模型成为首选方法之一。集成方法中最常用的方法是平均,其中通过对输出和的平均值求和来构建和组合多个模型,以实现更稳健的性能。调整模型时,一旦达到回报率下降的点,通常最好重新开始并构建一个产生不同类型错误的新模型,并对它们的预测进行平均。集成方法的应用示例在kaggle的“木薯叶病害分类”竞赛中,参赛者被要求将木薯叶的图像分类为健康疾病或四种疾病。冠军解决方案由4个不同的模型CropNet、EfficientNetB4、ResNext50和Vit组成,采用平均方法。获胜者取ResNext和ViT模型的类权重的平均值,并在第二阶段将此组合与MobileNet和EfficientnetB4相结合。