当前位置: 首页 > 科技观察

数据集搜索神器!100个大型机器学习数据集总结在此

时间:2023-03-20 00:20:24 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。本想自己搭建一个机器学习模型,没想到第一步就卡住了。网上各种数据集鱼龙混杂,质量也参差不齐,简直让人眼花缭乱。想要获取大数据集,就得一个一个去每个数据集的网站,两个字:麻烦。如何高效地找到机器学习领域最大、质量最高的数据集?为了回应网友的呼声,网友u/UpdraftDev整理了全网最好的机器学习数据集,并对这些数据集进行了分类介绍。如果您想找到自己喜欢的数据集,现在一目了然。网友纷纷表示:非常满意!太方便了。在这个网站上,收集了100多个行业领先的数据集。根据任务类别,这些数据集进一步分为三类:计算机视觉(CV)、自然语言处理(NLP)和音频数据集。在网站首页,一眼就能看到数据集名称、发布时间、简介、开源协议、相关论文等重要信息,查找起来非常方便。点进去会直接跳转到网站首页。一键点击,省去每个数据集地址一个一个搜索的麻烦。在神仙数据集榜单所列的数据集中,不乏有很多有趣且业界知名的数据集。在很多机器学习任务中,这些数据集是最实用、出现频率最高的。都是什么神仙数据集?在计算机视觉领域,我们先来看CV领域。总结了70个大型数据集,收录了很多经常遇到的经典数据集。看看你能认出多少:其中,英伟达去年12月开源的人脸数据集FFHQ(Flickr-Faces-HQ)包含7万张分辨率为1024×1024的高清人脸图像。它提供高度多样化、高质量的人脸数据,涵盖比现有高分辨率数据集(如CelebA-HQ)更多的变化,例如更多戴眼镜和帽子的照片。还有一些熟悉的中国公司。例如,百度开放的自动驾驶数据集ApolloScape,包含数十万帧的高分辨率图像数据,这些图像数据经过语义分割并逐像素标记,例如感知、模拟场景和路网数据。数据集采用逐像素语义分割和标注的方法。是一个环境复杂、标注准确、数据量大的自动驾驶数据集。腾讯开源的TencentML-Images项目,其多标签图像数据集ML-Images包含1800万张图片和11000多个常见物体类别,比谷歌开源的OpenImages数据集丰富得多。当然,ImageNet、KITTI、COCO、Cityscapes等老经典数据集也包括在内。NLP领域目前有26个自然语言处理(NLP)领域的数据集:斯坦福大学NLP组的SQuAD2.0你要明白,相比第一代,2.0版本增加了一个“任务”判断一个问题是否可以从提供的阅读文本中得到回答”。SQuAD2.0中不仅包括100,000个问答对,还包括超过50,000个由人类众包者对抗性设计的无法回答的问题。CoQA数据集也是斯坦福开发的对话数据集,包含127k个问题和8k组对话的答案。对话涵盖7个不同的领域,每组对话的平均长度为15轮,每轮由问答组成。此外,DeepMind的Q&A问答数据集、微软的MSMARCO机器阅读理解数据集,以及三位中国学生推出的HotpotQA新问答数据集,都可以在这个列表中直接一键访问。音频数据集还有四大音频数据集:Google的大型音频数据集AudioSet,包含632个音频类别和2,084,320个每个10秒的人类标记的声音片段,涵盖广泛的人类和动物、乐器与音乐流派,日常环境声音。GoogleNSynth数据集包含从1000种乐器中收集的大量带注释的音符,包括不同的音高和速度,比类似的公共数据集大一个数量级。初创公司Mozilla发布的CommonVoice数据集包含500小时的20,000名英语志愿者和400,000条录音,并且语料库在不断扩大。还有LibriSpeechASR语料库语音数据集,包括1000小时的英文发音和对应文本。数据来自大型语料库LibriVox项目的有声读物。