指南中超大的30个机器学习数据集,包括图像、视频、音频、文本,非常全面。用于机器学习的最大张量流数据集TensorFlow由GoogleBrain的研究人员创建,是用于机器学习和数据科学的最大开源数据库之一。它是一个适合初学者和经验丰富的数据科学家的端到端平台。TensorFlow库包括工具、预训练模型、机器学习指南和开放数据集语料库。为了帮助您找到所需的训练数据,本文将简要介绍一些用于机器学习的最大TensorFlow数据集。我们将下面的列表分为图像、视频、音频和文本数据集。图像数据集1.CelebA:名人面部属性数据集(CelebA)是最大的公开面部图像数据集之一,包含超过200,000名名人的图像。名人人脸图像数据集每张图像包含5个面部特征点和40个二进制属性标签。2.DownsampledImagenet:该数据集用于密度估计和生成建模任务。它包含超过130万张物体、场景、车辆、人物等图像。这些图像有两种分辨率:32x32和64x64。3.Lsun–Lsun是一个大型图像数据集,用于帮助训练模型了解场景。该数据集包含超过900万张图像,这些图像分为卧室、教室和餐厅等场景类别。4.Bigearthnet——Bigearthnet是另一个大型数据集,包含来自Sentinel-2卫星的航拍图像。每幅图像覆盖1.2公里x1.2公里的地面。每张图片包含43个不平衡标签。5.Places365——顾名思义,Places365包含超过180万张不同地点或场景的图像。其中包括办公室、码头和别墅。Places365是用于场景识别任务的最大数据集之一。6.Quickdraw位图——Quickdraw数据集是由Quickdraw玩家社区绘制的图像集合。它包含345个类别的500万幅画作。此版本的Quickdraw数据集包括28x28灰度格式的图像。7.SVHNCropped–StreetViewHouseNumbers(SVHN)来自斯坦福大学,是一个用于训练数字识别算法的TensorFlow数据集。它包含600,000个裁剪为32x32像素的真实世界图像数据样本。8.VGGFace2——最大的人脸图像数据集之一,VGGFace2包含从谷歌搜索引擎下载的图像。这些面孔因年龄、姿势和种族而异。每个主题平均有362张图像。9.COCO——由谷歌、FAIR、加州理工学院和更多合作者制作,COCO是世界上最大的标记图像数据集之一。它用于对象检测、分割和图像描述任务。CocoTensorFlow数据集包含330,000张图像,其中200,000张已标记。这些图像中有150万个对象实例分布在80个类别中。10.OpenImagesChallenge2019——包含大约900万张图像,该数据集是在线可用的最大带注释图像数据集。包含图像级标签、对象边界框和对象分割掩码以及视觉关系。11.OpenImagesV4——这个数据集是上面提到的OpenImages数据集的另一个迭代。V4有600个不同的对象类,包含1460万个边界框。边界框由人工注释者手动绘制。12.AFLW2K3D——该数据集包含2000张人脸图像,均标有3D人脸特征点。它用于评估3D人脸界标检测模型。VideoDataset13,UCF101–来自中央佛罗里达大学的UCF101是一个用于训练动作识别模型的视频数据集。该数据集包含13,320个视频,涵盖101个动作类别。14.BAIRRobotPushing–来自伯克利人工智能研究中心的BAIRRobotPushing包含44,000个机器人推动动作的示例视频。15.MovingMNIST——该数据集是MNIST基准数据集的一个变体。MovingMNIST包含10,000个视频。16.EMNIST——扩展MNIST包含从原始MNIST数据集转换为28x28像素格式的数字。音频数据集17,CREMA-D–CREMA-D是为情绪识别任务创建的,包括声音情绪表达。该数据集包含7,442个音频片段,由91位不同年龄、种族和性别的演员配音。18.Librispeech——Librispeech是一个简单的音频数据集,包含来自LibriVox项目的有声读物的1000小时英语演讲。它用于训练声学模型和语言模型。19.Libritts——该数据集包含大约585小时的英语演讲,是在GoogleBrain团队成员的协助下准备的。Libritts最初是为文本到语音(TTS)研究而设计的,但可用于各种语音识别任务。20.TED-LIUM–TED-lium是一个数据集,包含超过110小时的英语TED演讲。所有对话均已转录。21.VoxCeleb——VoxCeleb是一个用于说话人识别任务的大型音频数据集,包含来自1,251位说话人的超过150,000个音频样本。文本数据集22,C4(CommonCrawl的WebCrawlCorpus)——CommonCrawl是一个开源的网页数据存储库。它有40多种语言版本,涵盖7年的数据。23.民间评论——该数据集包含来自50个英语新闻网站的超过180万条公众评论。24.IRCDisentanglement——这个TensorFlow数据集包含来自UbuntuIRC频道的超过77,000条评论。每个样本的元数据包括消息ID和时间戳。25.Lm1b——该数据集称为语言模型基准,包含10亿个单词。它最初是为了衡量统计语言建模的进展而开发的。26.SNLI——斯坦福自然语言推理数据集是一个包含570,000对人类书写句子的语料库。所有对都被手动标记为类平衡。27.e-SNLI——该数据集是上述SNLI的扩展,包含来自原始数据集的570,000对句子,分类为:蕴含、矛盾和中性。28.MultiNLI——MultiNLI以SNLI数据集为模型,包括433,000对句子,所有句子都标有蕴含信息。29.Wiki40b——这个大型数据集包括来自40种不同语言的维基百科文章的文本。数据已被清理,非内容部分和结构化对象已被删除。30.YelpPolarityReviews——该数据集包含598,000条高度两极分化的Yelp评论。它们是从2015年Yelp数据集挑战赛的数据中提取的。
