TensorFlow是由GoogleBrain的研究人员创建的最大的机器学习和数据科学开源数据库之一。它是一个端到端的平台,适合没有经验的初学者和经验丰富的数据科学家。TensorFlow库包括工具、预训练模型、机器学习教程和一整套公开可用的数据集。为了帮助您找到所需的训练数据,本文将简要介绍TensorFlow中用于机器学习的一些大型数据集。我们将下面的数据集列表分为图像、视频、音频和文本。TensorFlowImageDataset1.CelebA:TheCelebrityFaceAttributesDataset(CelebA)是最大的公开人脸图像数据集,包含超过200,000张名人图像。每幅图像包括5个面部注释和40个二进制属性注释。2.DownsamplingImagenet:这个数据集是为密度估计和生成建模任务而构建的。它包括超过130万张物体、场景、车辆、人物等图像。这些图像有两种分辨率规格:32×32和64×64。3.Lsun——Lsun是一个大型图像数据集,旨在帮助训练模型以进行场景理解。该数据集包含超过900万张图像,按场景类别划分,例如卧室、教室和餐厅。4.Bigearthnet——Bigearthnet是另一个包含Sentinel-2卫星航拍图像的大型数据集。每张图片覆盖一块1.2公里乘1.2公里的地面。该数据集中有43个类不平衡标签。5.Places365——顾名思义,Places365包含超过180万张不同地点或场景的图像。其中一些类别包括办公室、码头和别墅。Places365是用于场景识别任务的最大数据集之一。6.Quickdraw位图——Quickdraw数据集是由Quickdraw玩家社区绘制的图像集合。它包含345个类别的500万张图纸。此版本的Quickdraw数据集包含28×28灰度图像。7.SVHNCropped—StreetViewHouseNumber(SVHN)是斯坦福大学建立的用于训练数字识别算法的TensorFlow数据集。它包含600,000个裁剪为32×32像素的真实世界图像数据实例。8.VGGFace2——最大的人脸图像数据集之一,VGGFace2包含从谷歌搜索引擎下载的图像。数据集中的面孔在年龄、姿势和种族方面各不相同。每个类别平均有362张图像。9.COCO——由谷歌、FAIR、加州理工学院和其他合作者制作,它是世界上最大的标记图像数据集之一。它是为对象检测、分割和图像字幕任务而构建的。来自cocodataset.org的数据集包含330,000张图像,其中200,000张已标记。在所有图像中,总共包含80个类别的150万个对象实例。10.OpenImagesChallenge2019——包含约900万张图像,该数据集是网络上最大的标记图像数据集之一。这些图像包含图像级标签、对象边界框和对象分割掩码,以及它们之间的视觉关系。11.OpenImagesV4——这个数据集是前面提到的OpenImages数据集的另一个迭代。V4版本包含600个不同对象类别的1460万个边界框。这些边界框由人工注释者手动绘制。12.AFLW2K3D——该数据集包含2000张人脸图像,所有图像都有3D人脸真实标注。它的创建是为了评估3D面部注释检测模型。视频数据集13.UCF101——来自中央佛罗里达大学的UCF101是一个视频数据集,用于训练动作识别模型。该数据集包含101个动作类别的13320个视频。14.BAIRRobotPushing——来自伯克利人工智能研究所,BAIRRobotPushing包含44,000个机器人推动动作的示例视频。15.移动MNIST——该数据集是MNIST基准数据集的一个变体。MovingMNIST包含10,000个视频。每个视频显示2个手写数字在64×64帧内的移动。16.EMNIST——扩展的MNIST数据集,其中包含从原始MNIST数据集转换为28x28像素大小的图像。TensorFlow音频数据集17.CREMA-D——为情感识别任务而创建,CREMA-D由语音情感表达组成。该数据集包含7,442个音频片段,由91位不同年龄、种族和性别的演员配音。18.Librispeech——Librispeech是一个简单的音频数据集,包含来自LibriVox项目的有声读物的1000小时英语演讲。它用于训练声学模型和语言模型。19.Libritts——这个数据集包含大约585小时的英语演讲,是在GoogleBrain团队成员的协助下准备的。Libritts最初是为文本到语音(TTS)研究而设计的,但可用于各种语音识别任务。20.TED-LIUM——TED-LIUM是一个包含110多个小时的英语TED演讲的数据集。所有演讲均已转录。21.VoxCeleb——VoxCeleb是一个为说话人识别任务构建的大规模音频数据集,包含来自1,251个说话人的超过150,000个音频样本。文本数据集22.C4(CommonCrawl的WebCrawlCorpus)—CommonCrawl是一个开源网络数据库。它包含40多种语言的数据,时间跨度为7年。23.民间评论——该数据集由来自50个英文新闻网站的超过180万条公众评论组成。24.IRCDisentanglement——这个TensorFlow数据集包括来自UbuntuIRC频道的超过77,000条评论。每个样本的元数据包括消息ID和时间戳。25.Lm1b——被称为语言模型基准,该数据集包含10亿个单词。它最初是为了衡量统计语言建模的进展而开发的。26.SNLI——斯坦福自然语言推理数据集是一个包含570,000个人类书写句子对的语料库。所有的句子对都是手动标记的,并且类别是平衡的。27.e-SNLI——该数据集是上述SNLI的扩展,包含来自原始数据集的570,000个句子对,分类为:包含、矛盾和中性。28.MultiNLI——MultiNLI以SNLI数据集为模型,包含433,000个句子对,全部用尾部信息注释。29.Wiki40b——这个大型数据集包括40种不同语言的维基百科文章。数据已清理,非内容部分和结构化对象已被删除。30.Yelp极性评论——该数据集包含598,000条高度极性的Yelp评论。它们是从2015年Yelp数据集挑战赛的数据中提取的。虽然上述数据集是机器学习中一些最大和使用最广泛的TensorFlow数据集,但TensorFlow库非常庞大且不断扩展。访问TensorFlow网站,详细了解该平台如何帮助您构建自己的模型。
