数据集很容易按需搜索。这个工具有近2000个图像数据集,可以免费获取每个从事机器学习项目的人似乎都有这种痛苦。也就是从学术网站和GitHub上找到合适的数据集。但是现在,有这样一个网站可以帮你搞定,让AI开发变得越来越简单。这个项目叫BIFROST,一个数据集搜索工具,里面一共包含1899个图像数据集,还专门设置了分类,比如Humans,Geospatial,AutonomousCars等等。一键搜索,免费获取,直接链接原始数据库,帮助您快速找到合适的数据集。研究团队来自新加坡,在Reddit上17小时拥有200+人气。使用说明就不多说了,直接上这个网站试试吧~刚才你看到了,这个工具是按照任务、应用、类别、标签或者格式来分类的。本站按“类别”分为Humans、Geospatial、AutonomousCars、Retail、3D等18个类别,向左滑动,选择需要的类别,一键显示结果。我们以3D为例,再呈现这样一个页面。如果以“Humans”为例,界面是红紫色的。我们还看到这是按选择排序的。此外,您还可以选择“最新”、“最大标签数”、“数据集大小”和“最大图片数”类别。除了“快速搜索”之外,您还可以根据开发者的具体需求进行搜索。可以选择这些“限制”:任务类型、标签格式、最小图像数量。任务类型主要包括图像分割、目标检测、图像分类、姿态估计、视觉推理、3D重建和视频分类。标签格式包括YOLO、PASCAL、COCO和Segmentation。该数据集以COCO为例,是一个适用于目标检测、图像分割和字幕的大规模数据集。界面如下:主要分为图像示例、数据集介绍、特征、类别分布四个部分。在介绍部分,可以看到这个数据集的研究团队,一句话介绍,以及通过CC4.0协议的部分,也可以直接链接到原始数据库和论文地址。CC4.0协议是CreativeCommons许可协议,是一种允许他人分发作品的公共版权许可,类似的,MIT协议。笔者此次选取的近2000个数据集均通过了两种协议。所以网站并不直接管理这些数据集,它只是数据集的“搬运工”。在“类别分布”部分,会先提示没有标签或标签过多的图片数量。然后根据不同的标签类别,显示各自的图像数量分布。这个项目的负责人是来自新加坡的CharlesWong,他目前是Bifrost的CEO。毕业于新加坡科技设计大学,曾参加麻省理工学院全球领导力课程。接下来,他们的工作将主要集中在这些方面:对网站上的每个数据集进行综合分析改进搜索方式使用户能够上传和分享自己的数据集生成自己的合成数据集“为什么我们的数据更好?”就像网站上介绍的一样,它可以让你快速找到合适的图像数据集,精度高,准确率高。感兴趣的朋友,可以点击下方链接试一试哦~网址:https://datasets.bifrost.ai/
