来源:Pexels注:谷歌新数据集搜索工具于2020年1月23日上线,在疫情防控阶段,大家的“寒假”越来越长.这么“长”的寒假,我们能做什么呢?最近,谷歌发布了一款免费工具datasetsearch,可以搜索2500万个公开可用的数据集。搜索工具包括过滤器,可根据许可证(免费或付费)、格式(csv、图像等)和更新时间限制结果。结果还包括对数据集内容的描述和对作者的引用。谷歌的数据集聚合方法不同于其他数据集存储库(例如亚马逊的开放数据注册中心)。与其他自行管理和托管数据集的存储库不同,Google不直接管理或提供对2500万个数据集的访问。相反,Google依靠数据集发布者使用schema.org的开放标准来描述其数据集的元数据。然后,谷歌将元数据编入索引,并使其可在出版商之间进行搜索。出版商仍然需要自己托管数据集,因此符合schema.org标准的营利性出版商也会使用谷歌来索引他们的数据集。根据以往的经验,我发现在搜索与市场相关的数据集时,这个百分比更高,搜索结果中大约一半的数据集来自营利性聚合器。该平台上其他受欢迎的数据集发布者包括政府机构和研究机构。谷歌声称仅美国政府机构就发布了超过200万个数据集。据谷歌称,大部分数据集属于“地球科学、生物学和农业领域”。只需使用schema.org的开放标准来发布您自己的数据集。随着越来越多的出版商遵守该标准,公开可用的数据集的数量可能会继续增长。目前,Google不提供用于搜索或下载免费数据集的API。数以百万计的数据集充斥着网络,对于用户感兴趣的几乎任何主题,都有数以百万计的数据集。如果你想买一只小狗,你可以查找汇总买家投诉的数据集或查找有关小狗意识的研究。或者,如果您喜欢滑雪,您可以查找有关滑雪场收入或受伤率以及受伤人数的数据。DatasetSearch已为近2500万个此类数据集编制了索引,从而可以搜索数据集并在一个位置查找指向数据所在位置的链接。在过去的一年里,人们对其进行了试用并提供了反馈,现在DatasetSearch正式结束了测试版。查询“滑雪”的一些搜索结果,这是最快滑雪者速度和滑雪胜地收入的数据集。数据集搜索有什么新功能?根据从DatasetSearch的早期测试版收到的反馈,开发人员添加了新功能。现在可以根据所需数据集的类型(例如表格、图像、文本)或是否可从提供商免费获得来过滤结果。如果数据集是关于某个区域的,您可以查看地图。此外,该产品现在可在移动设备上使用,数据集描述的质量也得到了极大提高。然而,有一件事没有改变:任何发布数据的人都可以使用开放标准(schema.org)在自己的网页上描述其数据集的属性,从而使数据集在搜索中可被发现。开发人员还了解到,有不同类型的人在寻找数据。有学术研究人员寻找数据来支持他们的假设(例如:尝试催产素),学生寻找表格形式的免费数据并涵盖他们毕业论文的主题(例如:使用适当的过滤器尝试监禁率),商业分析师和数据科学家寻找有关移动应用程序或快餐店等的信息。所有这些都有数据!用户在搜索什么?最常见的查询包括“教育”、“天气”、“癌症”、“犯罪”、“足球”和“狗”。上图显示了查询“快餐店”的一些搜索结果。数据集搜索中有哪些数据集?数据集搜索还提供在线数据的快照。这里有一些亮点。数据集涵盖的最大主题是地球科学、生物学和农业。世界上大多数政府都使用schema.org发布数据并对其进行描述。美国在拥有超过200万个可用的开放政府数据集方面处于领先地位。最流行的数据格式是什么?用户可以在DatasetSearch中找到超过600万张表。数据集搜索中找到的数据集数量持续增长。如果您在网站上有一个数据集并使用开放标准schema.org描述它,其他人可以在DatasetSearch中找到它。如果您知道存在数据集,但无法在DatasetSearch中找到它,请要求提供者添加schema.org描述,其他人将了解他们的数据集。未来在哪里?DatasetSearch已结束测试版,但无论产品是否处于“测试版”,改进都会继续。立即下载并体验DatasetSearch!
