01查找位置对于常见问题,可以从很多地方开始搜索。GoogleDatasetSearch用于数据集,就像GoogleScholar用于研究论文一样。Google搜索的应用无处不在。这是学习特定主题的绝佳起点。谷歌还管理着自己的通用公共数据存储库,称为谷歌公共数据,亚马逊拥有自己的AWS数据注册中心。Kaggle.com是一个致力于数据科学的在线社区。它有一个由社区和组织贡献的大型数据集存储库,有大量主题可供选择。该站点还是一个很好的资源,可以通过竞赛或讨论的形式学习数据分析的来龙去脉。研究机构经常发布科学数据供公众消费。如果您需要敏感的人类数据(如果您确信它已被正确匿名化),这将特别有用。在澳大利亚,我们有澳大利亚统计局、联邦科学与工业研究组织(CSIRO)等机构,甚至还有一个用于访问所有政府数据的在线门户网站data.gov.au。在世界其他地方,著名的机构包括NASA、NOAANIST、CDC、WHO、UNICEF、CERN、MaxPlanckInstitute、CNR、EPA等。同样,许多国家/地区都有中央政府数据存储库,例如data.gov(美国),开放.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。一些具有非科学目的的公司甚至会在达到可以自己进行内部研究或被要求进行内部研究的规模时发布数据存储库。一个很好的例子是世界银行和国际货币基金组织(IMF),它们已成为开放金融和海量数据的主要来源。在允许的情况下,从信誉良好的组织获取数据是确保准确性、覆盖范围以及适用的价值类型和格式的绝佳方式。FiveThirtyEight和BuzzFeed等新闻网站提供从公众调查中获得的数据以及从关键文章中收集的数据,范围从可能涉及公众福祉的重要社会和政治数据(互联网审查、政府监控、枪支、医疗保健等).),到分数或民意调查,从体育运动的一切。Reddit的/r/datasets是分享信息的好地方。您可以浏览人们发布的有趣内容,或寻求有关特定问题的帮助。甚至还有一些很好的元信息,比如有人发布了每个开放数据门户的详尽列表。当您浏览Reddit时,/r/MachineLearning也是一个不错的选择。有时,随机的发烧友也能真正为您服务。作者个人最喜欢的网站是乔纳森的太空主页,哈佛-史密森天体物理学中心的天体物理学家在该网站上维护着所有发射到太空的物体的详尽清单。作为一个副项目,它太棒了。稍微不寻常的数据的另一个重要来源是在线整数序列百科全书(OEIS),这是各种数字序列及其附加信息的巨大集合,例如用于生成序列的图形或公式。因此,如果您对加泰罗尼亚数字感到好奇或想了解忙碌的海狸问题,OEIS已为您排序。还有无数网站致力于成为开放政府、重要研究出版物中使用的学术数据等领域的数据集的中央登记处。这或许说明了一点:数据无处不在。我们每时每刻都在创造更多的东西,并且有很多人和组织正在努力让我们所有人都受益。个人对数据源的偏好是随着时间和经验而建立的,因此要广泛探索和试验。02寻找什么在开始搜索之前,对您需要什么来模拟您要解决的问题有一个清晰的计划。在要包含的潜在数据中,请考虑以下内容:数据中出现的值及其类型。收集数据的个人或组织。用于收集数据的方法(如果已知)。收集数据的时间范围。单独收集是否足以解决您的问题。如果没有,合并其他来源是否容易?预先准备好的数据集通常需要修改以用于其他用途。这样,即使可以假设数据已经干净(应该验证以防万一),仍然可能需要进行一些数据转换。为确保输出质量,您应该从此处观察通常的数据准备步骤。请记住,在某些时候,可能需要一些额外的或不同格式的信息才能产生预期的结果。预先构建的数据集是一个很好的起点,但它永远不应免于审查:修改或替换不合适的数据集,即使它需要在短期内进行大量工作。03构建数据集要从头开始创建数据集,您必须从某个地方获取原始数据。这些努力通常分为三个主要方面:记录数据、组织数据和收集数据。免责声明每个国家都有自己的关于数据集收集、存储和维护的法律法规。本节中描述的一些方法可能在一个语言环境中是合法的,但在下一个语言环境中是非法的。在未首先检查数据集的合法性之前,您不应该采取任何行动来获取数据集。通过数据抓取或跟踪方法观察不属于您的在线内容可能会在世界某些地方招致严厉的处罚,无论您是否知道或您的目的是什么。这不值得做。其他方法在法律上可能没有明确规定,例如从公共场所收集照片或视频,或提供数据的所有权用于其他目的。即使数据集有一个许可证声明你可以使用你想要的数据,在你拥有数据之后,仔细考虑收集它的方法和责任。您所在地区的法律始终优先于授予您访问数据的权限。根据经验,如果您没有自己创建数据,则您不拥有它(即使您确实创建了它,您仍然可能不拥有它)。因此,除非您明确许可,否则不能收集或使用它。1.DataloggingDatalogging是一流的数据收集:你自己观察现象和性质,记录你自己独特的数据。这可以通过传感器或相机等物理设备,或网络跟踪器或爬虫等数字观察设备来完成。您可以收集有关在特定位置发生的操作或环境条件的数据,记录您要识别的不同对象的图像,或记录网络服务的流量以预测用户行为。您可以使用这些方法为以前可能没有观察到的主题创建高度针对性的数据集,但这是最耗时的方法。所收集数据的质量还取决于用于收集数据的设备或方法,因此建议具备一些专业知识。2.数据整理数据整理是结合多种信息源以创建新数据进行分析的做法。它可以通过从报告中提取数据、合并来自不同在线来源的数据或查询API来构建。它以有用的方式汇集了存在于许多地方的数据。在某些情况下,整理数据几乎与记录或生成自己的数据一样耗时,但更有可能创建一组关于发生在难以到达的地方(例如海外或私人组织内部)的现象的数据。不共享问题初始数据集的公司可能会发表多篇包含所有数据的论文。或者,一个不允许您下载每个做过Y的用户的记录的站点可能允许您无限次查询用户X是否做过Y?整理数据的质量取决于您对合并数据源的重视程度。某些数据编组错误可能会危及整个项目,例如合并使用不同测量单位的源或简单的转录错误。3.数据抓取数据抓取是一种收集大量已经存在但可能未被观察到的信息的方法,可以生成适合消费的结构化数据。这是过去社交媒体分析的主要方式(尤其是第三方),但许多平台限制了人们获取数据或使用从其服务中获取的数据的能力。抓取是使用可以加载、观察和下载大量内容的软件执行的,通常是不加区别地从网络目标中下载,然后可以对其进行调整以供使用。数据捕获必须是有目的的。
