当前位置: 首页 > 技术突破

营救互联网上被遗忘的珠宝

时间:2024-02-27 12:36:05 技术突破

  您只需要查看社交网络上的出版物的速度变得过时,才能实现数字活动的内在内容:其短暂的性质。多年来,联合国教科文组织一直在呼吁保存在线生产的“巨大的信息宝库”。不同实体的努力允许启动此任务,而开创性的项目是互联网档案组织的努力:大规模营救互联网的珠宝。

  3910亿个网页,2000万本书和文本以及超过1150万音频,视频,图像和软件程序。这是巨大的Internet存档库的内容。而且,每天,除了网站之外,还将成千上万的其他被救出的物品添加到该系列中(例如,这里是第一个保存的OpenMind版本),还有电视频道,广播电台和学术文章的空间。

旧金山互联网档案馆的总部。学分:girl2k

  Wayback机床在消失之前几乎保存了几乎任何网页的复制品(即使是根据用户的要求)。所有存档材料的副本占45次以上。他们说:“我们至少存储了所有内容的两份。”

  研究人员的资源

  为什么需要这么多工作?Wayback Machine总监Mark Graham给出了一个原因:“因为如果网站倒闭,公司倒闭,政府更改,内容管理系统在不关心的情况下更改或网页的内容。改变了,该信息可能永远丢失。”他向OpenMind解释说。

  “网络显然是我们时代的媒体。网络上的内容是了解社会的关键,对于未来的研究人员来说,将是一个宝贵的资源。

  有时,互联网档案救援行动是一场真正的竞赛。最近的例子之一就是Yahoo!集体页面是一组公共和受限制的论坛,在过去的几年中,来自世界各地的用户都讨论了各种主题。雅虎已决定截至2019年12月14日删除所有公共内容,互联网档案很快就开始采取行动。它在LinkedIn上发布:“互联网档案正在尽可能地节省……”。

Internet Archive已审查并编辑了超过1400万个Wikipedia页面的链接,其中30种语言。学分:SAI5

  Graham解释说,指导该机构档案管理员的标准之一是追求内容的“详尽”。他解释说:“世界上有15万多个“新闻”来源。”一个重要的方面是找出材料的起源,“确保存档的内容的完整性”和“能够相信源是源是源头,并且内容尚未被更改。”

  在近年来,在互联网档案的活动中,有一个是在30种语言中审查和编辑超过1400万个Wikipedia页面上的链接,将其中超过1100万个语言存储在其档案中,并将“ 130,000本书引用到直接的链接到直接的链接到50,000个数字化量。”他们坚持认为,目标是使网络“更可靠”。

  从政府限制中节省信息

  这个位于旧金山的大型非营利性数字图书馆的承诺也是由于担心数字世界的信息可能会突然消失。格雷厄姆说,最糟糕的场景是“核战争破坏了大量人文学科收集的知识”。他补充说,但是数字遗产也可能遭到政府的损害,这些政府在存在许多纪录片信息的情况下看到威胁。

Internet档案转换为130,000本书引用,直接链接到50,000个数字化卷。图片来源:dvortygirl

  有了这一论点,该组织的创始人布鲁斯特·卡尔(Brewster Kahle)在唐纳德·特朗普(Donald Trump)赢得美国大选后不久就创建了加拿大档案馆的整本副本是合理的。他说,新总统的政府暗示可能会有“更大的限制”。“政府的监视不会消失;确实,看起来它会增加。”他在一篇文章中写道。

  而且,正如格雷厄姆(Graham)指出的那样,“世界上大多数国家都没有正式计划来归档其公民或政府生产的数字内容。”Masanès说:“我们目前错过了通过平台发布的大量公共和有价值的信息。”“考虑一下Twitter在当前的政治辩论中的重要性。”

  大量和选择性的扫描

  根据国际电信联盟的数据,目前,全球约有41亿互联网用户。是否可以存储它们生成的所有数字信息?如何选择存储什么?格雷厄姆(Graham)和马萨内斯(Masanès)都同意,借助当前的资源,只能保存数字遗产的一小部分。

  格雷厄姆(Graham)认为,有内容“可以或应该完全保存”,例如公共行政部门,非政府组织和学术界的内容。但是在其他情况下,例如在社交网络中,他认为确定选择标准更负担得起。

镜子?互联网档案中的互联网档案馆。学分:Nikola Smolenski

  例如,西班牙国家图书馆基于大规模和选择性聚会进行网络存档工作。正如图书馆数字流程和服务总监MarPérez在过去十年中解释(依靠互联网档案直到2013年),该公共机构每年对所有注册在.es域注册的网站进行了一次扫描存储的1,900,000个网站的副本。它还保留了特定领域的集合(国家或区域出版社,网站,网络出版物,博客,视频,例如与特定主题相关的数字材料)。他说:“这项救援工作现在还不众所周知,但它的重要性将在几十年内变得很清晰。”“如果我们不保留网络上发生的事情,那么在50年内,我们将没有任何记录我们当时发生的事情。”

  Masanès认为,仍有工作要做,在要遵循的准则中,他表示建立了专门针对数字归档的机构。在领导该倡议结束的基础之后(根据他的“缺乏资金”),由于缺乏整个欧洲的单个数字档案馆的存在。“这确实是可惜的,因为创建这样的基础设施的成本将低于中型博物馆或公共图书馆的预算。而且我们只需要一个在整个欧洲!”他说。

  马克·格雷厄姆(Mark Graham)说:“我们必须使维护数字遗产与保存书籍一样重要。”

  弗朗切斯科·罗德拉(Francesco Rodella)

  @francrodella