Gartner将黑数据定义为信息资产组织在常规业务活动期间收集,处理和存储的信息,但通常无法用于其他目的(例如,分析,业务关系和直接货币化)。与物理学中的暗物质相似,黑暗数据通常包括大多数组织的信息资产宇宙。因此,组织通常仅出于合规目的保留黑暗数据。存储和保护数据通常会比价值更大的费用(有时甚至更大的风险)。
暗数据是一种在数据存储库中发现的非结构化,未标记和未开发的数据,尚未分析或处理。它类似于大数据,但在其价值方面主要被企业和IT管理员忽略的方式有所不同。
黑数据也称为尘土飞扬的数据
暗数据是在大型企业类数据存储位置中存储的日志文件和数据档案中发现的数据。它包括尚未分析的所有数据对象和类型,用于任何业务或竞争情报或辅助业务决策。通常,黑暗数据很复杂,可以分析并存储在分析困难的位置。总体过程可能会很昂贵。它还可以包括企业尚未扣押的数据对象或组织外部的数据,例如合作伙伴或客户存储的数据。
IDC表示,多达90%的大数据是黑数据
随着组织在组织中结构化,非结构化和半结构化数据的累积 - 通过采用大数据应用程序,尤其是暗数据尤其表示未分析的操作数据。如果公司可以利用它来促进新收入或降低内部成本,则这些数据被视为经济机会。一些通常剩下的数据示例包括可以为网站访问者行为提供线索的服务器日志文件,客户呼叫详细信息记录,这些记录可以指示消费者情绪和移动地理位置数据,这些记录可以揭示流量模式以帮助业务计划。黑数据还可以用来描述无法再访问的数据,因为它已存储在已过时的设备上。
黑暗数据类型
目前尚未收集的数据。
正在收集的数据,但这很难在正确的时间和地点访问。
收集和可用的数据,但尚未生产或充分应用。
与暗物质不同的暗数据可以曝光,其潜在的ROI也可以。更重要的是,通过成本效益分析来思考如何处理数据的简单方法可以消除围绕先前神秘的黑暗数据的复杂性。
黑暗数据的价值
黑数据带来的主要挑战不仅是存储它,而且还确定其实际价值(如果有的话)。实际上,由于组织根本不知道其包含的内容,因此许多黑暗数据仍然没有刷新。破坏它可能太冒险了,但是分析它可能会昂贵。如果数据的潜在价值未知,则很难证明这笔费用是合理的。为了确定其黑暗数据是否值得进一步分析,组织需要一种快速和成本上有效地对其进行分类,构造和可视化的方法。获取黑暗数据的重要事实是要了解这不是一次性事件。
了解黑数据价值的第一步是确定黑暗数据中包含的信息,其居住的位置以及其当前状态在准确性,年龄等方面。到达这种状态将需要您:
分析数据以了解基础知识,例如您拥有的数量,居住的位置以及存在多少类型(结构化,非结构化,半结构化)。
对数据进行分类,以开始了解您拥有的类型中的多少,以及这些类型中包含的信息的一般性质,例如格式,年龄等。
根据接下来会发生的事情对您的信息进行分类。会存档吗?被摧毁?进一步研究?一旦做出这些决定,您就可以将数据组发送到他们的各种房屋,以隔离您要进一步探索的信息。
确定数据组的相对上下文后,现在您可以专注于您认为可能提供见解的数据。您还将对组织的完整数据格局进行更清晰的了解,以便制定信息治理政策,以减轻黑数据负担,同时还可以使其正常工作。
黑暗数据的未来
当客户自我意识到自己的问题时,通常不会在现有市场中发挥黑暗数据问题的创业公司。他们正在通过浮出水面的数据并使用该数据创建未想象的应用程序来创建新市场。但是,当他们成功时,讽刺的是,他们成为大数据问题。
许多人问的问题是:黑暗数据应该怎么办?有人说,由于存储非常便宜,因此永远不会丢弃数据,并且将来数据可能具有目的。
本文也发表在艾哈拉法的LinkedIn个人资料中
<
艾哈迈德·巴纳法(Ahmed Banafa)
教师|自动|会议|五次年度教练
参考: