数据是任何公司最有价值的资产之一,但它可能是我们最不了解的资产。我们有物理基础设施的规范和检查,我们有员工满意度调查,我们甚至有网站的正常运行时间监控和稳定性测试。但是,我们是否正在竭尽全力了解我们的数据面临风险的程度?安全不仅仅是保护我们自己免受黑客攻击。一方面,您面临政府法规和安全漏洞的巨大风险,这些风险可能会破坏整个组织的稳定。但即使是很小的事情——比如一点点坏数据进入系统——也会产生影响每个部门的涓滴效应。我们都可以更好地评估(和减轻)数据风险。关键是从小处着手:只要确保您在正确的位置拥有正确的数据即可。然后,您要确保正确的人可以访问数据,而错误的人不能。一旦涵盖了这些内容,并定义了保持数据清洁和标准化的流程,那么您就可以开始专注于将其作为日常实践。所需要的只是人员、流程和技术的正确组合。我们所说的“风险”是什么意思?当大多数人想到与数据相关的风险时,他们会立即想起高调的数据泄露事件,这些事件似乎以惊人的规律充斥着我们的新闻源。但是影响数百万用户的史诗般的泄密事件不会对大多数公司造成严重后果。即使是少数暴露的记录也会产生严重的法律、财务和声誉后果。这些违规行为是如何发生的?它可以像将正确的数据放在错误的位置一样简单。我们关于安全中心的大部分讨论都围绕着个人身份信息(PII)。如果PII数据未被识别或不在正确的字段中——例如,支付信息被错误地映射到不受保护的字段并被未经授权的个人查看——你可能面临暴露一些非常敏感信息的风险。但外部风险并不是我们应该担心的唯一危险。几年前,IBM的一项著名计算表明,不良数据每年给美国企业造成的损失超过3万亿美元。它被一千次削减、分配给手动数据更正的秒、分钟和小时、重新运行可疑报告以及执行最初根据后来发现有问题的数据确定范围的政策和程序所导致的死亡。当然,自IBM发布这项研究以来,我们必须处理的数据量增长了400%以上,并且还在不断增长。那么今天我们损失了多少?未来几年我们会损失多少?将所有这些危险放在一起,有一点很清楚:任何公司都无法承担将其数据暴露在风险中的后果。风险评估涉及什么?对于您的数据,没有任何一种灵丹妙药可以保护您免受任何情况的影响。但是,您可以通过仔细研究数据风险的三个方面来改善整体数据健康状况:来源、安全性和合规性。(1)数据来源了解各个来源的质量和数据映射的质量是评估风险的关键。当我们谈论数据源时,我们不仅要考虑数据来自哪里,还要考虑它是如何进入我们的系统的。例如,可以安全地假设您从供应商处购买的潜在客户列表不如您从最近的、有针对性的、双重选择加入的活动中捕获的潜在客户列表准确或最新。然而,即使您对来自每个来源的每条记录的准确性有100%的信心——包括销售人员手动输入、任何范围的在线表单提交、产品或移动应用程序中的参与,以及来自共享数据的合作伙伴或母公司的信息—您仍在查看多个来源的多个域、标准和定义。一个来源可能需要在电话号码字段中输入国家代码,而另一个来源则不需要。一个来源可能只有一个姓名字段,而所有其他来源都将名字和姓氏分开。让这些资源都讲同一种语言(可以这么说)本身就是一个挑战,但值得花时间和考虑。幸运的是,有一些技术可以将数据质量自动化作为数据集成过程的一部分,因此您可以避免因手动数据校正而投入大量时间的风险。(2)数据安全如果您的所有数据都收集在一个Excel电子表格中,则很容易指派一两个人来监控数据、保护数据并逐行验证数据。但这不是我们生活的世界。对于我们大多数人来说,我们的数据基础设施是一个由相互关联的程序和平台组成的复杂网络。显然,有专门用于连接系统和将数据提取到存储库的工具。一些企业仅仅通过这样做就取得了成功——但他们真的了解数据健康吗?他们甚至会知道他们是否存在数据质量问题?数据安全的第一步是安全地连接到我们的数据源,摄取数据并进行第一次数据质量检查,以确保我们在正确的领域获得正确的数据。其次,数据剖析技术可以帮助我们确保电话号码看起来像电话号码,电子邮件看起来像电子邮件等等,因此我们可以放心,我们不会对敏感信息进行错误分类。一些分析技术甚至可以自动解决常见的数据错误。之后,是时候让人们参与进来了,这样数据专家就可以手动更正、协调和验证自动化数据质量工具无法自信评估的任何记录。需要有适当的流程和工作流程,以便合适的人可以以正式的方式查看它。这将需要用于数据清点、数据管理和数据准备的技术。(3)服从良好的意愿——即使是那些有良好技术支持的意愿——也只能带你走这么远。英国信息专员办公室(ICO)最近的一项研究发现,高达90%的数据泄露可追溯到人为错误。信不信由你,这是个好消息——早在2015年,IBM就报告说,95%的数据泄露都是由人为错误造成的。所以……进步,我猜?技术(包括我们自己的数据目录)可以通过提供集中式基础架构来管理和确保整个组织的合规性来提供帮助。这些产品允许您建立明确的访问协议和权限来保护您的数据,而不会造成会降低人们工作效率的人为访问障碍。他们还可以按语义类型自动对数据进行分类,并构建定义明确的业务词汇表,以便每个人在处理数据时都使用相同的业务语言。如何降低数据风险如果您尝试同时处理所有事情,您会精疲力尽。相反,慢慢来,一步一个脚印。首先确保您向系统中输入良好、可靠的数据。然后,您可以建立长期保持数据健康所需的人员、政策和计划。第1步:数据集成保护自己免受数据泄露的最简单方法是确保它永远不会首先进入您的系统。理想情况下,您需要将自动数据质量检查设置为摄取过程的一部分。优先考虑数据源。有些比其他的更值得信赖,因此您需要确保选择提供最大价值的来源。这听起来很明显,但您应该始终确保任何数据摄取或迁移都是通过安全传输协议完成的。收集您的数据。尽可能将您的数据整合到数据湖或数据仓库中。与分散在一系列系统和部门中的数据相比,集中式数据更易于监控和管理。分析和清理您的数据。检查不完整或不准确的记录,删除重复项,并确保正确映射和标记每条记录的每个字段。第2步:数据治理数据治理是流程、角色、政策、标准和指标的集合,可确保有效和高效地使用信息,使组织能够实现其目标。数据治理的细节因公司而异,但通常至少涉及三个群体:IT(或数据工程师)。该小组负责收集数据、构建流程并使数据在组织内可用。数据管理员。这些人真正了解数据,不仅仅是纯粹的数据点,还包括企业将如何使用这些数据。他们将审查数据并确保它可以被使用和信任。企业用户。这些是数据的消费者,从分析师到部门主管,从最高管理层到个人贡献者。应该有明确的规则和权限设置来确定谁可以访问数据、何时访问以及如何访问。第3步:自动化除非您将关键数据保存在一个简单的电子表格中(这将是一种非常低效的经营方式),否则您将需要技术来自动执行管理数据的重复性任务。繁重的工作将来自IT,因为他们构建了自动化数据集成、数据质量和数据准备的技术和规则。从那里,治理和工作流可以协同工作。如果某些东西不能自动化,它会通过数据管理员的正式审查过程。一旦您定义并概述了您的初始流程,它就不再像往常一样只是一个练习。当新数据进入组织时,定义的流程会自动清理、丰富和标准化数据。任何无法通过自动化方式完全合规的数据都将通过定义的工作流程发送,并由最了解数据的人员进行更正。这将成为贵公司数据的自然生命周期。这听起来可能很乌托邦,但您不必一次完成所有事情。这可能需要时间——也许是思维方式的转变——但这是可能的。一旦你做了这个练习,就像肌肉一样,你越锻炼它就会越强壮。保护自己免受风险您的数据非常重要,不能让任何事情发生。您需要在适当的技术和自动化支持下平衡人员和流程,以跟上公司永无止境的数据流。在一个完美的世界中,我们都会拥有一流的安全解决方案,并100%遵循我们IT团队的每条建议。但即使在这个不完美的世界中,我们也可以取得重大进展。如果您准备好进行更改,请从小处着手:确保您的数据已规范化、清理并符合您拥有的任何标准。解决受损的数据源将在整个组织中产生连锁反应,使每个人都更有效率和效率,并释放资源来处理更大的数据问题。
