有人把数据称为新石油。也有人称之为新型黄金。哲学家和经济学家可能会质疑这个比喻的质量,但毫无疑问,组织和分析数据对于任何希望实现数据驱动决策承诺的企业来说都是至关重要的。为此,可靠的数据管理策略是关键。数据管理包括数据治理、数据运营、数据存储、数据工程、数据分析、数据科学等,如果做得好,可以为每个行业的企业提供竞争优势。好消息是,数据管理的许多方面都得到了很好的理解,并且基于几十年来发展起来的合理原则。例如,它们可能不容易应用或简单理解,但由于实验室科学家和数学家的努力,公司现在拥??有一系列用于分析数据和得出结论的逻辑框架。更重要的是,我们还有统计模型,可以绘制误差线来描述我们分析的局限性。但是,尽管数据科学的研究和支持它的各种学科带来了所有好处,但有时我们会感到被划伤。企业经常会遇到这个空间的限制。一些悖论与收集和组织如此多数据的实际挑战有关。其他的是哲学的,测试我们推理抽象品质的能力。此外,由于首先收集了如此多的数据,隐私问题也越来越多。以下是一些保守得最好的秘密,它们使数据管理成为许多企业的挑战。|非结构化数据难以分析|公司档案中存储的大部分数据根本没有结构。我的一个朋友渴望使用人工智能来搜索他所在银行的呼叫中心工作人员所做的成绩单。这些句子可能包含有助于改善银行贷款和服务的见解。但是这些笔记是由数百名不同的员工记录的,他们对于在给定的电话上写什么有不同的想法。此外,工作人员的写作风格和能力各不相同。有些人写得不多。有些人写下了太多关于他们给定电话的信息。文本本身可能一开始确实没有什么结构,但是当你有成百上千的员工几十年来写的一堆文本时,那么无论有什么结构都是无用的。|甚至结构化数据通常也是非结构化的|优秀的科学家和数据库管理员通过指定每个字段的类型和结构来指导数据库。有时,对于更多的结构名称,它们将给定字段的值限制为某个范围的整数或预定义的选择。即便如此,填写存储在数据库中的表格的人仍会想方设法增加麻烦和故障。有时字段留空。其他人填写破折号或首字母“n.a.”当他们认为某个问题不适用时。人们甚至在同一张表中每年、每天、甚至每一行都有不同的名字拼写。优秀的开发人员可以通过验证发现其中的一些问题。优秀的数据科学家还可以通过清理来减少一些不确定性。但是,令人抓狂的是,即使是最结构化的表也可能有可疑条目,而这些可疑条目可能会在分析中引入歧义甚至错误。|数据模式要么太严格要么太松|无论数据团队如何努力阐明模式约束,用于定义各种数据字段中的值的最终模式要么太严格要么太松散。如果数据团队添加严格的约束,用户会抱怨他们的答案没有出现在可接受值的狭窄列表中。如果模式太宽松,用户可以添加一些不一致和奇怪的值。几乎不可能得到恰到好处的模式。|数据法非常严格|有关隐私和数据保护的法律非常强大,而且只会越来越强大。在GDPR、HIPPA等法规之间,汇集数据非常困难,让数据坐等黑客入侵更是危险。在许多情况下,为律师支付更多费用比为程序员或数据科学家支付更多费用更容易。这些令人头疼的问题就是为什么一些公司只要有可能就简单地删除他们的数据。|数据清理的成本是巨大的|许多数据科学家会证明,他们90%的工作只是收集数据,以一致的形式将其放在一边,并处理无休止的错误或错误。拥有数据的人总是说,“一切都在CSV中,准备好了”。但他们没有提到那些空白字段或错误描述。与在R或Python中启动程序以实际执行统计分析相比,花费在清理数据以用于数据科学项目的时间多10倍。|用户越来越怀疑你的数据做法|最终用户和客户越来越怀疑公司的数据管理做法,而一些人工智能算法及其使用只会放大这种恐惧,让许多人怀疑记录他们的一举一动。对数据发生的事情感到非常不安。这些担忧加剧了监管,并经常让公司甚至是善意的数据科学家卷入公关反击中。不仅如此,人们还会故意用虚假值或错误答案来干扰数据收集。有时一半的工作是与恶意合作伙伴和客户打交道。|整合外部数据可以带来回报或带来灾难|公司拥有其收集的数据的所有权是一回事。IT部门和数据科学家对此有控制权。但越来越激进的公司正在想方设法将自己的信息与第三方数据以及Internet上的大量个性化信息相集成。一些工具公开承诺会收集每位客户的数据,为每次购买创建个性化档案。是的,他们使用与追捕恐怖分子的间谍机构相同的词来跟踪您的快餐购买和信用评分。人们感到焦虑和恐慌,这有什么奇怪的吗?|监管机构正在打击数据使用|没有人知道聪明的数据分析何时越过了界限,但一旦越过了,监管机构就会出现。在加拿大最近的一个例子中,政府探索了一些甜甜圈店如何追踪也在竞争对手处购物的顾客。最近的一份新闻稿宣布:“调查发现TimHortons与一家美国第三方定位服务提供商的合同中包含的语言非常模糊和宽容,以至于该公司可以出售‘去识别化’的定位数据。”为什么?卖更多的甜甜圈?监管机构越来越关注涉及个人信息的问题。|你的数据解决方案可能不值得|我们想象一个好的算法可能会让一切变得更高效、更有利可图。有时这样的算法实际上是可行的,但也可能过于昂贵。例如,消费者——甚至公司——越来越多地质疑来自精心设计的数据管理的目标营销的价值。一些人指出,我们经常看到我们已经购买的东西的广告,因为广告跟踪器还没有发现我们已经完成了购买。同样的命运往往等待着其他巧妙的计划。严格的数据分析有时可以找出表现最差的工厂,但这并不重要,因为该公司对该建筑物的租期为30年。公司需要做好准备,这些数据科学天才可能会提供无法接受的答案。|归根结底,数据决策往往只是判断|数字可以提供足够的精度,但人类如何解读数字往往才是最重要的。在所有数据分析和AI魔法之后,大多数算法都需要决定某些值是高于还是低于某个阈值。有时科学家希望P值低于0.05。有时警察会对超速20%的汽车开罚单。这些阈值通常只是任意值。有了所有可以应用于数据的科学和数学,许多“数据驱动”过程中的灰色地带比我们想象的要多,尽管公司可能在其数据管理实践中投入了所有资源,但做出决策直觉。|数据存储成本呈爆炸式增长|是的,磁盘驱动器越来越胖,每兆字节的价格正在下降,但程序员收集数据的速度快于价格下降的速度。物联网(IoT)中的设备不断上传数据,预计用户将永远浏览这些丰富的字节集合。与此同时,合规官员和监管机构继续要求越来越多的数据用于未来的审计。如果有人真的查看了一些数据,那将是一回事,但我们一天只有这么多时间。实际被重访的数据比例不断下降,越来越低。然而,存储不断扩展的数据包的价格不断上涨。来源:www.cio.com微信编译:Jaro
