当前位置: 首页 > 科技观察

大数据已死:智能数据永存

时间:2023-03-19 12:59:37 科技观察

十多年来,大数据一直在稳步增长。新兴的数据驱动型公司已经成长为价值数十亿美元的巨头,而成熟的市场领导者很早就认识到数据的力量并进行了相应的投资。但与许多事情一样,2020年为数据战略敲响了警钟,尤其是许多不能立即产生价值的战略。我认为是时候接受大数据的局限性并接受对智能数据的需求了。向智能数据的转变已经持续了至少十年。我自己公司背后的核心理念是为企业提供改善需求预测所需的智能数据。虽然准确的外部数据是为数不多的可以为您的计划带来确定性的因素之一,但许多数据科学家报告说他们花费了大约80%的时间来清理、验证和准备数据。在智能数据的新时代,经过清洗、验证、特征化并可以插入模型并开始快速交付价值的数据,可能性很高。通过配置智能数据,模型可以更快地找到和使用最具影响力的数据,以了解世界的运作方式并做出更好的决策。充分利用智能数据的企业很可能是那些已经摆脱大数据思维模式的企业。我们如何被大数据淹没?几十年来,企业一直在向数据源投入资金,并将更多信息注入数据湖。然而,新数据并不总是等同于新智能(对于机器学习模型,尤其是核心业务战略),慢慢地,所有这些数据的权重都会增加。由于大多数数据源都需要清理和规范化,因此雇用一名拥有多个研究生学位且通常每周大部分时间都在清理底层数据的员工的成本很高。当将近90%的数据科学项目从未投入生产时,再加上生成有用的机器学习模型的复杂性,意味着大型数据科学投资不会产生可观的回报。2020年进入大流行时代。当财务团队对所有事情进行精细管理时,任何事情都必须做好准备。正确的数据项目决定成败,但任何不能用于改进核心功能(例如需求预测、定价或提高竞争优势)的东西都没有意义。更好的数据时代已经结束,现在是智能数据新时代的时候了。大规模聚合和使用数据只是开始,最重要的部分是获取价值。您现在如何获得数据?过去10年的分析瘫痪已经结束。长期以来,大数据策略一直试图沸腾数据的海洋。这些极简主义方法行不通,因为它们太难了。他们从来没有这样做过,而且当您的团队成员较少、利润率较低并且您的需求预测依赖于过去的数据时,他们肯定不会这样做。据我所知,目前最好的企业更多地关注从数据湖的深度和广度中获取最大价值。现在是时候将我们的数据策略从瘫痪状态转变为启用状态,以捕获资产并将其转化为可以从中获取价值的东西。现在,释放您的数据科学家去做他们梦寐以求的工作:构建模型以利用大数据进行劳动力优化和价格预测等核心流程,而不是收集、汇总和清理数据。麦肯锡的首席数据官和该公司的一位合伙人在2月份的一篇文章中说得很好:“许多公司在收集和利用自身活动中的数据方面取得了长足的进步。尽管如此,到目前为止,很少有人意识到链接内部数据的全部潜力使用第三方、供应商或公共数据源提供的数据。忽略此类外部数据是一个错失的机会。......COVID-19危机提供了一个例子,说明在短短几个月内,外部数据、消费者购买习惯、活动和数字行为发生了巨大变化,使得先前存在的消费者研究、预测和预测模型已经过时;此外,随着组织争先恐后地了解这些不断变化的模式,发现内部数据几乎没有用。外部数据可以而且仍然可以提供帮助组织在细粒度级别进行计划和响应。”展望未来,您可以使用数据为动态决策提供信息,并使模型更加准确,从而在大流行的混乱中提供确定性。您可以使用数据做出有关效率和机会的明智决策,这些决策会立即发现,而不是五人研究团队三个月后。这就是智能数据的力量。智能数据的定义是什么?随着企业学会利用,自动化和机器学习至关重要。智能数据始于可靠且经过验证的数据,而不仅仅是实际记录。它需要丰富、情境化和特征化,使其不再只是原始信息,而是高质量的信息。这减少了将新数据输入机器学习模型时的摩擦和容易出错的性质。在评估每个新数据源时,您应该询问以下内容:数据是否提供了足够的深度来为我构建模型要解决的问题提供足够的上下文?数据的有效性和准确性如何?作为我们进入期待已久但混乱的恢复阶段,更新和重新验证的频率是多少?它是否足够丰富以至于我的模型知道如何处理它的输入?哪些核心将使我的机器学习模型更快、更好地做出业务决策?我能否轻松解释此数据源显示的内容,以及它如何影响我的预测和运营?去年,终极黑天鹅事件让很多企业措手不及。许多人现在都在努力整合新数据并推出数据驱动的恢复计划,以了解什么会推动他们的需求。无论是电视转播的体育比赛还是飙升的需求,洪水或恐怖袭击削弱了需求,还是许多大型活动造成了大多数企业无法预料的聚会规模,许多企业都参与其中。我认为每个企业都必须这样做。