当前位置: 首页 > 技术突破

小数据与大数据:返回基础知识

时间:2024-02-27 12:35:01 技术突破

  小数据是以卷和格式的数据,使其可访问,内容丰富且可操作。

  小型数据组提供以下说明:

  小型数据将人们与及时,有意义的见解(源自大数据和/或“本地”来源衍生而来),有组织和包装(通常在视觉上),以便于日常任务可访问,可理解且可以采取行动。

  该定义适用于我们拥有的数据,以及最终用户应用程序和分析师工作台,用于将大数据集变成可行的小数据。这里的关键“动作”单词是连接,组织和包装,“值”源于使所有人都可以使用的见解(易于使用),易于应用(易于理解),并且专注于手头的任务(可操作)。

  一词小数据与大数据形成对比,这通常是指在之前或exabytes中可以测量的结构化和非结构化数据的组合。通常认为大数据以3V的特征:数据量,多种数据类型和处理的速度,所有这些结合在一起以使大数据非常难以管理。相反,小数据由可用的块组成。

  大数据的想法令人信服:是否想揭示有关客户行为的隐藏模式,预测下一次选举,或者看看在哪里聚焦广告支出?有一个应用程序。要听取专家,我们都应该告诉我们的孩子成为数据科学家,因为每个公司都需要雇用一支军队来生存下一波数字中断。

  然而,从大数据炒作机器中出来的所有蒸汽似乎都掩盖了我们对大局的看法:在许多情况下,大数据是过分的。大多数情况下,只有当我们(不是数据科学家的人)可以在日常工作中做些事情,这是小数据进入图片的地方。

  从本质上讲,小数据的想法是,企业可以在大数据分析中常用的类型的系统中获得可行的结果。?搜索网络以获取许多不同数据的应用程序,包括用户操作的日期和时间,人口统计信息等。所有这些都可能被汇入中央数据仓库,其中复杂的算法对数据进行分类并处理数据以在详细的报告中显示。尽管这类过程以很多方式使企业受益,但许多企业发现这些措施需要大量精力,在某些情况下;使用较少可靠的数据挖掘策略可以实现类似的结果。

  小型数据是企业现在从一种对支持更复杂业务流程的最新技术的痴迷中汲取灵感的方法之一。那些促进小型数据的人认为,对于企业来说,有效地使用其资源并避免过度支出某些类型的技术很重要。

  为什么要小数据?

  大数据很难:大规模这样做,等待trick流的好处可能需要时间。更不用说大多数营销人员和在线战略家不需要全面的大数据来针对他们的竞选活动或提供个性化的体验。

小型数据遍布我们:社交渠道丰富的小型数据可以收集,以告知营销和买方的决策。在个人层面上,我们每次入住,搜索,浏览,帖子等都会不断创建这些小数据

小数据是新的CRM:社交CRM的中心:用于创建客户,其细分市场,有影响力的人甚至竞争对手的完整图片,我们需要将社交渠道和广告系列的见解与网络分析和交易数据相结合。小型数据是建立这些丰富的配置文件的关键,这将是新的CRM解决方案的中心。

ROI:关注大数据的最后一英里,以利用在上游系统,工具和服务上花费在小型数据上的投资(100亿美元和根据IDC计算)。

数据驱动的营销是下一波:大(和小)数据驱动的营销有可能革新企业与客户互动的方式,改变客户访问和消费(甚至磨损)有用的数据,并最终重新定义买卖双方。

消费者的例子比比皆是:消费者已经看到了小数据的潜力,可以简化购物,为他们的健身习惯提供动力或提供有关下一次飞行最佳价格的建议。随着途中更聪明,更可穿戴的数据驱动设备,人们承诺将对包装数据和数据递送设备的市场需求更大,这些设备“适合”日常消费者的需求。

平台和工具供应商开始关注:操作大数据和“将洞察力转化为行动”的承诺是技术中许多知名人士(包括SAP,Oracle和EMC)的主要基调。

这是关于最终用户的。小数据是关于最终用户,他们需要的以及如何采取行动的。首先关注用户,我们的许多技术决策变得更加清晰。

简单:小数据是正确的数据,一些小数据将以大数据开始生命,但是您不需要成为数据科学家就可以理解或将其应用于日常任务,简单是。

  小数据的未来

  开放知识基金会的Rufus Pollock说,围绕大数据的大肆宣传是错误的 - 实际价值所在。

  关于大数据的讨论错过了更大,更重要的图片:真正的机会不是大数据,而是小数据。不是集中的“大铁”,而是分散的数据争吵。不是“一圈统治他们所有的戒指”,而是“小块松散地加入”。

  真正的革命是对数据的访问,存储和处理方式的大规模民主化,而不是关于在数以万计的服务器上运行并行软件的大型组织,而是比以往任何时候都多于以往任何时候信息,小数据的生态系统。

  对于许多问题和问题,小数据本身就足够了。关于我家庭能源使用的数据,当地公共汽车的时代,政府支出 - 这些都是小数据。Excel中处理的所有内容都是小数据。当我们想扩展做到这一点的方式时,是通过组成小数据:通过创建和集成小数据“包装”而不是构建大数据巨石,通过以跨人员和组织的方式分区问题,而不是通过创建大量的问题来划分问题集中筒仓。

  接下来的十年属于分布式模型而不是集中模型,而不是协作而不是控制模型,而不是大数据而不是大数据。

  艾哈迈德·巴纳法(Ahmed Banafa)

  物联网专家|教师|作者|扬声器

参考: