过去的经验表明,充分利用规模实际上可以提高分析机制的实用价值。但是,如果把大数据比作一把锤子,并不是所有的问题都是等着敲下来的钉子。很多人误以为在大数据解决方案中,处理对象的大小总是比较好的。事实上,对于“越大越好”这个命题,人们往往会从不同的角度给出自己的答案,我总结了几种典型情况:深信:这是一个根深蒂固的观念,有人认为不管实际情况如何,越大越好规模、更快的速度和/或更多样化的数据类型总能带来更实用的分析结论,这就是他们对大数据分析的看法。的核心价值。如果在实际操作中发现了理想的结论,那么按照他们的思路,无非是具体的处理器不够硬,不够智能,或者没有使用正确的工具和方法。被蒙住双眼:认为大数据本身的庞大规模是其价值的有形指示,无论我们是否可以从中得出实际结论。按照这种思路,如果我们根据大数据所支持的具体企业应用来评价大数据的功能,那么就不需要像现在的分析领域那样需要数据科学家的帮助,数据可以存储起来在任何数据湖中支持未来的探索活动。被视为负担:这种观点认为,数据的庞大规模并不是产生积极或消极结果的必要条件。但是,有一个事实是明确且不可否认的,那就是现有数据库缺乏存储和处理能力,根本无法承受大数据的高强度负载,因此需要一个新的平台来支撑(比如Hadoop).如果我们不能跟上数据爆炸的步伐,那么企业的当务之急就是将其核心业务转移到新型数据库中。TheGreatOpportunity:就个人而言,这是看待大数据的正确方式。其核心本质是随着数据规模的不断扩大、数据流动速度的不断提高、数据来源和格式的不断增长,我们需要以更快、更有效的方式从数据中提取出前所未有的分析结论。这种观点不会迷信或过分依赖大数据,因为我们承认通过小规模的数据分析是可以得出一些结论的。同时,这种观点并不认为数据规模是一种负担,而只是另一个需要通过新的数据库平台、工具和实用解决方案来解决的技术挑战。去年,我写了一篇关于大数据中核心用例的博文,主要是从“大机会”的角度出发。去年年底,我通过个人观察发现,大数据的核心“业务”价值主要受增量内容影响,提供增量背景信息。如果你想通过数据分析了解事物的全貌和背后的深层含义,背景信息越多越好。同样,如果希望考虑与手头问题相关的所有变量、关系和模式,那么内容越多越好。总体而言:更多上下文加上更多相关内容通常意味着更大的数据量。大数据的价值还更多体现在纠错能力上,而小规模数据往往难以体现这一点。在博文中,我引用了第三方数据科学家的观察,训练信息集的数量越少,出现几种常见风险情况的概率就越高。首先,小数据常常让我们忽视一些关键的预测变量。你也可能会误解一些真正具有代表性的样本信息。此外,我们通常可以确保在拥有更复杂的数据集的前提下排除一些错误的相关性,这些数据集可以实际反映潜在的工作关系。规模之美相信大家都已经意识到,在规模化的条件下,某些数据类型和特定用例能够带来比其他资源更好的分析结论。在这方面,我最近看到一篇优秀的评论文章,它阐明了一种特定类型的数据——即低密度细粒度行为数据——可以大规模显着改进。提高预测分析的准确性。作者JunquédeFortuny、Martens和Provost指出,“此类数据集的一个关键属性是它们的低密度:对于任何给定的实例,绝大多数特征对实际价值的贡献为零,或‘无意义’的价值。最值得注意的是(并且作者还引用了广泛的研究来支持他们的讨论)是这种类型的数据已经是几个专注于客户分析任务的大数据应用程序的核心。社交媒体行为数据完全符合上述描述,以及网页浏览行为数据,移动行为数据、广告响应行为数据、自然语言行为数据等也与之匹配。“事实上,”三位作者指出,“此类数据已经被普遍用作预测性分析的关键材料……其特征往往反映在人口统计、地理位置和个人心理倾向上,并包括对性行为的统计总结。具体行为——比如公司之前的采购行为。”说到大规模行为数据集为什么往往比小规模数据集更具分析价值的核心,三位作者指出:“少数特定的已知行为往往在没有大量数据支持的情况下无法被准确观察到”因为在小数据集中,个体行为不会被记录下来,除非它的表现超过了预定的特定范围。但是,当我们将所有相关人员作为一个整体来观察时,很可能会观察到只发生几次甚至一次的特定类型的行为,但指向特定的细分市场水平。在小规模的数据集中,由于对象和行为特征的数量相对有限,我们很可能会忽略上面提到的更丰富的细节。行为数据集的来源越丰富,预测模型的运用空间就越理想,从而为未来可能出现的更广泛的潜在场景提供更有价值的预测结论。因此,更大的尺寸通常意味着更好的分析。有时更大意味着更难理解尽管如此,三位作者指出,在某些情况下,上述结论可能不成立,这一切都归结为特定行为特征的预测价值水平。基本上,权衡机制是行为预测模型的基础。纳入预测模型的每个新的增量行为特征都应与分析目标具有高度相关性。只有这样才能提高分析效益,预测模型才能克服更显着的内容分化情况——过拟合和误预测——但这往往需要更大的特征集作为后盾。正如几位作者所指出的:“如果模型没有得到平衡和改进(假设已经选择了正确的数据子集),大量与核心主题无关的信息只会增加出现偏差和过拟合情况的机会。”很显然,在不利于得出预测结论的情况下,数据量越大越好。相信没有人愿意在大数据分析的过程中被其臃肿的规模严重拖累。在这种情况下,我们的数据科学家就需要开动脑筋想办法把导入模型的数据体积最小化,从而最大程度的匹配当前分析任务的特点。原文链接:http://www.infoworld.com/d/big-data/when-big-data-truly-better-249737
