【.com速译】拿一个横跨商业界和科技界的大趋势,加上无数希望发财的厂商和顾问,你会得到什么?一堆定义不清的流行语言。在大数据行业,周围的炒作催生了全新的术语。需要澄清一下吗?阅读这个小词汇表,其中突出显示了您应该了解的一些主要数据类型。1、快数据大数据行业中最耀眼的名词就是“快数据”,它越来越频繁地出现在我们面前。Ovum首席分析师TonyBaer在2012年创造了这个词,它指的是“效用随着时间的推移而下降的数据”。快速数据指的是需要在Twitter中获取和分析的Twitter消息内容和流数据。实时,可以支持即时决策和响应。资本市场交易公司可能依赖快速数据进行算法或高频交易。EnterpriseStrategyGroup高级分析师NikRouda表示:“快速数据可以指几件事:快速摄取、快速流式传输、快速准备、快速分析、快速用户响应。”“这主要是一种营销炒作,但有很多方法可以表明对绩效的需求。”Bell表示,带宽增加、商品硬件、内存价格下降和实时分析等因素都促成了快速数据的兴起。2.慢数据与快数据相对的是“慢数据”,即以相对较慢的速度缓慢渗透的数据,因此需要较少分析的数据。贝尔举了一个监测海洋潮汐的设备的例子——对于大多数用途来说,不需要实时更新。通常,此数据更适合捕获到数据湖中并进行后续批处理。3.小数据“小数据”指的是“任何适合笔记本电脑的数据,”分析咨询公司KDnuggets总裁GregoryPiatetsky-Shapiro说。——夏皮罗)说。事实上,该术语承认这样一个事实,即“许多分析工作仍在笔记本电脑上针对多个数据源之一执行,使用轻量级应用程序,有时甚至只是Excel,”Ruda解释道。4.中数据至于“中数据”,它介于两者之间。当你谈论PB级数据时,这就是大数据,你可能正在使用Hadoop和MapReduce等技术对其进行分析,Bell说。然而,“大多数分析问题不涉及PB级数量,”他补充说。如果您正在分析的数据处于中间规模,那么它就是中间数据,您可能会使用ApacheSpark。5.暗数据“暗数据”(darkdata)通常是指被忽视的、未被充分利用的数据。鲁达解释说:“人们不知道暗数据的存在,不知道如何访问它,不允许访问它,或者没有建立使用暗数据的系统。”他表示,暗数据“经常”出现在数据库、数据仓库等和数据湖中。这种受限或记录不当的数据池通常被称为“暗网”。贝尔说,发现暗数据通常是数据发现服务的领域,通常涉及机器学习算法。6.脏数据最后但同样重要的是,“脏数据”远没有听起来那么有趣。相反,它是清理之前的数据集。“事实是,在你清理数据之前,数据是脏的。除非你对其进行操作,否则它是不干净的,”贝尔说。Ruda指出,这些操作包括数据准备、数据丰富和数据转换。“否则,就有可能得到错误的答案。”并添加......使用数据来发展您的业务需要的不仅仅是了解术语。ForresterResearch副总裁布赖恩霍普金斯说:“现成的所有数据与我们可以用来获得洞察力的数据之间存在差距。”HopkinsSi说,缩小这一差距可能需要使用Hadoop,或者可能需要使用简单的自己动手工具来完成。无论哪种方式,都需要结合数据才能采取有意义的行动。“供应商和分析师擅长创造新的流行语,”他说。“我对CIO的建议是关注能够改变您的业务的结果”,而不是陷入行话的泥潭。原标题:6个你需要了解的“数据”流行语,作者:KatherineNoyes
