怎么落实才是硬道理。大数据行业的两大误区,“大数据”这个词已经像IT行业的某种水果一样变成了“街机”或“街话”。如果你不跟风说“大数据长,大数据短”,你就不好意思告诉别人你是搞IT的。从某种程度上说,大数据的“圈子”太乱了,比不上“贵圈子”。首先,从概念上讲,什么是大数据?事实上,数据处理自人类诞生以来就已经存在。古人结绳记数是基本的统计,统计自己吃了多少顿饭,打猎了多少次等等;最近,贵妃每晚的品牌也是数据来处理,在翻牌之前,需要从大量的品牌中分析“方便”、“高人气”、“新鲜度”等指标;最近,在大数据这个词出现之前,数据仓库已经成熟和发展了数十年。因此,大数据并不新鲜。只是Hadoop、MR、Storm、Spark等一些技术发展到一定阶段,符合这些技术创造的概念。但是,这些概念都是建立在一个“开源”的基本概念之上的,这是以前任何阶段都没有的,而且可以节约成本,提高效率,所以大家在这个行业里扔火柴(据说很多人跟风吵架,个人认为不是坏事)。误区一:只有从事大数据技术开发的人才是真正的“圈内人”。作者参加过多个会议,其中70%是技术会议。国内各类数据相关项目的项目经理和技术负责人全部到场。讨论的话题是升级CDH版本时出现的问题,以及如何处理Hive作业。当时哪种方法比较好,Storm和Kafka搭配的时候怎么更高效,Spark申请的时候怎么释放内存。与会者的态度都一样:不懂大数据技术的人,没有资格评论大数据。如果你不了解Hadoop2.0中的资源配置,不知道如何优化Spark在内存中的驻留时间,不知道如何采集Kafka,千万不要参加这个会!对了,最近谷歌彻底放弃了MR,只用Dataflow,明白了吗?不知道怎么操!在这里我想说,技术的进步是由商业驱动的。某宝去IOE能叫大数据吗?作为一名聋哑按摩师,我用打结的音符完成了它。针对不同体质的人,应该采用什么样的按摩方式呢?把这个方法用于治疗的全过程,不就叫大数据分析吗?技术发展到什么程度,只有一小部分是科学家追求极致的精神驱动的,大部分是因为业务发展到一定程度,需要技术进步才能达到目的。因此,真正的大数据“圈内人”至少要包括以下几类人:1.业务经营者。例如,互联网产品经理要求技术人员在用户到达网站时计算用户今天的情绪指数,并实现动态监控,此时只能由Storm或Spark来处理;例如,电信运营商要求实时营销,当用户进入营业厅时,他必须立即向用户推送短信,提醒他营业厅里有特别适合他的红娘(显示身高、三围、体重等指标),但见面前必须购买4G手机;例如,当一位患者来银行开户时,银行得知该用户在过去一周内去过两次医院,三次出国旅行,两次带孩子游泳。客户经理第一时间向客户推荐相关银行保险+理财产品。这些商业人士往往是推动技术进步的核心原因。第二,建筑师。建筑师有多重要?当一个业务人员和一个工程师,一个讲业务语言,一个讲技术术语在那里讨论问题的时候,工程师经常想的是什么样的代码可以让他立刻闭嘴,而架构师则经常跳出来说“不行,不能这样,你只能解决一个问题,制造几个后续问题,按照我的计划,可以解决几个后续问题!”一个非技术型企业的IT系统层面,70%以上的标准往往掌握在架构师手中。很多优秀的架构师一从工程师那里学来,很多公司就意识到了IT架构的重要性。这也是为什么很多公司都有CTO和CIO这两个职位同等重要的原因!架构之美,当IT系统顺畅运行的时候,谁也感受不到,但在走过烟囱和乱七八糟的架构环境的人眼里,IT开发一定有现在的架构和后来的发展!3.投资者。老大,不用说了,老大会给你温饱,你也会为老大打拼。天生的基础数据提供者,老板说有山就有山。要开源,有Hadoop,老大也说要做迭代挖掘,有Spark……4.科学家。他们是别人眼中的Geek,他们是别人眼中的高大挺拔,他们是像霍金一样早出晚归的神秘男女,他们是推动世界科技进步的核心力量.除了世界顶级的IT公司(世界的技术方向往往掌握在他们手中),其他公司一般需要1-2名科学家。他们是真正献身于科学的人。不要让他们考虑业务场景,不要让他们考虑业务流程,不要让他们计算成本,不要让他们考虑项目的进度,他们唯一需要考虑的就是如何在某项指标上击败对手,某项指标0.1%的提升让他们不眠不休地连续作战,让我们都为这些科学家鼓掌欢呼。在中国,我认为真正的大数据科学家不超过一百个……第五,工程师。工程师就是这样一群可爱的人。他们年轻,冲动,有理想。他们被誉为“屌丝”和“键盘党”。我在想地铁口的鸡蛋夹心饼干是不是又涨了50毛钱。他们敏感、自负,从不费心与商人争论。工程师和科学家的区别在于,工程师需要经常改代码,经常测试程序,经常上线,但最终的系统是由几个工程师的代码组成的。每一个自负的工程师,看到系统的历史代码,都会鄙视地说一句“呵呵,这垃圾代码”,然后全身心投入到将继续被后人鄙视的代码编写工作中。6.追随者。他们有的是训练师,有的是杀手,有的是煤老板,有的是十几岁的少女。他们的特点是投机者。与房地产投机者的唯一区别是他们不需要付钱。他们认为只要和数据有关系的,就叫大数据。其中一些甚至从未接触过IT系统。他们是前一类人所鄙视的无形存在。但我想说的是,欢迎猜测。一个行业的投机越激烈,越能发挥真正有价值的人的作用。误区二:只有大数据才能拯救世界。目前大数据的技术和应用在数据分析、数据仓库等方面,主要针对OLAP(OnlineAnalyticalSystem)。从技术角度来说,包括我总结的两条腿:一条腿是批量数据处理(包括MR、MPP等),另一条腿是实时数据流处理(Storm、内存数据库等)。).在此基础上,在某些场景下,发现MR框架或实时框架不能很好地满足近线和迭代挖掘的需求,于是产生了目前非常流行的基于内存数据处理的Spark框架。目前很多企业的大数据框架,一方面是使用Hadoop2.0以上的Hive和Pig框架来处理底层的数据处理和处理,将根据业务逻辑处理后的数据直接发送给应用数据库;另一方面,使用Storm流处理引擎处理实时数据,根据业务营销规则触发相应的营销场景。同时采用基于Spark处理技术的集群,满足实时数据处理和挖掘的需求。从上面的描述可以看出,大数据还没有进入真正的交易系统,对OLTP(OnlineTransactionsystem)的贡献不大。至于很多把大数据和物联网、泛在网络、智慧城市联系起来的文章,我觉得大数据只是其中一个条件。OLTP系统的其余部分是否可用,物理网络甚至组织结构都是重要因素。最后想说的是,大数据处理技术,不管Google的Dataflow多么耀眼,也不管像Hadoop2.0、数据仓库、Storm等成熟,本质上都是数据处理工具。对于很多工程师来说,只需要了解数据处理过程就可以了。就是这样。在这个平台上,使用固定的模板和脚本进行数据处理就足够了。毕竟,超过70%的数据价值是针对业务应用的。如果一个流行语对生意没有帮助,那它就是一个屠龙术。任何技术和IT架构都必须符合业务规划和业务发展要求,否则技术只会阻碍业务和生产力的发展。时过境迁,大浪淘沙。作为数据行业的一员,我们每个人都在不同的角色之间切换。今天你可能是科学家,明天你会成为建筑师,今天的工程师会在几年后成为。许多科学家,他们中的一些人最终会步入追随者的行列。
