海量数据分为两部分,一是系统构建技术,二是海量数据的应用。先说制度建设。现在主流的技术是HADOOP,主要是基于mapreduce的分布式框架。你可以先学这个。但是在我看来,在分布式系统出来之前,主要是集中式架构,比如DB2、oracle。为什么现在使用分布式架构?那是因为集中式架构受限于IO性能,输出速度慢。如果另一种硬件技术能够快速处理海量数据,性能能够满足要求,那么集中式架构更好。在分布式架构中,由于集中式架构稳定,运维压力小。今天的集中式架构要么没有达到应有的性能,要么就是太昂贵了。期待一种能够非常快速地传输和处理数据的技术,然后集中式架构再次进入人们的视野。再来说说海量数据应用。海量数据应用主要是数据挖掘和机器算法。具体来说,有不同的应用场景,比如个性化搜索和推荐、社交网络发现、精准营销、精准广告、实时营销路径、人工智能等等。看你是想做系统支撑技术还是应用技术结合业务。如果你现在正在学习系统构建技术,可以阅读以下书籍:如果你正在学习数据挖掘和机器算法,推荐阅读数据挖掘导论、统计分析原理、Mahout、R、MATLAB
