昨天刚开始做数据分析的朋友向我吐槽。没有价值,数据分析就好像是业务数据的分析师,不知道如何提升自己。这是因为他没有完全挖掘出数据分析的价值。数据分析是通过观察数据现象,完成产品、营销策略、运营策略的优化。不仅仅是为了业务,更重要的是要掌握数据分析。各种技能,突破职业在能力成长方面的天花板。根据我的经验,一个合格的资深大数据分析师必须掌握以下九大技能:统计分析:大数法则、抽样与推测、秩和检验、回归、预测;视觉辅助工具:excel、BITools、python大数据处理框架:Hadoop、storm、spark数据库:SQL、MySql、DB数据仓库:SSIS、SSAS数据挖掘工具:Matlab、R语言、python人工智能:机器学习挖掘算法:数据结构,一致的编程语言:Java、python1.统计分析众所周知,统计是数据分析的基石。学了统计学之后,你会发现很多情况下分析并不是那么准确。比如很多人喜欢用平均数来分析一件事情的结果,但这往往是粗略的。统计学可以帮助我们从更科学的角度看待数据,逐步接近数据背后的“真相”。大部分数据分析会用到以下统计知识,可以重点学习:基础统计:均值、中位数、众数、方差、标准差、百分位数等概率分布:几何分布、二项分布、泊松分布、正态分布分布等总体和样本:了解基本概念,抽样概念置信区间和假设检验:如何进行验证分析相关和回归分析:一般数据分析的基本模型了解统计原理后,你不一定能做到通过工具,那么就需要去网上找相关的实现方法,或者看书。先推荐一个很简单的:吴羲之-《统计学·从数据到结论》;也可以读《商务与经济统计》,结合业务更容易理解。另外,如果想更进一步,请掌握一些主流算法的原理,比如线性回归、逻辑回归、决策树、神经网络、关联分析、聚类、协同过滤、随机森林等。再深入,还可以掌握文本分析、深度学习、图像识别等相关算法。对于这些算法,你不仅要了解它们的原理,最好能够流利地解释它们,还需要知道它们在各个行业的一些应用场景。如果不是现阶段工作刚需,则不优先考虑。2、可视化辅助工具数据可视化主要通过编程和非编程工具来实现。对于一般行业的数据分析师来说,不一定要掌握编程可视化工具。学习是麻烦的,也是不必要的。掌握以下几点:1.Excel不要以为EXCEL只能处理表格。您可以将它用作数据库、IDE,甚至是数据可视化工具。它可以创建具有专业外观的数据透视表和基本统计??图表,但使用默认的颜色、线条和样式,很难创建看起来“高大上”的视觉效果。尽管如此,我还是推荐你使用Excel。2.BI工具近年兴起的BI明星,如TB、qlk等,都强调可视化,改变了传统的BI工具SAPBO和IBM的cognos(不过近几年好像在发展云BI)。这里不谈开源,也没有看到可以成熟应用的BI。强烈推荐FineBI(国产)、Tableau(国外)等成熟的BI工具。Tableau的可视化探索和分析非常好。当数据量大时,性能较差,企业使用并发较多,价格昂贵。FineBI国产帆软是为数不多的能够在国际上占据领先地位的数据工具之一。它侧重于数据处理性能和企业应用程序的复杂性(市场节奏很快)。自带ETL,可视化还行,价格良心,个人免费使用。3、Python学过Python数据分析的朋友都知道,在可视化工具中,有很多优秀的三方库,比如matplotlib、seaborn、plotly、Boken、pyecharts等,这些可视化库各有特色。它在应用程序中也被广泛使用。如果不知道数据分析要学什么工具,直接学python就可以了。学习一门通用语言并不是一种损失。3、大数据处理框架要想跳出普通业务的束缚,成为一名大数据分析师,首先要了解大数据框架的基础。大数据处理框架负责对大数据系统中的数据进行计算。数据包括从持久化存储中读取的数据或者通过消息队列连接到系统的数据等,计算就是从数据中提取信息的过程。.我们将处理的数据形式和结果的及时性分为批处理系统、流处理系统和混合系统。典型的批处理系统是ApacheHadoop;典型的流处理系统包括ApacheStorm和ApacheSamza;混合处理系统,例如ApacheSpark和ApacheFlink。4.数据库数据分析分级。有的只负责清洗数据,规模较小,工作相对简单;还有负责建模的。掌握十几种常用的机器学习算法可以说是二流的。要想成为一流的,就要掌握每一个算法的精髓,也就是掌握数据库的基础。SQL是数据库中的核心技术。学习数据分析一定要注意这些内容,主要是MySQL,这是互联网行业的通用标准。当然,要想快速掌握数据库的知识,就必须进行系统的学习和大量的练习。在网上找一些数据库练习题。从简单的问题开始,循序渐进,这样才能慢慢深入数据库。核心知识。5.数据仓库/商业智能在做数据分析的时候,我们总会遇到一些名词,比如数据仓库。数据仓库是数据分析中比较重要的一个东西。数据仓库是面向主题的、集成的、反映历史变化的相对稳定的数据集合。数据分析中最重要的工作是数据处理。根据我做数据分析的经验,在整个数据分析过程中,花在数据处理上的时间往往占到70%以上,而数据仓库具有集成、稳定、高效的特点。质量等特性,为基于数据仓库的数据分析提供数据,往往能更好地保证数据质量和数据完整性。6、数据挖掘工具在进行数据分析时,数据挖掘软件是必不可少的工具之一。它是大多数商业智能计划的核心应用程序,数据挖掘软件同样能够从大量数据中提取见解。直接说需要学习的语言:MATLAB、Python、R。1.MATLAB虽然比较学术,但是简单易用。入门后,您可以运行一些算法来增强信心并享受学习。教材方面,阅读官方手册中的Primer,然后开始编写脚本和函数。有什么不懂的就去百度、谷歌或者帮忙。2.Python和R放在一起是因为网上关于这两个的争论太多了。我的顺序是先学python,再学R。首先python,先看《Head First Python》,通俗易懂,然后是《利用Python进行数据分析》和《机器学习实战》。第一本书主要使用Python进行数据挖掘。基本上,Python学习推荐这本书。第二本书是理解机器学习的杰作。书中使用的语言是Python。在学习语言的同时,你可以同时理解机器学习。7、人工智能严格来说,人工智能和数据分析有明显的界限,不属于同一个领域。因此,本文面向大数据分析科学家。当你的分析能力还比较低的时候,可以跳过一些阅读本章。机器学习和人工智能涵盖的知识太广太深,所以建议采用问题式学习的学习方式,先选择一个问题,然后找资源解决问题,再深入理解。在解决问题的过程中,遇到了名词和知识。8.挖掘算法很多人认为数据挖掘需要掌握复杂、高级的算法和技术发展,才能做好数据挖掘和分析工作。事实上,情况并非如此。其实算法并不难。只需要结合实际业务背景就可以解决问题。面向的就简单多了,主要包括分类算法、聚类算法、关联分析、连接分析等,都是学习数据挖掘必须掌握的算法基础。九、python、r语言、java等编程语言,数据分析应该用什么语言?这恐怕要“视情况而定”。如果你用晦涩的统计计算做繁重的数据分析,难怪你不喜欢R。如果你在跨GPU做NLP或密集的神经网络处理,那么Python是一个很好的选择。如果您想要一个具有所有重要操作工具的强化的、生产就绪的数据流解决方案,Java或Scala是绝佳的选择。
