从小白到大数据人工智能专家的学习之旅

时间：2023-03-13 21:45:05 科技观察

如何学习大数据处理技术？首先，我们需要学习Python语言和Linux操作系统。这两个是学习大数据的基础。Python：从去年开始，Python的排名在人工智能的帮助下持续上升，现在已经成为语言排名第一。从学习难度来看，作为一门为“雅”而生的语言，Python的语法简洁明了，对底层的封装也很好。它是一种易于使用的高级语言。在一些习惯于底层程序开发的“硬核”程序员看来，Python简直就是一种“伪代码”。在大数据和数据科学领域，Python几乎是最好的。任何集群架构软件都支持Python。Python也有丰富的数据科学库，所以Python还是要学的。Linux：因为大数据相关的软件运行在Linux上，所以需要多了解Linux。学好Linux可以帮助你快速掌握大数据相关技术，帮助你更好地理解hadoop和hive、hbase、spark等大数据软件运行环境和网络环境配置，可以避免很多坑，学shell了解脚本，这样更容易理解和配置大数据集群。它还可以让您在未来更快地了解新的大数据技术。好了，说完基础再说说大数据技术还有哪些需要学习，大家可以按照我写的顺序学习。Hadoop：这是现在流行的大数据处理平台，几乎成了大数据的代名词，所以这个是必须的。Hadoop包括几个组件HDFS、MapReduce和YARN。HDFS是存储数据的地方，就像我们电脑的硬盘一样。文件存储在上面。MapReduce处理和计算数据。它有一个特点，不管数据有多大，只要给它时间，它都能把数据跑起来，但时间不一定很快，所以叫数据批处理。YARN是体现Hadoop平台理念的重要组件。有了它，大数据生态系统中的其他软件都可以运行在Hadoop上，这样我们就可以更好地利用HDFS大存储的优势，节省更多的资源。比如我们不需要单独搭建spark集群，让它直接运行在已有的hadoopyarn上。其实了解了Hadoop的这些组件，就可以做大数据处理了，但是对于“大数据”到底有多大，你可能还没有一个清晰的概念，听我说，别着急。大家以后工作的时候会遇到很多场景下几十T/几百T的大规模数据。那个时候你不会觉得数据很大，数据越大越头疼。当然，不要害怕处理如此大规模的数据，因为这就是你的价值所在。让搞Javaee、php、html5和DBA的人羡慕不已。记住在这里学习可以作为你学习大数据的一个节点。Zookeeper：这个是万能的，安装Hadoop的HA的时候会用到，以后在Hbase中也会用到。一般用来存放一些信息，以便相互协作。资料比较少，一般不超过1M。使用它的软件取决于它。对于我们个人而言，只需要正确安装，让它正常运行即可。就是这样。mysql：大数据的处理我们已经学习完了，接下来要学习小数据的处理工具mysql数据库，因为后面安装hive的时候会用到，mysql需要掌握到什么水平？你可以在Linux上使用它安装运行后，它会配置简单的权限，修改root密码，创建数据库。这里主要是学习SQL的语法，因为hive的语法跟这个很像。Sqoop：这个用于将数据从Mysql导入到Hadoop中。当然，你也可以不用这个就用这个。直接把Mysql数据表导出成文件，然后放到HDFS上是一样的。当然在生产环境中使用Mysql时一定要注意Mysql的压力。Hive：这个东西是懂SQL语法的神器。使你处理大数据变得轻而易举，而不必费力编写MapReduce程序。有人说猪八戒？它与Pig几乎相同，只需要掌握即可。Oozie：既然你已经学习了Hive，我相信你一定需要这个东西。它可以帮助您管理Hive、MapReduce和Spark脚本。它还可以检查您的程序是否正确执行。如果出现问题，它会向您发送警报并帮助您重置它。最重要的是它可以帮你配置任务的依赖关系。相信你会喜欢的，不然看着一堆脚本，密密麻麻的cron，你是不是觉得自己很狗屎？Hbase：这是Hadoop生态系统中的NOSQL数据库。它的数据以key和value的形式存储，key是唯一的，所以可以用来做重复数据删除。与MYSQL相比，它可以存储的数据量更大。因此，它经常被用作大数据处理完成后的存储目的地。Kafka：这是一个比较好用的队列工具。排队是为了什么？你知道排队买票吗？如果你的数据太多了，你也需要排队处理，以免其他和你协作的同学尖叫。你为什么给我这么多？如何处理数据（例如数百GB的文件）？别怪他不是搞大数据的。你可以告诉他，我把数据放在队列里，等你用的时候一个一个取。他也不再抱怨了，立马飞快的去优化自己的程序，自己处理不了那是他的事。而不是你给出的问题。当然我们也可以使用这个工具来存储在线实时数据或者进入HDFS。这时候，你可以将它与一个叫做Flume的工具结合使用，该工具旨在提供简单的数据处理和写入各种数据接收方（如Kafka）。Spark：用来弥补基于MapReduce在数据处理速度上的不足。它的特点是将数据加载到内存中进行计算，而不是读取正在死亡和进化非常缓慢的慢速硬盘。特别适合迭代操作，所以算法流派特别喜欢。它是用scala写的。无论是Java语言还是Scala都可以运行它，因为它们都使用了JVM。知道这些，你就会成为专业的大数据开发工程师，2W的月薪简直是毛毛雨。后续提升：大数据结合人工智能成为真正的数据科学家，打通数据科学两条线，成为公司的技术专家。这时候，月薪又会翻倍，成为公司的核心骨干。机器学习（ML）：是一门多领域的交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度论等学科。它是人工智能的核心，是计算机实现智能化的根本途径。其应用遍及人工智能的各个领域。它主要使用归纳和综合而不是演绎。机器学习的算法基本固定，比较容易学。深度学习（DL）：深度学习的概念起源于人工神经网络的研究，近年来发展迅速。深度学习应用的例子有AlphaGo、人脸识别、图像检测等，是国内外不可多得的人才，但深度学习难度相对较大，算法更新也比较快，需要向有经验的老师学习.最快的学习方法就是向行业专家学习，借鉴老师多年积累的经验，少走弯路，事半功倍。自古名师出优秀徒弟。

上一篇：保护安卓用户隐私，从这些事做起_0

下一篇：一个谷歌工程师的十年总结，太有用了！

从小白到大数据人工智能专家的学习之旅相关文章