当前位置: 首页 > 科技观察

从小白到大数据人工智能专家的学习之旅

时间:2023-03-13 21:45:05 科技观察

如何学习大数据处理技术?首先,我们需要学习Python语言和Linux操作系统。这两个是学习大数据的基础。Python:从去年开始,Python的排名在人工智能的帮助下持续上升,现在已经成为语言排名第一。从学习难度来看,作为一门为“雅”而生的语言,Python的语法简洁明了,对底层的封装也很好。它是一种易于使用的高级语言。在一些习惯于底层程序开发的“硬核”程序员看来,Python简直就是一种“伪代码”。在大数据和数据科学领域,Python几乎是最好的。任何集群架构软件都支持Python。Python也有丰富的数据科学库,所以Python还是要学的。Linux:因为大数据相关的软件运行在Linux上,所以需要多了解Linux。学好Linux可以帮助你快速掌握大数据相关技术,帮助你更好地理解hadoop和hive、hbase、spark等大数据软件运行环境和网络环境配置,可以避免很多坑,学shell了解脚本,这样更容易理解和配置大数据集群。它还可以让您在未来更快地了解新的大数据技术。好了,说完基础再说说大数据技术还有哪些需要学习,大家可以按照我写的顺序学习。Hadoop:这是现在流行的大数据处理平台,几乎成了大数据的代名词,所以这个是必须的。Hadoop包括几个组件HDFS、MapReduce和YARN。HDFS是存储数据的地方,就像我们电脑的硬盘一样。文件存储在上面。MapReduce处理和计算数据。它有一个特点,不管数据有多大,只要给它时间,它都能把数据跑起来,但时间不一定很快,所以叫数据批处理。YARN是体现Hadoop平台理念的重要组件。有了它,大数据生态系统中的其他软件都可以运行在Hadoop上,这样我们就可以更好地利用HDFS大存储的优势,节省更多的资源。比如我们不需要单独搭建spark集群,让它直接运行在已有的hadoopyarn上。其实了解了Hadoop的这些组件,就可以做大数据处理了,但是对于“大数据”到底有多大,你可能还没有一个清晰的概念,听我说,别着急。大家以后工作的时候会遇到很多场景下几十T/几百T的大规模数据。那个时候你不会觉得数据很大,数据越大越头疼。当然,不要害怕处理如此大规模的数据,因为这就是你的价值所在。让搞Javaee、php、html5和DBA的人羡慕不已。记住在这里学习可以作为你学习大数据的一个节点。Zookeeper:这个是万能的,安装Hadoop的HA的时候会用到,以后在Hbase中也会用到。一般用来存放一些信息,以便相互协作。资料比较少,一般不超过1M。使用它的软件取决于它。对于我们个人而言,只需要正确安装,让它正常运行即可。就是这样。mysql:大数据的处理我们已经学习完了,接下来要学习小数据的处理工具mysql数据库,因为后面安装hive的时候会用到,mysql需要掌握到什么水平?你可以在Linux上使用它安装运行后,它会配置简单的权限,修改root密码,创建数据库。这里主要是学习SQL的语法,因为hive的语法跟这个很像。Sqoop:这个用于将数据从Mysql导入到Hadoop中。当然,你也可以不用这个就用这个。直接把Mysql数据表导出成文件,然后放到HDFS上是一样的。当然在生产环境中使用Mysql时一定要注意Mysql的压力。Hive:这个东西是懂SQL语法的神器。使你处理大数据变得轻而易举,而不必费力编写MapReduce程序。有人说猪八戒?它与Pig几乎相同,只需要掌握即可。Oozie:既然你已经学习了Hive,我相信你一定需要这个东西。它可以帮助您管理Hive、MapReduce和Spark脚本。它还可以检查您的程序是否正确执行。如果出现问题,它会向您发送警报并帮助您重置它。最重要的是它可以帮你配置任务的依赖关系。相信你会喜欢的,不然看着一堆脚本,密密麻麻的cron,你是不是觉得自己很狗屎?Hbase:这是Hadoop生态系统中的NOSQL数据库。它的数据以key和value的形式存储,key是唯一的,所以可以用来做重复数据删除。与MYSQL相比,它可以存储的数据量更大。因此,它经常被用作大数据处理完成后的存储目的地。Kafka:这是一个比较好用的队列工具。排队是为了什么?你知道排队买票吗?如果你的数据太多了,你也需要排队处理,以免其他和你协作的同学尖叫。你为什么给我这么多?如何处理数据(例如数百GB的文件)?别怪他不是搞大数据的。你可以告诉他,我把数据放在队列里,等你用的时候一个一个取。他也不再抱怨了,立马飞快的去优化自己的程序,自己处理不了那是他的事。而不是你给出的问题。当然我们也可以使用这个工具来存储在线实时数据或者进入HDFS。这时候,你可以将它与一个叫做Flume的工具结合使用,该工具旨在提供简单的数据处理和写入各种数据接收方(如Kafka)。Spark:用来弥补基于MapReduce在数据处理速度上的不足。它的特点是将数据加载到内存中进行计算,而不是读取正在死亡和进化非常缓慢的慢速硬盘。特别适合迭代操作,所以算法流派特别喜欢。它是用scala写的。无论是Java语言还是Scala都可以运行它,因为它们都使用了JVM。知道这些,你就会成为专业的大数据开发工程师,2W的月薪简直是毛毛雨。后续提升:大数据结合人工智能成为真正的数据科学家,打通数据科学两条线,成为公司的技术专家。这时候,月薪又会翻倍,成为公司的核心骨干。机器学习(ML):是一门多领域的交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度论等学科。它是人工智能的核心,是计算机实现智能化的根本途径。其应用遍及人工智能的各个领域。它主要使用归纳和综合而不是演绎。机器学习的算法基本固定,比较容易学。深度学习(DL):深度学习的概念起源于人工神经网络的研究,近年来发展迅速。深度学习应用的例子有AlphaGo、人脸识别、图像检测等,是国内外不可多得的人才,但深度学习难度相对较大,算法更新也比较快,需要向有经验的老师学习.最快的学习方法就是向行业专家学习,借鉴老师多年积累的经验,少走弯路,事半功倍。自古名师出优秀徒弟。