1。大数据与数据挖掘基础知识(私信小编007获取大量Python学习资料!)***部分主要简单介绍三个问题:1、什么是大数据?2.什么是数据挖掘?3.大数据和数据挖掘有什么区别?1、大数据大数据是指在一定时间内无法通过常规软件工具获取、管理和处理的数据集合。它需要新的处理模型具有更强的决策力和洞察力和流程优化能力,以适应海量、高增长率和多样化的信息资产。下图展示了大数据经典的4V特性。IBM的大数据库框架和可视化技术,大数据常用的有:Hadoop、Spark,现在更多的是实时数据分析,包括淘宝、京东、附近的美食等。下图是大数据的一些应用。说到大数据就不得不提Hadoop,说到Hadoop就不得不提Map-Reduce。MapReduce是一种软件框架,可在由数千台商用机器组成的大型集群上以可靠、容错的方式并行处理数TB的海量数据集。MapReduce的思想是“分而治之”。Mapper负责“指向”,Reducer负责汇总map阶段的结果。2.数据挖掘(DataMining):数据库、机器学习、人工智能、统计学的交叉学科。数据挖掘需要发现有价值的同时,顶层是智能的发现知识和有价值的信息。因为主要是针对网页数据的大数据分析,所以WebMining需要分类如下:WebMining主要分为三类:Web日志挖掘、Web内容挖掘、Web结构挖掘。3.机器学习说到机器学习和数据挖掘相关的知识,通常会加两张图。它形象地展示了计算机智能与人类传统知识的类比。二、安装Python及基础知识1、安装Python在开始使用Python编程之前,需要先介绍一下Python的安装过程。python解释器可以在Linux中使用。安装步骤如下:第一步:打开网络浏览器,访问官网;第二步:点击官网首页的Download链接进入下载界面,选择Python软件的版本,笔者选择下载python2.7.8,点击“Download”链接。Python下载地址:第三步:选择文件下载地址,下载文件。第四步:双击下载的“python-2.7.8.msi”软件,安装软件。第五步:在Python安装向导中选择默认设置,点击“下一步”,并选择安装路径,这里设置为默认安装路径“C:Python27”,点击“下一步”按钮,如图.注1:推荐安装Python在C盘下,通常路径为C:Python27,不要有中文路径。在Python安装向导中选择默认设置,点击“下一步”,并选择安装路径,这里设置为默认安装路径“C:Python27”,点击“下一步”按钮。安装成功后,如下图:第六步:假设一切正常,点击“开始”,选择“程序”,找到安装成功的Python软件,如图:选择第三个图标上图中,即点击“Python(commandline)命令行模式”,运行程序,输入如下代码:print'helloworld',则python命令行模式下的解释器会打印出“helloworld”字符串,如下图所示。选择图中第一张图,点击“IDLE(PythonGUI)”,运行Python的集成开发环境(PythonIntegratedDevelopmentEnvironment,IDLE)。运行结果如下图所示。注2:建议大家使用IDLE来编写脚本,完整的代码,而不是命令行方式。2.Python基础知识这里简单介绍一下,主要介绍条件语句、循环语句、函数等基础知识。A。功能及操作下面是一个简单的例子。打开IDLE工具->点击“文件”栏->新建文件新建一个文件->命名为test.py文件,在测试文件中添加代码如下:保存文件。然后点击test.py文件中的Run->RunModule,输出结果如下图所示。b.条件语句包括单分支、双分支和多分支语句,if-elif-else。(1).单分支语句的基本格式为:ifcondition:statementstatement需要注意的是Ptthon中if条件语句的条件不需要括号(),条件后面需要加一个冒号。它没有花括号{}而是使用TAB来实现区分。其中,条件判断通常包括布尔表达式(True|False0-false|1-true,非0表示真)、关系表达式(>=<===!=)和逻辑运算表达式(andornot)。(2).双分支语句的基本格式是:ifcondition:statementstatementelse:statementstatement(3)。多分支语句if多分支由if-elif-else组成,其中elif等价于elseif,可以使用多个if的嵌套。具体代码如下:c、while循环语句while循环语句的基本格式如下:whilecondition:statementstatementelse:statementstatement其中判断条件语句condition可以是布尔表达式、关系表达式和逻辑表达式,else可以省略(这里列出来区别于C语言等)。例如:d、for循环循环语句的基本格式为:fortargetinsequences:statementtarget表示变量名,sequences表示序列,常见的类型包括列表(list)、元组(tuple)、字符串(string)和文件(files)).Python的for并没有体现循环次数,不像C的for(i=0;i<10;i++)里i循环算数,Python的for是指每次把sequence序列中数据项的值放到target中这里,执行完就结束,循环多少次。其中in是一个成员运算符,用于检查一个值是否在序列中。您也可以使用break和continue来跳出循环。下面是文件循环遍历的过程:e.类解释代码仅供参考:输出结果如下图所示:3.安装PIP和第三方包。一门知识:爬虫主要使用Python(string|urllib)+Selenium+PhantomJS+BeautifulSoup。在介绍爬虫和Urllib下载网页或图片之前,先教大家如何使用pip安装第三方库。在pip介绍它们之前,需要先安装pip软件。“作为Python爱好者,如果您不知道easy_install或任何pip,那么……”。easy_insall的功能类似于perl中的cpan和ruby中的gem,都为傻瓜在线一键安装模块提供了便捷的方式,而pip是easy_install的改进版,提供更好的提示信息,删除包和其他功能。老版本的python只有easy_install,没有pip。常见的具体用法如下:第一步:下载PIP软件,可以在官网http://pypi.python.org/pypi/pip#downloads下载,同时切换到PIP目录下使用cd,并通过pythonsetup.pyinstall安装它。而我以前是下载pip-Win_1.7.exe来安装第二步:安装PIP软件。当提示“pipandvirtualenvinstalled”表示安装成功,如何测试pip安装是否成功?第三步:配置环境变量这时候在cmd中输入pip命令会提示错误“notaninternalorexternalcommand”。注意:有两种解决方法,一种是通过cd..pipinstall...去Srcipts环境安装方法二:另一种是配置Path路径。需要添加路径环境变量。PIP安装完成后会在Python安装目录下添加pythonScripts目录,即在python安装目录的Scripts目录下,将此目录添加到环境变量中!过程如下:第四步:使用PIP命令接下来在CMD中使用PIP命令,“piplistoutdate”列出了Python安装库的版本信息。注意:安装成功后会在Python环境中添加Scripts文件夹,包括easy_install和pip。PIP安装过程中可能会出现各种问题。一种方案是进入python路径,通过pythonset_up.pyinstall安装;另一种是配置Path环境比。课堂重点知识:第一堂课主要是想让大家体验一下Python网络爬虫的过程和实例。需要安装的第三方库主要包括三个:pipinstallhttplib2pipinstallurllibpipinstallselenium在安装过程中,如果pipinstallurllib报错,是因为包含了httplib2,可以直接使用。注意:如果pip安装报ascii编码问题,需要把计算机名由中文改成英文。4、urllib下载网页和图片使用pipinstallurllib或pipinstallurllib2后,以下代码为下载网页。首先,我们调用urllib2库中的urlopen方法,传入一个URL。这个URL就是百度首页,协议就是HTTP协议。当然,你也可以把HTTP换成FTP、FILE、HTTPS等,这只是代表一种访问控制协议,urlopen一般接受三个参数,其参数如下:第一个参数url为URL,第二个参数data是访问url时要传输的数据,第三个timeout是设置超时时间。第二个和第三个参数不能传,data默认为None,timeout默认为socket._GLOBAL_DEFAULT_TIMEOUT。必须发送第一个参数URL。在这个例子中,我们发送了百度的URL。执行完urlopen方法后,会返回一个response对象,返回的信息存放在里面。response对象有一个read方法,可以返回获取到的网页内容。获取到的网页在本地保存为“baidu.html”,通过浏览器打开如下图:然后需要下载图片,这里需要学习查找图片的网址,如下图百度LOGO下方图片,可以在浏览器上右击“查看元素”或“勾选”定位。定位到URL后,通过urlretrieve()函数下载。重点知识:urllib.urlopen(url[,data[,proxies]]):创建一个代表远程url的类文件对象,然后像操作本地文件一样操作这个类文件对象,获取远程数据。urlretrieve方法直接将远程数据下载到本地。如果需要显示进度条,使用如下代码:五、HTML网页基础及回顾元素HTMLDOM是HTMLDocumentObjectModel(文档对象模型)的缩写,HTMLDOM是专门适用于HTML的文档对象/XHTML模型。熟悉软件开发的人可以将HTMLDOM理解为网页的API。它将网页中的每一个元素都看作一个对象,使得网页中的元素也可以通过计算机语言获取或编辑。DOM是以层次结构组织的节点或信息片段的集合。此层次结构允许开发人员在树中导航以查找特定信息。分析该结构通常需要在执行任何工作之前加载整个文档并构建层次结构。由于它基于信息层次结构,因此DOM被认为是基于树或基于对象的。HTMLDOM定义了访问和操作HTML文档的标准方式。HTMLDOM将HTML文档呈现为具有元素、属性和文本的树结构(节点树)。它们都是一个节点(Node),就像一个公司的组织结构图。现在让我们从另一个角度来看源代码。first.html的源代码如下:本例的第一个元素是元素。在这个元素的开始标签和结束标签之间,分别有几个标签Start和close,包括
、