什么是爬虫?爬虫:自动抓取互联网信息的程序,从互联网上为我们抓取有价值的信息。1、Python爬虫架构调度器:相当于一台电脑的CPU,主要负责协调URL管理器、下载器、解析器之间的调度。URL管理器:包括要抓取的URL地址和已经抓取的URL地址,防止重复抓取URL和循环抓取URL。URL管理器的实现方式主要有三种,内存、数据库、缓存数据库。网页下载器:通过传入URL地址下载网页,并将网页转为字符串。网页下载器有urllib2(Python官方基础模块)包括登录、代理、cookie、requests(第三方包)网页分析工具:解析一个网页字符串,我们可以根据自己的需求提取我们有用的信息,或者解析根据DOM树的解析方式。网页解析器包括正则表达式,html.parser、beautifulsoup、lxml、html.parser、beautifulsoup、lxml都是以DOM树的形式进行解析。应用程序:它是由从网页中提取的有用数据组成的应用程序。2.1.爬虫类型?小型爬虫:各种库爬行?中型爬虫:框架?大爬虫:搜索引擎2.2。目的?解决数据源问题?做行业分析?完成自动化操作?做一个搜索引擎
