在一个简单的爬虫中,第二步是使用网页下载器下载网页并获取下载请求的状态。urllib2库主要用于读取网页内容和请求状态,cookielib库主要用于增加网页下载器处理cookies的能力。1.导入第三方扩展库1#导入urllib2库,用于网页下载2importurllib23#导入cookielib库,处理cookie信息4importcookielib2,urlopen()函数实现网页下载1defuse_urlopen(url):2ifurlisNone:3#定义爬虫的url4url??="http://www.baidu.com"5#打开网页下载链接6response=urllib2.urlopen(url)7#打印请求的响应状态,200表示成功8print"webpageRequeststatus:",response.getcode()9#read()读取网页源码内容10content=response.read()11#打印源码内容12print"源码内容:",content13#获取源码内容字符串长度为14print"Webpagestringlength:",len(content)3,Request()函数模拟浏览器下载网页1defuse_request(url):2ifurl为None:3#定义爬虫的url4url??="http://www.baidu.com"5#构造请求request6request=urllib2.Request(url)7#添加构造请求头8request.add_header("user-agent","Mozilla/5.0")9#打开网页下载链接10response=urllib2.urlopen(request)11#打印响应状态请求,200表示成功12print"网页请求状态:",response.getcode()13#read()读取网页源代码Content14content=response.read()15#打印源代码内容16print"源代码内容:",content17#获取源码内容的字符串长度18print"网页字符串长度:",len(content)4.build_opener()函数增加了网页下载器处理cookies的能力1defuse_build_opener(url):2ifurlisNone:3#定义爬虫的url4url??="http://www.baidu.com"5#获取cookie对象6cookie=cookielib.CookieJar()7#添加cookie处理能力opener8opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))9#安装opener10urllib2.install_opener(opener)11#打开下载链接12response=urllib2.urlopen(url)13#打印请求的响应状态,200表示成功14print"网页请求状态:",response.getcode()15#read()读取网页源码内容16content=response.read()17#打印源码内容18print"sourcecodecontent:",content19#获取源代码内容的字符Stringlength20print"Webpagestringlength:",len(content)21#打印cookie信息22打印“cookie信息”,cookie强度的提升最重要,输入公众号回复:“python计算题”,领取100道python案例计算题,快去拿题吧~更精彩前往微信公众号【蟒蛇集中营】,关注获取《python 从入门到精通全套视频》
