认识爬虫：使用urllib2库和cookielib库读取网页内容的三种方式

时间：2023-03-25 22:33:53 Python

在一个简单的爬虫中，第二步是使用网页下载器下载网页并获取下载请求的状态。urllib2库主要用于读取网页内容和请求状态，cookielib库主要用于增加网页下载器处理cookies的能力。1.导入第三方扩展库1#导入urllib2库，用于网页下载2importurllib23#导入cookielib库，处理cookie信息4importcookielib2，urlopen()函数实现网页下载1defuse_urlopen(url):2ifurlisNone:3#定义爬虫的url4url??="http://www.baidu.com"5#打开网页下载链接6response=urllib2.urlopen(url)7#打印请求的响应状态，200表示成功8print"webpageRequeststatus:",response.getcode()9#read()读取网页源码内容10content=response.read()11#打印源码内容12print"源码内容:",content13#获取源码内容字符串长度为14print"Webpagestringlength:",len(content)3,Request()函数模拟浏览器下载网页1defuse_request(url):2ifurl为None:3#定义爬虫的url4url??="http://www.baidu.com"5#构造请求request6request=urllib2.Request(url)7#添加构造请求头8request.add_header("user-agent","Mozilla/5.0")9#打开网页下载链接10response=urllib2.urlopen(request)11#打印响应状态请求，200表示成功12print"网页请求状态：",response.getcode()13#read()读取网页源代码Content14content=response.read()15#打印源代码内容16print"源代码内容:",content17#获取源码内容的字符串长度18print"网页字符串长度:",len(content)4.build_opener()函数增加了网页下载器处理cookies的能力1defuse_build_opener(url):2ifurlisNone:3#定义爬虫的url4url??="http://www.baidu.com"5#获取cookie对象6cookie=cookielib.CookieJar()7#添加cookie处理能力opener8opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))9#安装opener10urllib2.install_opener(opener)11#打开下载链接12response=urllib2.urlopen(url)13#打印请求的响应状态，200表示成功14print"网页请求状态：",response.getcode()15#read()读取网页源码内容16content=response.read()17#打印源码内容18print"sourcecodecontent:",content19#获取源代码内容的字符Stringlength20print"Webpagestringlength:",len(content)21#打印cookie信息22打印“cookie信息”，cookie强度的提升最重要，输入公众号回复：“python计算题”，领取100道python案例计算题，快去拿题吧~更精彩前往微信公众号【蟒蛇集中营】，关注获取《python 从入门到精通全套视频》

上一篇：注意力检测系统-tensorflow项目

下一篇：如何在Ubuntu16和18上将python升级到最新版本3.8

认识爬虫：使用urllib2库和cookielib库读取网页内容的三种方式相关文章