蟒蛇爬虫

时间：2023-03-26 15:01:33 Python

如何使用requests登录豆瓣爬取内容注意：1、登录后如果想去其他页面查看相关内容，就要记录sessions=requests.session()r=s.post(loginUrl,data=formData,headers=headersres=s.get("http://movie.douban.com/mine",cookies=r.cookies,headers=headers)2.r.history登录后可以记录302statusCode:#-*-encoding:utf-8-*-###############################__author__="KevinZhou"__date__="2017/7/23"##################################从bs4导入请求BeautifulSoupimporturllib.requestimportreloginUrl='https://accounts.douban.com/login'formData={"redir":"http://movie.douban.com/mine","form_email":"******","form_password":"******","login":u'login',"source":"index_nav"}headers={'user-agent':'Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.36(KHTML，像Gecko)Chrome/50.0.2661.102Safari/537.36'}r=requests.post(loginUrl,data=formData,headers=headers)page=r.textprint(r.url)'''''Getthe验证码图片'''#使用bs4获取验证码地址soup=BeautifulSoup(page,"html.parser")captchaAddr=soup.find('img',id='captcha_image')['src']#利用正则表达式获取captcha的ID#reCaptchaID=r'

上一篇：Python数据类型

下一篇：基于Python的代码重构（一）

蟒蛇爬虫相关文章