1.导入项目需要的扩展库1#-*-coding:UTF-8-*-23#importurllib参数数据编码4importurllib5#importurllib2执行核心爬虫6importurllib278#importUserAgent生成UA9fromfake_useragentimportUserAgent2,执行网页请求函数1#执行网页请求2defreq_url(self,full_url):3#构造请求头4headers={5#随机生成一个User-Agent6'User-Agent':self.user_agent.random,7#设置请求格式8"Accept":"application/json,text/plain,*/*",9#允许请求语言10"Accept-Language":"zh-CN,zh;q=0.8"11}12#请求参数13params={14'start':self.begin,15'tags':self.name16que}17#编码中文参数18params=urllib.urlencode(params)19#构造Request请求对象20=urllib2.Request(headers=headers,url=full_url,data=params)21#执行请求22response=urllib2.urlopen(request)23returnresponse.read()3.保存文件1#会抓取html源代码保存2defsave_doc(self,html_doc,file_name):3print"Startsavingfile:",file_name4withopen(file_name,'w')asf:5f.write(html_doc)6print"Completethefile:",file_name,"Save"4.组装并执行爬虫1#搭建爬虫环境并执行2defrun_spider(self):3#根据页数定义文件名4file_name=str(self.name)+'.html'5#执行爬虫网页请求6html_doc=self.req_url(self.url)7#保存文件8self.save_doc(html_doc,file_name)5.自定义输入1#User-defined输入参数2url='https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10'3type_name=raw_input('请输入豆瓣电影类型:')4begin=int(raw_input('请输入爬取条数:'))前往微信公众号【Python集中营】了解更多精彩活动,聚焦python技术栈、数据获取、社区交流、干货分享,期待你的加入~
