1.前言上岛网是一个手游发行推荐和投融资交易平台。平台集手游CP、手游发行、手游渠道、手游外包、投资方及IP授权商、IP合作,一站式服务。并提供合作交易机会。今天教大家如何爬取商道网的保荐公司名称,方便相关人士进行投资。2.实现目标获取对应的公司名称并保存文件。3、项目准备软件:PyCharm所需库:requests、fake_useragent、timeURL:http://www.daogame.cn/qudao-p...{}.html4、项目分析如何访问网页?http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-1.htmlhttp://www.daogame.cn/qudao-p-2.html?s=/qudao-p-2.htmlhttp://www.daogame.cn/qudao-p-2.html?s=/qudao-p-3.htmlhttp://www.daogame.cn/qudao-p-2.html?s=/qudao-p-4.html当点击下一页时,p-{}.html每增加一页就会加1,将转换后的变量替换为{},然后使用for循环遍历URL到实现多个URL请求。五、项目实现1、定义一个继承object的类,定义继承self的init方法,定义继承self的main函数main。导入需要的库和请求地址。importrequestsfromlxmlimportetreefromfake_useragentimportUserAgentimporttimeclassShangdao(object):def__init__(self):self.url="http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-{}.html"#Websitedefmain(self):passif__name__=='__main__':Siper=Shangdao()Siper.main()2.随机生成UserAgent,防止反爬。foriinrange(1,50):self.headers={'User-Agent':ua.random,}3.发送请求得到响应,页面回调,方便下次请求。defget_page(self,url):res=requests.get(url=url,headers=self.headers)html=res.content.decode("utf-8")返回html4。获取公司名称,用于遍历。defpage_page(self,html):parse_html=etree.HTML(html)one=parse_html.xpath('//h2/a/text()')foriinone:print(i)5.写入文档。f=open('company.doc','a',encoding='utf-8')#以'w'模式打开文件f.write(str(i))6.调用方法实现功能。defmain(self):stat=int(input("输入开始(2start):"))end=int(input("Endofinput:"))forpageinrange(stat,end+1):url=self.url.format(page)print(url)html=self.get_page(url)self.page_page(html)print("==================%s页面爬取成功!!!=============================================================================================================================================================================================================================and%page)项目优化:1.设置延时。time.sleep(1.4)六、效果展示点击绿色小三角运行,进入起始页和结束页(从0页开始)。渠道公司名称,结果显示在控制台。保存文档。七。总结1、不建议抓取太多数据,容易造成服务器负载,稍微尝试一下。2、希望通过这个项目,能够帮助理解xpath解析页面的基本流程,字符串是如何拼接的,format函数是如何使用的。3、本文基于Python网络爬虫,利用爬虫库实现对道教网的爬取。但是,到了自己去实现的时候,总会遇到各种各样的问题。不要野心太大,努力理解得更深刻。.想深入了解Python网络爬虫和数据挖掘,可以去专业网站:http://pdcfighting.com/想深入了解Python网络爬虫和数据挖掘,可以去专业网站:http://pdcfighting.com/网站:http://pdcfighting.com/
