获取网页内容网站是APIReqests库自动抓取html页面并自动提交相关请求Requests:HTTPforHumans?—Requests2.21.0documentation一定要学会看官方文档r=requests.get(url)#Constructedherethroughget方法向服务器请求资源的Request对象#返回response对象。美汤解析网页。网络爬虫、盗版和有道robots协议中网络爬虫的相关标准规定,一个通用的爬虫代码框架网络连接不一定是建立的,对于异常情况的处理非常重要#如果状态码不是200,会产生异常r.raise_for_status()......................................#通用爬虫框架importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()#异常处理r.encoding=r.apparent_encodingreturnr.textexcept:return"Error"if__name__=="__main__":url="http://www.baidu.com"print(getHTMLText(url))HTTP协议注意get和post的区别Python数据类型,dictionarydict使用{}:robots协议中的一系列键值对website告诉爬虫哪些页面可以爬取,哪些页面不能爬取。网站根目录robot.txt文件头部修改为url="https://www.amazon.cn/dp/B078FFX8B6"kv={'User-agent':'Mozilla/5.0'}r=requests.get(url,headers=kv)网络图片的爬取和存储importrequestspath="/Users/apple/Pictures/a.jpg"url="http://img0.dili360.com/ga/M01/48/E0/wKgBzFmyTcaACuVKACZ-qAthuNY888.tub.jpg@!rw9"r=requests.get(url)withopen(path,"wb")asf:f.write(r.content)f.close()
