当前位置: 首页 > 后端技术 > Python

用Python写爬虫需要注意哪些陷阱?

时间:2023-03-26 17:11:26 Python

1。学会用chrome浏览器查看通信和查看元素格式2.加User-Agent,这是最简单的反爬虫措施3.最好用Ipython写爬虫。在交互式环境中,你总是可以准确地知道你的问题出在哪里4.使用requests5。使用get或post下载html后,请确保您需要的内容在html中,而不是稍后使用ajax或javascript加载它。6.分析一下,BeautifulSoup不错。对于一些非常特殊的情况,可以考虑使用re.7.如果需要收集大量数据,学习使用框架,比如scrapy。进阶:加入网站需要模拟登录,大量使用ajax或javascript,或者反爬虫功能强大,使用requestssession,注意F12查看发送的是什么数据。如果实在不行,就用模拟浏览器吧。推荐使用硒。虽然速度慢了,内存多了,但是真的很省力,基本查不出来。最后,爬虫的速度不要太快,加上time.sleep(1),尽量少用多线程,别人建站不容易,(尤其是小网站)如果你不要给别人带来很多麻烦,别人会睁一只眼闭一只眼,不然封IP不好玩。