如果你正在学习编程,那么“爬虫”绝对是你不能忽视的。那么,学习python爬虫之前需要做哪些准备呢?一颗热爱学习,一颗不屈不挠的心一台带键盘的电脑(任何系统都可以,我用的是OSX,所以例子会以此为基础)html相关的一些知识。不需要精通,只需要了解一点Python的基础语法知识即可。当你具备了这些,这时候你需要学习:0.爬虫基本工作原理1.基本http爬虫:scrapy2.BloomFilter:BloomFiltersbyExample3。如果你需要大规模的网络爬取,你需要学习分布式爬虫的概念。简单地说,你只需要学习如何维护一个所有集群机器都可以高效共享的分布式队列。最简单的实现是结合python-rq:https://github.com/nvie/rq4.rq和Scrapy:darkrho/scrapy-redisGitHub5。后续处理:网页提取(grangeer/python-gooseGitHub),存储(Mongodb)python火了,一大原因是各种好用的模块,家旅爬网站随时可用这些模块-***F12开发者工具看源码:快速定位元素分析xpath:1.这里推荐使用谷歌浏览器,可以直接在源码界面右击查看NO.2抓包工具推荐httpfox这个插件在Firefox浏览器下,比GoogleFirefox自带的F12工具好用,方便查看网站收发包信息NO.3XPATHCHECKER(Firefox插件)是一个非常好的xpath测试工具,但也有几个小缺点:xpathchecker生成绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径容易出错,所以这里推荐将下图中xpath框中的“x:”去掉,作为实际分析时的参考。貌似这是xpath早期版本的语法,已经和一些模块(比如scrapy)不兼容了,所以删掉,以免报错。NO.4正则表达式测试工具在线正则表达式测试,用它多练习,也辅助分析!有很多现成的正则表达式可以使用,也可以借鉴!
