作为一种在网络上收集信息并从中提取有用信息的便捷方式,网络爬虫技术的用处越来越大。使用像Python这样的简单编程语言,您可以用最少的编程技能来抓取复杂的网站。《用Python写网络爬虫》是使用Python抓取网络的优秀指南,解释了如何从静态页面抓取数据以及如何使用缓存来管理服务器负载。此外,本书还介绍了如何使用AJAXURL和Firebug扩展来抓取数据,以及有关使用浏览器呈现、管理cookie和从受验证码保护的复杂网站提交表单等抓取技术的更多真相。提取数据等本书使用Scrapy创建了一个高级的网络爬虫,爬取了一些真实的网站。《用Python写网络爬虫》介绍了以下内容:通过跟踪链接抓取网站;使用lxml从页面中提取数据;构建线程爬虫以并行爬取页面;缓存下载的内容以减少带宽消耗;解析依赖JavaScript的网站;与表单和会话交互;对受保护页面上的验证码进行故障排除;逆向工程AJAX调用;使用Scrapy创建高级爬虫。谁应该读这本书?本书是为想要构建可靠的数据抓取解决方案的开发人员编写的。本书假定读者具有一定的Python编程经验。当然,有其他编程语言开发经验的读者也可以阅读本书,了解书中涉及的概念和原理。百度网盘地址:链接:https://pan.baidu.com/s/1GVRT5wXCnu-IKwJ-UbsumA提取码:1234
