当前位置: 首页 > 后端技术 > Python

用Python写网络爬虫

时间:2023-03-25 22:55:28 Python

用Python写网络爬虫下载地址https://pan.baidu.com/s/1t12_kbi_NEOlHVfu5zTHrA扫描下方二维码关注公众号回复100165获取分享代码本目录结构全书内容如下:第一章网络爬虫简介11.1网络爬虫什么时候有用11.2网络爬虫合法吗?站长71.4编写第一个网络爬虫81.4.1下载网页91.4.2站点地图爬虫121.4.3ID遍历爬虫131.4.4链接爬虫151.5本章小结22第2章 数据爬取232.1网页分析232.2三种网页抓取方法262.2.1正则表达式262.2.2BeautifulSoup282.2.3Lxml302.2.4性能比较322.2.5结论352.2.6添加链接爬虫的抓取回调352.3本章小结38第三章 下载缓存393.1添加缓存支持对于链接爬虫393.2磁盘缓存423.2.1实现443.2.2缓存测试463.2.3节省磁盘空间463.2.4清理过期数据473.2.5缺点483.3数据库缓存493.3.1什么是NoSQL503.3.2安装MongoDB503.3.3MongoDB概述503.3.4MongoDB缓存实现523.3.5压缩543.3.6缓存测试543.4章节总结55第四章 并发下载574.1100万网页574.2串行爬虫604.3多线程爬虫604.3.1多线程爬虫dprocess工作原理614.3.2实现614.3.3多进程爬虫634.4性能674.5本章小结68第五章 动态内容695.1动态网页示例695.2动态网页逆向工程725.3渲染动态网页第775.3.1页PyQt或PySide785.3.2执行JavaScript785.3.3使用WebKit与网站交互805.3.4Selenium855.4章节摘要88第6章 表单交互896.1登录表单906.2支持内容更新的登录脚本扩展976.3使用Mechanize模块实现表单自动化处理1006.4本章小结102第7章 验证码处理1037.1账号注册1037.2光学字符识别1067.3复杂验证码处理1117.3.1使用验证码处理服务1127.3.29kw入门1127.3.3与注册功能集成1197.4本章小结120第八章Scrapy1218.1安装1218.2启动项目1228.2.1定义模型1238.2.2爬虫的创建1248.2.3爬虫withshell命令1288.2.4检查结果1298.2.5爬虫的中断和恢复1328.3使用Portia编写可视化爬虫1338.3.1安装1338.3.2注释1368.3.3优化爬虫1388.3.4检查结果1408.4使用Scrapely实现自动爬取1418.5总结本章142第9章 总结1439.1Google搜索引擎1439.2Facebook1489.2.1网站1489.2.2API1509.3Gap1519.4BMW1539.5章节总结157