目的写一个真正的爬虫,将爬取的数据保存到txt、json、现有的mysql数据库中。目标分析:初学者有什么不懂的可以私信我——我刚刚整理了一套2021年最新的0基础入门教程,无私分享。获取方式:关注小编的CSDN,私信:【学习资料】即可获取,附:开发工具和安装包,以及系统学习路线图。数据筛选:我们使用chrome开发者工具模拟鼠标定位到相应位置:可以看到我们需要的数据,全部包裹起来这样我们就完成了准备工作。查看当前目录:Writeitems.py:这次我们先写items,很简单,填上你要获取的字段名即可:WriteSpider:这部分是我们整个爬虫的核心!!主要目的是:过滤Downloader发给我们的Response中的数据,返回给PIPELINE处理。我们来看看下面的代码:编写PIPELINE:我们知道pipelines.py是用来处理关闭爬虫抓取的数据的。一般我们数据会存储在本地:文本形式:最基本的存储方式json格式:方便调用数据库:数据量比较大时选择的存储方式TXT(文本)格式:json格式数据:我们想输出json格式的数据,最方便的就是在PIPELINE中自定义一个类:数据库格式(mysql):Python对市面上各种数据库的操作支持很好,所以想学习的同学,很有必要听这位老师的课,领取python福利,想学的同学可以去梦雅老师的微信(同读音):第一组是:mengy,后一组是:7762,把上面两组组合起来就可以了字母顺序,她会安排学习。但是现在免费的数据库mysql一般都是比较常用的。在本地安装mysql:linux和mac都有强大的包管理软件,比如apt、brew等,windows可以直接去官网下载安装包。由于我是Mac,所以我说的是Mac的安装方法。我们来看看天气表长什么样子:最后我们编辑一下代码:写Settings.py,需要在Settings.py中加入我们写的PIPELINE,这样scrapy才能运行。这里我们只需要添加一个dict格式的ITEM_PIPELINES,数字值可以自定义,数字越小,优先让项目跑起来:结果显示:文本格式:json格式:数据库格式:到此结束例子中,主要介绍如何自定义PIPELINE来爬取不同存储方式的数据。
