接下来我们在爬虫主文件中填写Item的值。1、首先在爬虫主文件中导入Item模块,如下图所示。2.第一步是将items.py中的ArticleItem类导入爬虫主文件,并拼接两个文件。items.py的部分内容如下图所示。3.导入ArticleItem类后,我们就可以对类进行初始化,并填充相应的值。先去parse_detail函数实例化一下。实例化方法也很简单,如下图所示。4、接下来我们填写相应的值。其实我们之前已经通过XPath或者CSS选择器获取到了目标数据,如下图所示,我们现在要做的就是依次填写目标字段的值。5、我们可以像字典一样给目标字段传值,比如item[“title”]=title,其他目标字段的填充也是这种格式,填充后如下图。其中target字段可以引用items.py中定义的item,可以加快填充速度。6、至此,我们已经把所有需要填写的字段都填好了,接下来我们需要调用yield,这个很重要。调用yield后,实例化的项会自动传递给管道。可以看到下图中pipelines.py中的默认代码,说明pipeline是可以真正接收item的。7、至此实例化item的步骤已经完成。是不是比较简单?后面我们会配置管道,一步步连接Scrapy。看完这篇文章你有收获吗?请转发分享给更多的人加入IT分享之家群,请在微信后台回复【进群】如果想深入了解Python网络爬虫和数据挖掘,可以上专业网站:http://pdcfighting.com/
