前言前段时间接到一个项目,开发收集网站数据。从事php开发的我,立马想到了用php做爬虫。python爬虫虽然方便,但是php在这方面也不弱,谁让php成为世界上最好的语言呢!这里推荐一款php爬虫框架phpspider。不建议自己写爬虫,效率太低。使用框架爬虫真的很高效。很多官方文档:https://doc.phpspider.org/1。下载官方github下载地址:https://github.com/owner888/p...下载地址可能无法访问,这里提供网盘下载地址:https://pan.baidu.com/s/10n9Z...提取码:b2zc2,文件结构下载解压后phpspider的文件结构如图:demo文件夹放置phpspider部分案例如图:3.创建爬虫并运行到在demo文件夹下创建爬虫文件。需要注意的是phpspider有两种运行爬虫文件的方式,一种是在命令行下运行;另一种是进行可视化操作(在浏览器下运行)3.1在命令行下运行爬虫文件,爬取对象链接:https://www.douban.com/photos...需要爬取的内容如图图:爬取id为wrapper的div中包含的内容3.1.1在demo文件夹下新建文件spider.php,代码如下:'豆瓣',//定义当前爬虫名称'log_show'=>true,//显示日志调试信息'input_encoding'=>'UTF-8',//输入编码//定义爬虫爬取哪些域名对于网页,非域名下的url将被忽略以提高爬取速度'domains'=>array('www.douban.com'),//定义爬虫的入口链接,爬虫从这些链接开始爬取,而这些链接也是监控爬虫要监控的链接'scan_urls'=>array('https://www.douban.com/photos/album/1616649448/'),//爬虫数据导出'export'=>array('type'=>'csv',//type:导出类型csv,sql,db'file'=>'../data/abc.csv',//file:exportcsv,sql文件地址,如果没有文件自动创建),//定义内容页的提取规则'fields'=>array(array('name'=>"wrapper",'selector'=>"//div[@id='wrapper']",)));$spider=newphpspider($configs);$蜘蛛->开始();3.1.2直接在demo文件夹下打开cmd命令面板,输入命令行php-fspider.php回车,代码运行起来,如图:3.1.3查看爬取数据找到abcphpspider文件结构中data文件夹下的.csv文件,打开文件可以看到爬取到的数据,如图:3.2可视化操作(在浏览器下运行爬虫文件)待爬取对象链接:https://movie.douban.com/subj...爬取内容如图:爬取class为nav-items的div包含内容3.2.1在demo文件夹下新建一个文件test.php,代码如下:
