phpspider是一个简单快速的php爬虫框架

时间：2023-03-30 03:56:10 PHP

前言前段时间接到一个项目，开发收集网站数据。从事php开发的我，立马想到了用php做爬虫。python爬虫虽然方便，但是php在这方面也不弱，谁让php成为世界上最好的语言呢！这里推荐一款php爬虫框架phpspider。不建议自己写爬虫，效率太低。使用框架爬虫真的很高效。很多官方文档：https://doc.phpspider.org/1。下载官方github下载地址：https://github.com/owner888/p...下载地址可能无法访问，这里提供网盘下载地址：https://pan.baidu.com/s/10n9Z...提取码：b2zc2，文件结构下载解压后phpspider的文件结构如图：demo文件夹放置phpspider部分案例如图：3.创建爬虫并运行到在demo文件夹下创建爬虫文件。需要注意的是phpspider有两种运行爬虫文件的方式，一种是在命令行下运行；另一种是进行可视化操作（在浏览器下运行）3.1在命令行下运行爬虫文件，爬取对象链接：https://www.douban.com/photos...需要爬取的内容如图图：爬取id为wrapper的div中包含的内容3.1.1在demo文件夹下新建文件spider.php，代码如下：'豆瓣',//定义当前爬虫名称'log_show'=>true,//显示日志调试信息'input_encoding'=>'UTF-8',//输入编码//定义爬虫爬取哪些域名对于网页，非域名下的url将被忽略以提高爬取速度'domains'=>array('www.douban.com'),//定义爬虫的入口链接，爬虫从这些链接开始爬取，而这些链接也是监控爬虫要监控的链接'scan_urls'=>array('https://www.douban.com/photos/album/1616649448/'),//爬虫数据导出'export'=>array('type'=>'csv',//type:导出类型csv,sql,db'file'=>'../data/abc.csv',//file:exportcsv,sql文件地址，如果没有文件自动创建),//定义内容页的提取规则'fields'=>array(array('name'=>"wrapper",'selector'=>"//div[@id='wrapper']",)));$spider=newphpspider($configs);$蜘蛛->开始（）；3.1.2直接在demo文件夹下打开cmd命令面板，输入命令行php-fspider.php回车，代码运行起来，如图：3.1.3查看爬取数据找到abcphpspider文件结构中data文件夹下的.csv文件，打开文件可以看到爬取到的数据，如图：3.2可视化操作（在浏览器下运行爬虫文件）待爬取对象链接：https://movie.douban.com/subj...爬取内容如图：爬取class为nav-items的div包含内容3.2.1在demo文件夹下新建一个文件test.php，代码如下：

上一篇：LaravelArtisan命令行的使用

下一篇：PHP进阶案例：使用Screw对源码进行加密

phpspider是一个简单快速的php爬虫框架相关文章