当前位置: 首页 > 后端技术 > PHP

Beanbun:简单开放的PHP爬虫框架

时间:2023-03-30 03:35:50 PHP

BeanbunBeanbun是一个用PHP编写的多进程网络爬虫框架,具有良好的开放性和高扩展性。项目地址:https://github.com/kiddyuchin...文档地址:http://beanbun.org出处希望有这样一个爬虫框架:在需求简单的情况下,可以快速建立一个功能最少代码一个完整的爬虫;如果你愿意,你可以以任何你想要的方式修改爬虫。天生就应该支持分布式,支持多进程(或线程),使用composer可以轻松搭建一个强大的爬虫。之前写的一个爬虫不断删减调整功能,才有了现在的豆包。这个名字来自作者的猫。这只猫名叫修补。“补”是北方的一种糕点。.修补->豆包->豆包。希望能在这里抛砖引玉,和大家一起继续完善Beanbun。特性支持daemon和normal模式(daemon模式只支持Linux服务器)默认使用Guzzle进行爬取支持分布式内存、Redis等队列模式支持自定义URI过滤支持广度优先和深度优先爬取获取方式遵循PSR-4标准。爬取网页分为多个步骤,每个步骤支持自定义动作(如添加代理、修改user-agent等)灵活的扩展机制,可以方便的为框架做插件:自定义队列,自定义爬取方式。..安装Beanbun可以通过composer安装。$composerrequirekiddyu/beanbun一个简单的例子创建一个文件start.php,内容如下seed=['http://www.950d.com/','http://www.950d.com/list-1.html','http://www.950d.com/list-2.html',];$beanbun->afterDownloadPage=function($beanbun){file_put_contents(__DIR__.'/'.md5($beanbun->url),$beanbun->page);};$beanbun->start();在命令行执行$phpstart.php,就可以看到爬取的日志了。2017-04-0414:14:14豆包工下载http://www.950d.com/success.2017-04-0414:14:14豆包工下载http://www.950d.com/list-1.htmlsuccess.2017-04-0414:14:14豆包工下载http://www.950d.com/list-2.html成功。最后,我会为一些不同类型的网站写一些Beanbunworker实现爬虫的小例子,欢迎继续关注。