scrapyd的Windows管理客户端

时间：2023-03-26 19:20:43 Python

ScrapydManageGitHub地址：https://github.com/kanadeblis...码云：https://gitee.com/kanadebliss...scrapyd的Windows管理客户端，该软件只是将scrapyd的api集成了进入exe文件，软件是aardio写的，github有源码，可以自己编译，也可以下载github上发布的编译好的exe文件。主机管理界面右键菜单：添加主机添加主机，顾名思义就是添加scrapyd的api地址，比如127.0.0.1:6800。如果你不明白如何使用scrapyd，可以参考官方文档：https://scrapyd.readthedocs.i...。其实很简单，pipinstallscrapyd，然后在命令行输入scrapyd，或者先在当前目录下创建scrapyd.conf，修改一些配置参数然后输入scrapyd运行。【参考配置】：[scrapyd]eggs_dir=D:/scrapyd/eggslogs_dir=D:/scrapyd/logsitems_dir=D:/scrapyd/itemsjobs_to_keep=5dbs_dir=D:/scrapyd/dbsmax_proc=0max_proc_per_cpu=4finished_to_poll0.inter_poll0.inter_keep_=100.0.0http_port=6800debug=offrunner=scrapyd.runnerapplication=scrapyd.app.applicationlauncher=scrapyd.launcher.Launcherwebroot=scrapyd.website.Rootnode_name=localhost[services]schedule.json=scrapyd.webservice.Schedulecancel.json=scrapyd.webservice。Canceladdversion.json=scrapyd.webservice.AddVersionlistprojects.json=scrapyd.webservice.ListProjectslistversions.json=scrapyd.webservice.ListVersionslistspiders.json=scrapyd.webservice.ListSpidersdelproject.json=scrapyd.webservice.DeleteProjectdelversion.json=scrapyd.webservice.DeleteVersionlistjobs。json=scrapyd.webservice.ListJobsdaemonstatus.json=scrapyd.webservice.DaemonStatus其中注意修改三个目录eggs_dir,logs_dir,dbs_dir,others看情况自己修改刷新liststatus，只需要向所有主机发起请求更新status和nodename两列即可。看第一张图应该很容易理解，所有的item都同步到所有的host上了。顾名思义，默认版本号（version）是当前时间戳查看任务队列listjobs接口，返回scrapyd当前pending（待抓取）、running（抓取）、finished（抓取）相关信息服务器。就是读取与当前exe文件同级目录下的projects目录下的文件夹，有点乱。右键有三个功能：刷新项目列表，同步所有项目到，同步到（需要在一个项目上右击）创建任务界面右键有两个功能：创建任务，取消任务注意这里需要填写levelbylevel，软件步骤如下：选择主机->软件请求服务器返回主机下的所有物品->选择物品->软件请求服务器返回物品下的所有爬虫。可以是一个数字（以秒为单位），在指定的秒数后运行。时间间隔表示是否重复运行爬虫。重复的时间间隔只支持数字（以秒为单位）。比如填86400表示每天运行一次。因为需要等待服务器返回数据，即使使用多线程也需要等待返回值，所以选择主机或项目后会出现卡顿。如果您需要任何其他功能，您可以自行开发。源码已经有了，二次开发应该不难。aardio的语法与其他语言相似。我也知道它会在短时间内易于使用。

上一篇：超全Python网络爬虫教程合集！【仅此一天】

下一篇：Matplotlib中文乱码解决方法（Windows系统）

scrapyd的Windows管理客户端相关文章