ScrapydManageGitHub地址:https://github.com/kanadeblis...码云:https://gitee.com/kanadebliss...scrapyd的Windows管理客户端,该软件只是将scrapyd的api集成了进入exe文件,软件是aardio写的,github有源码,可以自己编译,也可以下载github上发布的编译好的exe文件。主机管理界面右键菜单:添加主机添加主机,顾名思义就是添加scrapyd的api地址,比如127.0.0.1:6800。如果你不明白如何使用scrapyd,可以参考官方文档:https://scrapyd.readthedocs.i...。其实很简单,pipinstallscrapyd,然后在命令行输入scrapyd,或者先在当前目录下创建scrapyd.conf,修改一些配置参数然后输入scrapyd运行。【参考配置】:[scrapyd]eggs_dir=D:/scrapyd/eggslogs_dir=D:/scrapyd/logsitems_dir=D:/scrapyd/itemsjobs_to_keep=5dbs_dir=D:/scrapyd/dbsmax_proc=0max_proc_per_cpu=4finished_to_poll0.inter_poll0.inter_keep_=100.0.0http_port=6800debug=offrunner=scrapyd.runnerapplication=scrapyd.app.applicationlauncher=scrapyd.launcher.Launcherwebroot=scrapyd.website.Rootnode_name=localhost[services]schedule.json=scrapyd.webservice.Schedulecancel.json=scrapyd.webservice。Canceladdversion.json=scrapyd.webservice.AddVersionlistprojects.json=scrapyd.webservice.ListProjectslistversions.json=scrapyd.webservice.ListVersionslistspiders.json=scrapyd.webservice.ListSpidersdelproject.json=scrapyd.webservice.DeleteProjectdelversion.json=scrapyd.webservice.DeleteVersionlistjobs。json=scrapyd.webservice.ListJobsdaemonstatus.json=scrapyd.webservice.DaemonStatus其中注意修改三个目录eggs_dir,logs_dir,dbs_dir,others看情况自己修改刷新liststatus,只需要向所有主机发起请求更新status和nodename两列即可。看第一张图应该很容易理解,所有的item都同步到所有的host上了。顾名思义,默认版本号(version)是当前时间戳查看任务队列listjobs接口,返回scrapyd当前pending(待抓取)、running(抓取)、finished(抓取)相关信息服务器。就是读取与当前exe文件同级目录下的projects目录下的文件夹,有点乱。右键有三个功能:刷新项目列表,同步所有项目到,同步到(需要在一个项目上右击)创建任务界面右键有两个功能:创建任务,取消任务注意这里需要填写levelbylevel,软件步骤如下:选择主机->软件请求服务器返回主机下的所有物品->选择物品->软件请求服务器返回物品下的所有爬虫。可以是一个数字(以秒为单位),在指定的秒数后运行。时间间隔表示是否重复运行爬虫。重复的时间间隔只支持数字(以秒为单位)。比如填86400表示每天运行一次。因为需要等待服务器返回数据,即使使用多线程也需要等待返回值,所以选择主机或项目后会出现卡顿。如果您需要任何其他功能,您可以自行开发。源码已经有了,二次开发应该不难。aardio的语法与其他语言相似。我也知道它会在短时间内易于使用。
