Scrapyd使用详解

时间：2023-03-26 01:30:15 Python

目录前言使用详解安装启动项目发布相关API使用查看服务进程状态项目发布版本调度爬虫取消任务获取上传项目获取项目版本获??取项目爬虫列表获取任务列表（Scrapyd0.15及以上）删除项目版本删除项目前言Scrapyd正常运行为守护进程它监听运行爬虫的请求，并为每个请求生成一个基本上执行的进程：scrapycrawl[myspider]。Scrapyd还并行运行多个进程，将它们分布在max_proc和max_proc_per_cpu选项提供的固定数量的槽中，启动尽可能多的进程来处理负载。除了调度和管理进程之外，Scrapyd还提供了一个JSON网络服务来上传新的项目版本（作为鸡蛋）和调度爬虫。Scrapyd官方文档https://scrapyd.readthedocs.i...重点：通过api在多个进程中执行请求，在网页上查看正在进行的任务，创建新的爬虫任务，以及终止爬虫任务。使用详解安装pipinstallscrapyd依赖的库和版本：Python2.7以上Twisted8.0以上Scrapy1.0以上6启动项目目录，输入scrapyd运行，默认地址http://localhost:6800scrapyd官方详细配置文件说明：https://scrapyd.readthedocs.i...修改默认配置信息，可以在项目下新建scrapyd.conf或者在scrapy.cfg中添加[scrapyd]：[scrapyd]#网页和Json服务监听的IP地址，默认127.0.0.1bind_address=127.0.0.1#监听端口，默认6800http_port=6800#是否开启debug模式，默认offdebug=off#Scrapy进程数可以为每个CPU启用，默认为4max_proc_per_cpu=4#启用最大进程数，默认为0。如果不设置或设置为0，则最大使用进程数=CPU数*max_proc_per_cpumax_proc=0#项目eggs生成目录，默认为eggseggs_dir=eggsintheprojectdirectory#项目日志生成目录，默认为项目目录下的logs，如果不想生成日志，可以直接设置为空logs_dir=logsitems_dir=#项目dbs生成目录，默认为dbsdbs_dir=项目目录下的dbs#存放爬取item的文件夹（0.15.0版本）above)，默认为空，不存储。items_dir=#每个爬虫保留的已完成任务数，默认为5。（0.15.及以上版本，之前版本为logs_to_keep）jobs_to_keep=5#保留已完成任务进程数。默认为100。（0.14及以上版本）finished_to_keep=100#轮询请求队列的时间间隔。默认5s，可以是浮点数poll_interval=5.0#启动子进程的模块。可以使用customrunner=scrapyd.runner#返回一个可以用于twisted的应用程序，可以继承自Scrapyd添加和删除自己的组件和服务。https://twistedmatrix.com/documents/current/core/howto/application.html查看更多Scrapyd包含一个与网站的接口，该接口提供对应用程序网络资源的简单监控和访问。此设置必须提供扭曲Web资源的根类。webroot=scrapyd.website.Root项目发布部署主要分为两步：将项目打包成egg，通过Scrapyd的addversion.json接口将egg上传到目标服务器官方部署上传接口文档：https://scrapyd.readthedocs.i...小编推荐使用Scrapyd-client中的scrapyd-deploy来一步上传。关于Scrapyd-client介绍：Scrapyd-client是Scrapyd的客户端。它提供通用的scrapyd-client和scrapyd-deploy实用程序，允许您将项目部署到Scrapyd服务器。重点：打包上传一步到位。scrapy-client安装pipinstallscrapyd-clientDeployment：在项目目录下，即scrapy.cfg所在目录运行scrapyd-deploy正确结果：可能错误：(1)Deployfailed:

上一篇：Leetcode剑指offer42.连续子数组的最大值及Python实现（同53题）

下一篇：Python学习之print()函数

Scrapyd使用详解相关文章