小白也能看懂！教你快速搭建一个实用的爬虫管理平台

时间：2023-03-26 18:08:34 Python

写在前面：本文内容丰富，涉及面广。读完大约需要20分钟。请耐心阅读。现在大多数企业都离不开爬虫，爬虫是一种获取数据的有效方式。但是，对爬虫有大规模需求的公司或个人，需要同时应对不同类型的爬虫，这会凭空增加很多额外的管理成本。同时，爬虫管理员还需要处理网站内容变更、持续增量爬取、任务失败等问题。因此，一个成熟的爬虫管理流程应该包括一个能够有效处理上述问题的管理系统。爬虫有多重要？对于搜索引擎来说，爬虫是必不可少的；对于舆情公司来说，爬虫是基础；对于NLP，爬虫可以获得语料库；对于初创公司，爬虫可以获得初始内容。但是爬虫技术是复杂的，不同类型的爬虫场景会用到不同的技术。比如一个简单的静态页面，可以直接用HTTP请求+HTML解析器处理；动态页面需要使用自动化测试工具，如Puppeteer或Selenium；有反爬虫的网站需要使用代理、编码等技术；等等。那么这个时候就需要一个成熟的爬虫管理平台来帮助企业或者个人应对海量的爬虫类目。了解什么是爬虫管理平台定义爬虫管理平台是集爬虫部署、任务调度、任务监控、结果展示等模块于一体的一站式管理系统，通常配备可视化UI界面，可访问通过网页交互的UI界面有效管理爬虫。爬虫管理平台一般支持分布式，可以多机协同运行。当然，上面的定义是狭义的，通常是针对技术人员或者开发人员或者技术管理人员。企业一般会开发自己的内部爬虫管理系统，以应对复杂的爬虫管理需求。这样的系统就是上面定义的狭义的爬虫管理平台。广义爬虫管理平台什么是广义爬虫管理平台？你可能听说过Archer（后来变身后羿收藏家）和Octopus。前者基于云服务，可以在线编写、运行和监控爬虫，最接近广义爬虫平台中狭义的爬虫管理平台；后者是一款流行的商业爬虫爬虫，允许新手用户拖拽编写，运行爬虫，导出数据。大家可能也见过各种API聚合服务商，比如聚合数据，就是一个可以直接调用网站接口获取数据的平台。这其实是爬虫平台的一个变种，只是帮助你完成爬虫的编写。过程。其间，有一家名为Kimonolab的国外公司，开发了一款名为Kimono的Chrome插件，可以让用户直观地点击页面上的元素并生成抓取规则，并显示在其网站上。生成一个爬虫程序，用户提交任务，后台可以自动抓取网站数据。Kimono是一款很棒的爬虫应用，可惜Kimonolab已经被大数据公司Plantir收购，目前无法体验。本文主要关注狭义的爬虫管理平台，所以后面提到的爬虫管理平台都是指狭义的定义。爬虫管理平台模块以下是一个典型的爬虫管理平台涉及的模块。爬虫管理平台架构一个典型的爬虫管理平台的模块主要包括以下内容：任务管理：如何执行和调度爬虫抓取任务，以及如何监控任务，包括日志监控等；爬虫管理：包括爬虫部署，即将开发的爬虫部署（打包或复制）到相应节点，以及爬虫配置和版本管理；节点管理：包括节点（服务器/机器）的注册和监控、节点间的通信、如何监控节点性能等；前端应用程序：由用户可以与之交互以与后台应用程序通信的可视化UI界面组成。当然，有些爬虫管理平台可能不止这些模块，还可能包括其他更实用的功能，比如可配置的爬虫规则、可视化配置的爬虫规则、代理池、cookie池、异常监控等等。为什么需要爬虫管理平台有了爬虫管理平台，开发者，尤其是爬虫工程师，可以方便的添加爬虫，执行任务，查看结果，无需在命令行之间来回切换，非常容易出错。一个常见的场景是爬虫工程师最初使用scrapy和crontab来管理爬虫任务。他要仔细选择定时任务的时间间隔，以免服务器CPU或内存被占满；比较棘手的问题是，他还需要将scrapy产生的日志保存在一个文件中。爬虫一旦出错，就得用shell命令一条一条查看日志，定位错误原因。严重的需要一整天；还有一个比较严重的问题，一个爬虫工程师可能会发现公司的业务量越来越大，他需要写几百个爬虫来满足公司的业务需求，而用scrapy和crontab来管理简直就是一场噩梦。可怜的爬虫工程师其实可以选择一个合适的爬虫管理平台来解决他的问题。如何选择合适的爬虫管理平台当你愿意解决上面提到的爬虫工程师遇到的棘手问题，并且想转而选择合适的爬虫管理平台时。你应该回答的第一个问题是：我们需要从头开始（Startfromscratch）开发一个系统吗？要回答这个问题，首先要回答以下问题：我们的需求是否复杂到需要完全定制开发一个新系统（比如需要复杂的权限管理）？我们的团队是否有足够的技术实力来开发这个系统（比如经验丰富的前后端开发工程师）？我们的时间资源是否足够我们开发这个系统（比如项目规划周期是一年）？如果以上三个问题中的任何一个的答案是“否”，您应该考虑使用市面上现有的开源爬虫管理平台来满足您的需求。以下是市面上现有的开源爬虫管理平台：总的来说，SpiderKeeper可能是最早的爬虫管理平台，但是功能比较有限；Gerapy虽然功能完备，界面漂亮，但是也有很多bug需要处理。建议有需要的用户等待2.0版本；Scrapydweb是一个比较完善的爬虫管理平台，但是和前两者一样，是基于scrapyd的，所以只能运行scrapy爬虫；而Crawlab是一个非常灵活的爬虫管理平台。可以运行Python、Nodejs、Java、PHP、Go编写的爬虫，功能比较齐全，但是部署起来比前三种麻烦，但是对于Docker用户来说，一次部署就可以了（后面会讲到）).所以对于严重依赖scrapy爬虫又不想折腾的开发者，可以考虑Scrapydweb；而对于类型多样、技术结构复杂的爬虫开发者，则应优先考虑使用更灵活的Crawlab。当然，并不是说Crawlab对scrapy的支持不友好，Crawlab也可以很好的集成scrapy，后面会介绍。作为Crawlab的作者，我不想卖自己的瓜，只是想把最好的技术选型推荐给开发者，让开发者根据自己的需求来决定使用哪个爬虫管理平台。爬虫管理平台Crawlab简介Crawlab是一个基于Golang的分布式爬虫管理平台，支持Python、NodeJS、Java、Go、PHP等多种编程语言以及多种爬虫框架。Crawlab自今年3月上线以来，受到了爬虫爱好者和开发者的一致好评。也有不少用户表示会使用Crawlab搭建公司的爬虫平台。经过几个月的迭代，Crawlab陆续上线了定时任务、数据分析、网站信息、可配置爬虫、自动字段提取、下载结果、上传爬虫等功能，让平台更加实用全面，真正能够帮助解决用户爬虫管理难的问题。现在Github上有近1kstar，相关社区也已经建立。四分之一的用户表示他们已经将Crawlab应用于企业爬虫管理。可见Crawlab受到开发者的关注和喜欢。解决问题Crawlab主要解决爬虫数量多管理难的问题。比如需要同时监控上百个网站的scrapy和selenium混合项目，管理起来并不容易，而且命令行管理的成本非常高，而且容易出错。Crawlab支持任何语言和任何框架。配合任务调度和任务监控，轻松有效监控和管理大型爬虫项目。界面及使用下面是Crawlab的爬虫列表页面截图。Crawlab爬虫列表用户只需将爬虫上传到Crawlab，配置执行命令，点击“运行”按钮即可执行爬虫任务。爬虫任务可以在任何节点上运行。从上图可以看出，Crawlab有节点管理、爬虫管理、任务管理、定时任务、用户管理等模块。整体架构下面是Crawlab的整体架构图，由五部分组成：MasterNode：负责任务分发、API、爬虫的部署等；WorkerNode：负责执行爬虫任务；MongoDB数据库：存储节点、爬虫、任务等日常运行数据；Redis数据库：存储任务消息队列、节点心跳等信息。前端客户端：Vue应用，负责前端交互，向后端请求数据。Crawlab架构Crawlab的使用方法和详细原理不在本文讨论范围之内。有兴趣的可以参考Github主页或相关文档。Github地址和Demo查看DemoDemoGithub：https://github.com/tikazyq/cr...使用Docker部署安装CrawlabDocker镜像Docker是部署Crawlab最方便简洁的方式。其他部署方式包括直接部署，但不推荐希望快速搭建平台的开发者使用。Crawlab已经在Dockerhub上注册了相关镜像。开发者只需要执行dockerpulltikazyq/crawlab命令即可下载Crawlab的镜像。读者可以去Dockerhub查看Crawlab的镜像，只有不到300Mb。地址：https://hub.docker.com/r/tika...Dockerhub页面安装Docker要使用Docker部署Crawlab，首先要确保已经安装了Docker。请参考以下文档进行安装。安装Docker组合。DockerCompose是一个用于运行Docker集群的简单工具。它非常轻巧。我们将使用DockerCompose一键部署Crawlab。Docker官网已经有DockerCompose安装教程，点击链接查看。这里简单介绍一下。Linux用户请使用以下命令安装。下载docker-composesudocurl-L"https://github.com/docker/compose/releases/download/1.24.1/docker-compose-$(uname-s)-$(uname-m)"-o/usr/local/bin/docker-compose`将docker-compose变成可执行文件sudochmod+x/usr/local/bin/docker-composepullimage拉取镜像前，需要配置镜像源。因为在国内，使用原始镜像源的速度不是很快，需要DockerHub的国产加速器。请创建/etc/docker/daemon.json文件并输入以下内容。{"registry-mirrors":["https://registry.docker-cn.com"]}然后拉取镜像，会快很多。当然你也可以使用其他的镜像源，你可以上网搜索。执行以下命令拉取Crawlab镜像。dockerpulltikazyq/crawlab:latest下图是拉取镜像时的命令行界面。dockerpull启动Crawlab我们将使用DockerCompose启动Crawlab及其依赖的数据库MongoDB和Redis。首先，我们需要修改DockerCompose的yaml配置文件docker-compose.yml。这个配置文件定义了需要启动的容器服务（ContainerServices）和网络配置（NetworkConfiguration）。这里我们使用Crawlab自带的docker-compose.yml。version:'3.3'#DockerCompose的版本号（请看后续说明）services:#servicemaster:#服务名称image:tikazyq/crawlab:latest#服务对应的镜像名称container_name:master#服务环境对应的容器名称：#定义传入的环境变量CRAWLAB_API_ADDRESS:"localhost:8000"#前端调用的API地址，默认为localhost:8000CRAWLAB_SERVER_MASTER:"Y"#是否为主节点，Y/NCRAWLAB_MONGO_HOST:"mongo"#MongoDB主机，因为在DockerCompose中，可以参考服务名CRAWLAB_REDIS_ADDRESS:"redis"#Redis主机，因为在DockerCompose中，可以参考服务名ports:#映射端口-"8080:8080"#前端端口-"8000:8000"#后端端口depends_on:#依赖服务-mongo#MongoDB-redis#Redisworker:#Worker节点，类似master节点配置，不重复image:tikazyq/crawlab:latestcontainer_name:工人nvironment:CRAWLAB_SERVER_MASTER:"N"CRAWLAB_MONGO_HOST:"mongo"CRAWLAB_REDIS_ADDRESS:"redis"depends_on:-mongo-redismongo:#MongoDB服务名image:mongo:latest#MongoDB镜像名restart:always#重启策略是"always"ports:#映射端口-"27017:27017"redis:#Redis服务名image:redis:latest#Redis镜像名restart:always#重启策略为"always"ports:#映射端口-"6379:6379"读者可以根据自己的需求配置docker-compose.yml。特别要注意环境变量CRAWLAB_API_ADDRESS，很多新手用户就是因为这个变量配置不正确导致无法登录大部分情况下，你不需要做任何配置改动，常见问题请参考Q&A，详细的环境变量配置文档帮助你根据自己的环境配置Crawlab，然后运行如下命令启动Crawlab，可以加一个-d参数，让DockerCompose在后台运行。完成后，四个服务会依次启动，运行命令可以看到一行中有如下内容，正常docker-compose下，应该可以看到四个服务都启动了e成功启动，可以顺利打印日志。如果在本机启动DockerCompose，在浏览器中输入http://localhost:8080，即可看到登录界面；如果在另一台机器上启动DockerCompose，需要在浏览器中输入http://:8080才能看到登录界面界面，为其他机器的IP地址（请确保8080端口开放到这台机器上的外部世界）。login的初始登录用户名和密码是admin/admin，您可以使用这个用户名和密码登录。如果您的环境变量CRAWLAB_API_ADDRESS设置不正确，您可能会看到点击登录后登录按钮一直在旋转，没有任何提示迅速的。此时请在docker-compose.yml中设置正确的CRAWLAB_API_ADDRESS（将localhost替换为），然后重新启动docker-composeup。然后在浏览器中输入http://:8080。登录后，您将看到Crawlab的主页。home这篇文章主要介绍如何搭建一个爬虫管理平台Crawlab，所以就不详细介绍如何使用Crawlab了（可能另建一篇文章详细介绍，有兴趣的可以关注下）。如果您感到困惑，请查看相关文档以了解如何使用它。如何将Scrapy等爬虫集成到Crawlab中？众所周知，Scrapy是一个非常流行的爬虫框架。其灵活的框架设计、高并发性、易用性和可扩展性已被众多开发者和企业广泛采用。市面上几乎所有的爬虫管理平台都支持Scrapy爬虫，Crawlab也不例外，但Crawlab可以运行puppeteer、selenium等其他爬虫。下面将介绍如何在Crawlab中运行scrapy爬虫。Crawlab是执行爬虫的基本原理。Crawlab执行爬虫的原理很简单。它实际上是一个shell命令。用户在爬虫中输入一个shell命令来执行爬虫，比如scrapycrawlsome_spider，Crawlab执行器会读取命令并直接在shell中执行。因此，每次运行一个爬虫任务，都会执行一个shell命令（当然实际情况要比这个复杂很多，有兴趣的可以参考官方文档）。Crawlab支持显示和导出爬虫结果，但这需要多做一些工作。写一个Pipeline集成scrapy爬虫，无非就是将爬虫抓取的数据存储在Crawlab数据库中，然后与任务ID关联起来。每次执行爬虫任务时，任务ID都会通过环境变量传递给爬虫程序，所以我们要做的就是将任务ID和结果存入数据库（Crawlab现在只支持MongoDB，而MySQL，SQLServer、Postgres等关系型数据库后期会开发，有需要的用户可以关注）。在Scrapy中，我们需要编写存储逻辑。原理图代码如下：导入相关库，pymongo为连接MongoDB的标准库importosfrompymongoimportMongoClientMongoDB配置参数MONGO_HOST='192.168.99.100'MONGO_PORT=27017MONGO_DB='crawlab_test'classJuejinPipeline(object):mongo=MongoClient(host=MONGO_HOST,port=MONGO_PORT)#mongo连接实例db=mongo[MONGO_DB]#数据库实例col_name=os.environ.get('CRAWLAB_COLLECTION')#集合名称，通过环境变量传递CRAWLAB_COLLECTION#如果CRAWLAB_COLLECTION做不存在，默认集合的名字是testifnotcol_name:col_name='test'col=db[col_name]#Collectioninstance#每次传入item都会调用的函数，参数是item和spiderdefprocess_item(self,item,spider):item['task_id']=os.environ.get('CRAWLAB_TASK_ID')#将task_id设置为环境变量传递的任务IDself.col.save(item)#保存item返回它em在数据库中同时，还需要在items.py中添加task_id字段，并且保证赋值（这个很重要）。上传和配置爬虫在运行爬虫之前，您需要将爬虫文件上传到主节点。步骤如下：将爬虫文件打包成zip（注意一定要直接打包到根目录下）；点击侧边栏“爬虫”进入爬虫列表，点击“添加爬虫”按钮，选择“自定义爬虫”；点击“上传”按钮，选择刚刚打包好的zip文件。上传成功后，新添加的自定义爬虫会出现在爬虫列表中，即表示上传成功。您可以点击爬虫详情中的“文件”选项卡，选择一个文件，编辑文件中的代码。接下来需要在“概览”选项卡的“执行命令”栏中输入爬虫的shell执行命令。Crawlab的Docker镜像内置了scrapy，直接运行scrapy爬虫即可。命令是scrapycrawl。点击“保存”按钮保存爬虫配置。运行爬虫任务，然后运行爬虫任务。其实很简单。单击“概览”选项卡中的“运行”按钮，爬虫任务将开始运行。如果日志提示找不到scrapy命令，可以将scrapy改为绝对路径/usr/local/bin/scrapy，即可运行成功。任务的运行状态会显示在爬虫的“任务”页面或“概览”中，每5秒更新一次。你可以在这里查看。并且在爬虫的“结果”选项卡中，您可以预览结果的详细信息，还可以将数据导出为CSV文件。构建持续集成(CI)工作流程对于企业而言，软件开发通常是一个自动化过程。它将经历需求、开发、部署、测试和启动的步骤。而且这个过程一般是迭代的，需要不断更新发布。以爬虫为例，你启动了一个爬虫，这个爬虫会定时抓取网站数据。但是突然有一天你发现数据抓不到了。你很快定位原因，发现网站改版了。您需要更改抓取规则以应对网站改版。无论如何，您需要发布代码更新。最快的方法就是直接改代码就行了。但这很危险：首先，你无法测试你更新后的代码，只能通过不断调整线上代码来测试爬取是否成功；第二，你不能记录这个变化，如果以后出了什么问题，你可能会忽略这个变化，从而导致bug。您需要做的就是使用版本管理工具来管理您的爬虫代码。我们有很多版本管理工具，最常用的是git和subversion，版本管理平台有Gitlab、Bitbucket、自建Git仓库。当我们更新代码时，我们需要将更新后的代码发布到在线服务器上。这时候就需要自己编写部署脚本，或者更方便的是，使用Jenkins作为持续集成（ContinuousIntegration）管理平台。Jenkins是一个持续集成平台，可以通过获取版本库来更新部署代码。是一款非常实用的工具，很多企业都在使用。下图是如何将Crawlab爬虫应用到持续集成工作流中的示例。ci在Crawlab中创建或更新爬虫有两种方式：上传打包好的zip文件；修改主节点CRAWLAB_SPIDER_PATH目录下的爬虫文件。我们针对第二种方式做持续集成。步骤如下：使用Gitlab或其他平台搭建代码仓库；在Jenkins中创建一个项目，将项目中的代码源指向之前创建的仓库；在Jenkins项目中写一个工作流，将发布地址指向Crawlab的CRAWLAB_SPIDER_PATH，如果是Docker注意挂载这个地址到主机文件系统；Jenkins项目的工作可以直接写，也可以使用Jenkinsfile，可以查看相关资料；这样每次代码更新提交到代码仓库后，Jenkins都会进行更新。将代码发布到Crawlab，Crawlab的主节点会将爬虫代码同步到工作节点进行爬取。总结本文主要介绍了爬虫管理平台的定义，如何选择爬虫管理平台，重点介绍了如何搭建一个开源的爬虫管理平台Crawlab，同时也谈到了如何集成scrapy爬虫以及如何打造一个持续集成工作流程。还有很多东西本文没有涉及到，包括如何理解Crawlab的原理和架构，如何使用Crawlab，如何编写大型爬虫，如何使用Jenkins等等。这些内容可能会发表在其他文章中，请感兴趣的读者多加留意。此外，Crawlab还有一些需要完善的地方，比如异常监控（零值、空值）、可配置爬虫、可视化爬虫、集中日志收集等，这些功能会在未来陆续开发发布，请多多关注。本文分享自华为云社区《如何快速搭建实用的爬虫管理平台》，原作者：MarvinZhang。点击关注，第一时间了解华为云的新鲜技术~

上一篇：Django获取当日23-59-59的时间戳

下一篇：python中if条件语句的作用和语法，注意事项

小白也能看懂！教你快速搭建一个实用的爬虫管理平台相关文章