网络爬虫的分类

时间：2023-03-25 23:49:00 Python

程序员Python培训好分享网络爬虫的分类。根据系统结构和实现技术，网络爬虫大致可以分为以下几种类型：通用网络爬虫（GeneralPurposeWebCrawler）、聚焦网络爬虫（FocusedWebCrawler）、增量网络爬虫（IncrementalWebCrawler）、深度网络爬虫（DeepWebCrawler）。实际的网络爬虫系统通常是由多种爬虫技术组合实现的。1.通用网络爬虫Scalablewebcrawler也称为ScalableWebCrawler。其爬取对象从一些种子网址扩展到整个Web，主要为门户搜索引擎和大型Web服务商收集数据。出于商业原因，他们的技术细节很少公布。一般的网络爬虫的结构大致可以分为几个部分：页面爬取模块、页面分析模块、链接过滤模块、页面数据库、URL队列和初始URL收集。为了提高工作效率，一般的网络爬虫都会采用一定的爬取策略。常用的爬取策略有：深度优先策略、广度优先策略。2.FocusedCrawlerFocusedCrawler，也称为TopicalCrawler，是指一种网络爬虫，它有选择地爬取与预先定义的主题相关的页面[8]。与通用网络爬虫相比，专注爬虫只需要爬取与主题相关的页面，大大节省了硬件和网络资源。存页数也因为数量少更新快，也能满足特定领域的一些特定人群。信息需求。与一般网络爬虫相比，聚焦网络爬虫增加了链接评估模块和内容评估模块。实现聚焦爬虫爬取策略的关键是评估页面内容和链接的重要性。不同的方法计算重要性不同，从而导致链接的访问顺序不同。主要的爬虫策略包括：基于内容评价的爬虫策略、基于链接结构评价的爬虫策略、基于强化学习的爬虫策略、基于上下文图的爬虫策略。3、增量式网络爬虫增量式网络爬虫（IncrementalWebCrawler）是指增量更新下载的网页，只爬取新生成或变化的网页的爬虫。它可以在一定程度上保证所有的网页。被抓取的页面是尽可能新的页面。增量爬虫只会在需要时爬取新生成或更新的页面，不会重新下载没有变化的页面，可以有效减少数据下载量，及时更新爬取的网页，减少时间和空间。昂贵，但增加了爬虫算法的复杂度和实现难度。增量网络爬虫架构【包括爬虫模块、排序模块、更新模块、本地页面集、待爬URL集和本地页面URL集。4.DeepWebCrawler网页按存在方式可分为表层网页（SurfaceWeb和DeepWeb，又称InvisibleWebPages或HiddenWeb）。表层网页是指传统搜索引擎可以收录的页面，带有超链接的静态网页主要由网页组成。DeepWeb是那些大部分内容无法通过静态链接获取，隐藏在搜索表单后面，只能通过用户提交一些关键字才能获取的网页。例如，那些用户注册的网页内容只可见的网页就属于深网。2000年，BrightPlanet指出，DeepWeb的可访问信息容量是SurfaceWeb的数百倍，是互联网上规模最大、增长最快的新信息资源。深网爬虫的架构包括六个基本功能模块（爬虫控制器、解析器、表单分析器、表单处理程序、响应分析器、LVS控制器）和两个爬虫内部数据结构（URL列表、LVS表）免责声明：内容及图片来源来自互联网，版权归原作者所有。如有侵犯您的原创版权，请告知，我们将第一时间删除相关内容。

上一篇：Django20200408博客开发002

下一篇：FreeOpenWrite项目更新日志

网络爬虫的分类相关文章