当前位置: 首页 > 后端技术 > Python

网络爬虫的分类

时间:2023-03-25 23:49:00 Python

程序员Python培训好分享网络爬虫的分类。根据系统结构和实现技术,网络爬虫大致可以分为以下几种类型:通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络爬虫(FocusedWebCrawler)、增量网络爬虫(IncrementalWebCrawler)、深度网络爬虫(DeepWebCrawler)。实际的网络爬虫系统通常是由多种爬虫技术组合实现的。1.通用网络爬虫Scalablewebcrawler也称为ScalableWebCrawler。其爬取对象从一些种子网址扩展到整个Web,主要为门户搜索引擎和大型Web服务商收集数据。出于商业原因,他们的技术细节很少公布。一般的网络爬虫的结构大致可以分为几个部分:页面爬取模块、页面分析模块、链接过滤模块、页面数据库、URL队列和初始URL收集。为了提高工作效率,一般的网络爬虫都会采用一定的爬取策略。常用的爬取策略有:深度优先策略、广度优先策略。2.FocusedCrawlerFocusedCrawler,也称为TopicalCrawler,是指一种网络爬虫,它有选择地爬取与预先定义的主题相关的页面[8]。与通用网络爬虫相比,专注爬虫只需要爬取与主题相关的页面,大大节省了硬件和网络资源。存页数也因为数量少更新快,也能满足特定领域的一些特定人群。信息需求。与一般网络爬虫相比,聚焦网络爬虫增加了链接评估模块和内容评估模块。实现聚焦爬虫爬取策略的关键是评估页面内容和链接的重要性。不同的方法计算重要性不同,从而导致链接的访问顺序不同。主要的爬虫策略包括:基于内容评价的爬虫策略、基于链接结构评价的爬虫策略、基于强化学习的爬虫策略、基于上下文图的爬虫策略。3、增量式网络爬虫增量式网络爬虫(IncrementalWebCrawler)是指增量更新下载的网页,只爬取新生成或变化的网页的爬虫。它可以在一定程度上保证所有的网页。被抓取的页面是尽可能新的页面。增量爬虫只会在需要时爬取新生成或更新的页面,不会重新下载没有变化的页面,可以有效减少数据下载量,及时更新爬取的网页,减少时间和空间。昂贵,但增加了爬虫算法的复杂度和实现难度。增量网络爬虫架构【包括爬虫模块、排序模块、更新模块、本地页面集、待爬URL集和本地页面URL集。4.DeepWebCrawler网页按存在方式可分为表层网页(SurfaceWeb和DeepWeb,又称InvisibleWebPages或HiddenWeb)。表层网页是指传统搜索引擎可以收录的页面,带有超链接的静态网页主要由网页组成。DeepWeb是那些大部分内容无法通过静态链接获取,隐藏在搜索表单后面,只能通过用户提交一些关键字才能获取的网页。例如,那些用户注册的网页内容只可见的网页就属于深网。2000年,BrightPlanet指出,DeepWeb的可访问信息容量是SurfaceWeb的数百倍,是互联网上规模最大、增长最快的新信息资源。深网爬虫的架构包括六个基本功能模块(爬虫控制器、解析器、表单分析器、表单处理程序、响应分析器、LVS控制器)和两个爬虫内部数据结构(URL列表、LVS表)免责声明:内容及图片来源来自互联网,版权归原作者所有。如有侵犯您的原创版权,请告知,我们将第一时间删除相关内容。