话不多说,直接进入正题!如何从海量的互联网站点中获取有用的资源信息,对于站点的进一步优化具有重要的作用。为了提高网站资源获取的准确性和效率,本文提出了一种基于Python的地方网站自动爬虫程序设计,利用工信部网站备案号的搜索查询,呈现全量网站资源。甘肃本地网站,实现高效全面的内容爬取。最后针对甘肃手机资源优化网站,提升本地网站质量。Python网站爬虫原理基于Python网站爬虫工具[2],包括网站爬取、网站分析、数据存储三个模块,如图1所示。网站爬虫程序流程1.1网站爬虫方案网站爬虫系统通过搜索本网站超链接信息,不断获取互联网上其他网站信息,自动筛选有用信息[.因此,首先要确定如何获取网站信息。本文提出四种网站爬虫解决方案。1.1.1DNS查询方案通过DNS系统访问日志获取。优点:全网最准确的数据源;缺点:本地网站DNS解析数排在TOP100,000之后。1.1.2CP流量排名查询方案通过亚马逊免费网站访问查询。优点:以网站浏览量展示,可查询排名变化趋势数据;缺点:数据不全,主要是大CP,地方网站算不上。1.1.3搜索引擎排名查询解决方案通过百度、搜狗等搜索引擎进行搜索。优点:全网网站收录比较齐全;缺点:存在CP支付排名第一,民生网站排名靠后的风险。1.1.4工信部网站备案号查询解决方案通过工信部网站备案号查询。优势:所有网站信息均经工信部备案,全网数据最全;缺点:部分网站可能没有省内的DNS解析数据。通过分析四种方案的优缺点,本文选择基于工信部网站备案号查询的方案。1.2网站爬虫流程1.2.1构建网站url_base=″http://icp.chinaz.com/LongICP备″+year_get+num+″#”url对于不同的网站备案号不同,需要通过构建来完成遍历通过该程序的申请号。1.2.2获取HTML信息查看网页源码,详细处理涉及正则匹配等。1.2.3提取网站域名关联提取网站所有有用信息。1.2.4DNS解析网站IP调用甘肃移动公网DNS地址,实现批量DNS解析。1.2.5获取IP地址归属地通过阿里API返回IP地址信息的json字符串,获取IP地址归属地。1.2.6网站信息的呈现通过EXCEL导出全量网站信息。
