当前位置: 首页 > Web前端 > JavaScript

自定义导航采集网站设计和js抓取页面的文本链接信息

时间:2023-03-27 18:11:32 JavaScript

问题背景浏览器喜欢的功能不错,但是像hao123这样的导航网站也很好,比较直观。但是发现不能定制,或者不能定制的很好。所以我想实现一个简单的本地化页面。下面的例子是这样的。一开始考虑能不能在线维护。考虑到没有后台服务,就放弃了。现在只能在电脑上维护json文件了。谷歌浏览器插件我也考虑过,后来放弃了。网页效果部分代码特征关于爬取一些符合规则的导航网站,爬取的url为https://www.lervor.com/nav/#这个导航网站(主要是利用js正则表达式来匹配字符得到想要的链接和文字)将下面的js复制到浏览器控制台,即可返回结果。变种标题=“”;//标题vartitle_detail="";//详细标题varimg_src="";//图片地址varsrc="";//网址varjsonX='';for(i=0;i<=document.getElementsByClassName("col-sm-3").length;i++){//console.log(document.getElementsByClassName("col-sm-3")[i]);//输出这个页面的所有链接。if(document.getElementsByClassName("col-sm-3")[i]){varh=document.getElementsByClassName("col-sm-3")[i].getElementsByClassName("xe-widgetxe-conversationsbox2label-信息")[0].outerHTML;title=/(?<=strong>).*?(?=<)/.exec(h)[0];title_detail=/(?<=overflowClip_2">).*?(?=<)/.exec(h)[0];//img_src=document.getElementsByClassName("col-sm-3")[i].getElementsByTagName("img")[0].src;//img_src=/(?<=files\/).*?(?=")/.exec(h)[0];img_src=/(?<=src=").*?(?=")/.exec(h)[0];src=/(?<=data-original-title=").*?(?=")/.exec(h)[0];t='{sName:\''+title+'\',sUrl:\''+src+'\',sImg:\''+img_src+'\',sInfo:\''+title_detail+'\'},\n';console.log(">"+t);jsonX=jsonX+t;}}console.log(">>>>>>>>>>.."+jsonX);源码https://gitee.com/skylfx/cust...在线网站http://www.leli.fun/自定义-na...