当前位置: 首页 > 后端技术 > Node.js

网络爬虫之html2md

时间:2023-04-04 00:59:51 Node.js

前言上周用java爬取的网页文章一直无法使用java将html转md,用了整整一周才解决。虽然我的博文数量不多,但我对人工转换从来不屑一顾。毕竟手动转换很浪费时间,把那个时间用在其他事情上还是不错的。设计思路一开始Java实现的思路是用java解析html,想了各种标签解析,符号解析,正则替换等,决定去github上搜索。;代码地址下载完成后如下图所示,可以使用htmlToHexoMd方法测试运行。也许作者在linux服务器上定义了路径。我在测试的时候,一直提示路径问题。结果,我被迫更改了转换后的路径代码,并调试了运行后生成的md文件。在本地启动hexo服务,上传新生成的md文件,浏览网页,不满意就丢弃。为什么NodeJS的实现突然选择了NodeJS来实现呢?刚好最近在看一本节点书,里面提到了节点爬虫,并对爬取的内容进行了分析。书上提到了cheerio模块的使用,于是果断浏览了它的api文档。Cheerio实际上是jquery。转载,这方便,我大喜过望。实现思路实现单次转换自定义分析实现批量转换难度分析自定义分析很头疼。需要分析要转换的html的格式和要读取的内容。我有h1,h2,h3,div,img,a标签都处理好了,html解析代码可以自己展开如下if('p'===name){if(e_children.type==='text'){if(e.children.length>1){for(varj=0,c_len=e.children.length;j