当前位置: 首页 > Web前端 > HTML5

写一个java多线程爬虫程序

时间:2023-04-05 20:42:10 HTML5

所谓爬虫程序就是模拟浏览器向网站发送http请求。这里我们实现这样一个爬虫程序:列出segmentfault网站上指定用户的所有文章和阅读人数的程序的基本思路如下:1.我们进入一个用户的文章列表页面2.获取文章列表3.逐条访问文章4获取以我的主页为例1:进入文章列表页面。我的列表页是:这个然后查看html代码找到文章对应的url。标签格式是这样的href="/a/1190000017542212"我们知道这里有用的信息是文章编号,就是1190000017542212,有了文章编号,一会儿就可以用这个拼接文章的url了,这是https://segmentfault.com/a/文...。具体是https://segmentfault.com/a/11...2:获取文章列表就是获取所有的文章编号,在获取的html文本中使用正则表达式提取文章编号。3:逐条访问文章,即逐条访问文章编号拼写的url。4:同样使用正则表达式提取得到的html文本中的阅读次数。5:以上步骤全部由程序完成!最后是代码。这段代码只实现了对文章的访问,即对3的访问,但是由于正则表达式的原理是一样的,有兴趣的读者可以自行修改!!!