Java爬虫开发总结

时间：2023-04-01 14:57:35 Java

Java爬虫需要的库：主要是Jsoup和OKHTTP具体依赖如下：>commons-httpclient3.1org.jsoupjsoup1.8.3commons-iocommons-io2.5<groupId>org.apache.httpcomponentshttpclient4.5.5其中jsoup主要是实现爬虫页面解析，使用okhttp用于数据请求获取页面信息的工具类文件地址（我的代码云仓库）：https://gitee.com/stephaniezh...Jsoup页面分析注意Jsoup本身提供了很多条件过滤接口，比如按类过滤，通过attr等方式进行过滤但是发现不知道是自己使用不当还是功能不稳定。在很多情况下，通过类规范查找元素并不容易，所以我以后总是会用到：Elementparents；元素children=parents.getAllElements();广泛使用getAllElements()函数，然后继续从找到的children中过滤出想要的html元素，比如判断child.html()是否包含某种特征样式字符串等，找到想要的节点，使用代理服务器来提高成功率。主要使用两个代理服务器：但是由于服务器上的代理IP会不断更新或失效（每天），所以需要从这些代理服务器动态获取最新的代理IP端口，程序在执行爬虫操作时，一旦发现哪个IP不可用，就会被丢弃，从而保证我们程序使用的代理永远是新的，更有效。对于一些网页数据，直接开发程序的成本可能比较高，可以考虑使用浏览器爬虫插件。最近用了一个WebScrapper，Chrome和Edge都可以用。(1)爬虫是用来提高访问成功率的，除了获取页面的基本请求外，你可能还需要修改请求Header和一些cookie数据(2)为避免被服务器拦截，你可能需要尝试不同的IP，即对代理IP进行处理，使其成为保持动态IP后重试的代理

上一篇：Disruptor生产消费模式及高级应用详解（并行模式）

下一篇：Java中方法覆盖和方法重载的6个区别？

Java爬虫开发总结相关文章