Java爬虫需要的库:主要是Jsoup和OKHTTP具体依赖如下:>commons-httpclient3.1org.jsoupjsoup1.8.3commons-iocommons-io2.5<groupId>org.apache.httpcomponentshttpclient4.5.5其中jsoup主要是实现爬虫页面解析,使用okhttp用于数据请求获取页面信息的工具类文件地址(我的代码云仓库):https://gitee.com/stephaniezh...Jsoup页面分析注意Jsoup本身提供了很多条件过滤接口,比如按类过滤,通过attr等方式进行过滤但是发现不知道是自己使用不当还是功能不稳定。在很多情况下,通过类规范查找元素并不容易,所以我以后总是会用到:Elementparents;元素children=parents.getAllElements();广泛使用getAllElements()函数,然后继续从找到的children中过滤出想要的html元素,比如判断child.html()是否包含某种特征样式字符串等,找到想要的节点,使用代理服务器来提高成功率。主要使用两个代理服务器:但是由于服务器上的代理IP会不断更新或失效(每天),所以需要从这些代理服务器动态获取最新的代理IP端口,程序在执行爬虫操作时,一旦发现哪个IP不可用,就会被丢弃,从而保证我们程序使用的代理永远是新的,更有效。对于一些网页数据,直接开发程序的成本可能比较高,可以考虑使用浏览器爬虫插件。最近用了一个WebScrapper,Chrome和Edge都可以用。(1)爬虫是用来提高访问成功率的,除了获取页面的基本请求外,你可能还需要修改请求Header和一些cookie数据(2)为避免被服务器拦截,你可能需要尝试不同的IP,即对代理IP进行处理,使其成为保持动态IP后重试的代理