通常是普通爬虫:在代码中发送一个请求,然后从流中获取网页内容,解析网页内容得到相关信息。这种方法的优点是简单、快速,缺点是容易被拦截,失败率高。另一种方法是使用Google插件获取页面的所有内容,然后对其进行解析以获取所需信息。插件名称:chromeCrawl插件添加地址:点我如果不能访问googleapp网站,可以使用github的手动安装教程:点我插件使用简单安装完成后,会看到安装好的浏览器右上角图标:三个功能。第一个复选框说明:开启爬取页面功能:勾选此复选框将页面内容发送到后台界面,同时接收数据界面会自动关闭页面:勾选此复选框,爬取后页面完成,页面自动关闭。不显示多媒体资源:勾选此复选框,图片、视频、字体等资源将不会加载,可以提高网页的加载速度备注:接收数据接口:接收页面数据的接口需要定义你自己。:8080/content,与开启爬虫页面功能挂钩。当开启爬虫功能后,我们想要获取页面的内容。我们可以这样设置:如果是java,可以这样在后台接收:packagecom.molikam.shop。控制器;导入java.util.concurrent.atomic.AtomicInteger;导入org.springframework.web.bind.annotation.RequestMapping;导入org.springframework.web.bind.annotation.RequestMethod;导入org.springframework.web.bind.annotation。RestController;@RestControllerpublicclassCrawlerController{AtomicIntegercount=newAtomicInteger(0);@RequestMapping(value="/content",method={RequestMethod.POST})publicvoidgetContent(Stringcontent){System.out.println(count.incrementAndGet());System.out.println(内容);}}如果想看插件的具体代码或者自己添加更多需求,去github下载:点我下载,下载background.js和content_script.js这两个文件添加内容即可。Google插件怎么写,百度一下就知道了。
