Google插件抓取所有网站内容并截取图片

时间：2023-04-03 16:36:18 Node.js

通常是普通爬虫：在代码中发送一个请求，然后从流中获取网页内容，解析网页内容得到相关信息。这种方法的优点是简单、快速，缺点是容易被拦截，失败率高。另一种方法是使用Google插件获取页面的所有内容，然后对其进行解析以获取所需信息。插件名称：chromeCrawl插件添加地址：点我如果不能访问googleapp网站，可以使用github的手动安装教程：点我插件使用简单安装完成后，会看到安装好的浏览器右上角图标：三个功能。第一个复选框说明：开启爬取页面功能：勾选此复选框将页面内容发送到后台界面，同时接收数据界面会自动关闭页面：勾选此复选框，爬取后页面完成，页面自动关闭。不显示多媒体资源：勾选此复选框，图片、视频、字体等资源将不会加载，可以提高网页的加载速度备注：接收数据接口：接收页面数据的接口需要定义你自己。:8080/content，与开启爬虫页面功能挂钩。当开启爬虫功能后，我们想要获取页面的内容。我们可以这样设置：如果是java，可以这样在后台接收：packagecom.molikam.shop。控制器；导入java.util.concurrent.atomic.AtomicInteger；导入org.springframework.web.bind.annotation.RequestMapping；导入org.springframework.web.bind.annotation.RequestMethod；导入org.springframework.web.bind.annotation。RestController;@RestControllerpublicclassCrawlerController{AtomicIntegercount=newAtomicInteger(0);@RequestMapping(value="/content",method={RequestMethod.POST})publicvoidgetContent(Stringcontent){System.out.println(count.incrementAndGet());System.out.println(内容);}}如果想看插件的具体代码或者自己添加更多需求，去github下载：点我下载，下载background.js和content_script.js这两个文件添加内容即可。Google插件怎么写，百度一下就知道了。

上一篇：一杯开心茶手搓Promise

下一篇：【学习笔记】mongo导入json报UnexpectedendofJSONinput

Google插件抓取所有网站内容并截取图片相关文章