当前位置: 首页 > 网络应用技术

[迅速开始]用node.js疯狂以获取简单图片

时间:2023-03-08 13:49:14 网络应用技术

  爬虫者的主要目的是收集在互联网上披露的一些特定数据。使用这些数据,我们可以分析一些趋势比较或深度学习的培训模型。在本期,我们将为网络捕获 - 和我们将使用它来完成一个简单的轨道箱,以在网页上爬网并下载到当地。

  这是一种考虑效率和便利性,支持分布式的爬行者系统,支持硬码并支持HTTP Front -Level代理。此外,它是完全编写的,并且自然支持非块异步IO,它提供出色的IO,它提供了很好的IO,它提供了出色的IO方便爬行者的装配机理。同时,它支持正确的选择(可以使用语法)。对于掌握网页的特定部分的任务,可以说这是一个杀手函数。无需编写正则表达来提高爬行动物的发展效率。

  我们首先创建一个新项目,然后创建index.js作为入口文件。

  然后安装爬行动物银行。

  然后使用它。

  从现在开始,我们将开始写一张图片以获取HTML页面。实例化后,主要是在其队列中编写链接和回调方法。在处理每个请求后,将调整此回调函数。

  还必须在此处解释库是使用的,因此配置的参数列表是库的参数的过度,即库中的所有配置都适用。

  您可能还可以看到此参数。你猜对了。它可以用来捕获元素的语法。

  您可以在请求中看到捕获标签的捕获。然后,下面的逻辑是处理图片的链接和剥离以完成名称。此处也定义了A数组。其目的是保存已捕获的图像地址。如果下次找到相同的图片地址,则不会反复处理和下载。

  以下是掘金主页捕获的印刷信息:捕获的信息:

  在下载之前,我们必须安装一个袋子 - 是的,您不仅将其提供给前端,还可以用于后端。然后。然后,您可以使用该方法保存数据流文件。

  因为可能有很多图片,所以我们必须统一地将它们放在文件夹下,并判断是否创建了此文件夹。。

  然后,我们可以尝试一下,例如,我们在掘金主页html下捕获图片:

  执行后,您可以发现可以在静态HTML中找到所有图片。

  最后,您还可以看到此代码可能不适合SPA(单页应用程序)。由于单个页面应用程序中只有一个HTML文件,并且网页上的所有内容均已动态呈现,但是更改了。是不可分割的。无论如何,您都可以直接处理其数据请求以收集所需的信息。

  另一件事要说的是,许多小型合作伙伴都使用了下载图片的请求。当然,这是可以的,即使代码也更少,但是我要说的是,该库在2020年被放弃了,最好更改已更新和维护的库。

  原始:https://juejin.cn/post/7113506041425297421