当前位置: 首页 > 后端技术 > Python

教你抓取天堂网1920-1080大图(批量下载)——理论

时间:2023-03-26 13:53:40 Python

/1前言/平时我们需要下载图片,你是不是觉得一张一张点击下载很麻烦?有更容易的方法吗?答案是肯定的,这里我们以天堂网为例,批量下载天堂网的图片。/2项目准备/首先,我们的第一步是安装一个pycham软件。可以参考这篇文章:Python环境搭建——安利Python小白的Python和Pycharm安装详细教程。天堂网网址:https://www.ivsky.com/bizhi/1920x1080/我们需要下载几个库,怎么下载?打开pycharm,依次点击File,然后点击Settings,如下图。打开后会出现这个界面。点击你的项目名称(project:(你的项目名称)),然后在projectinterpreter下,点击加号,然后下载我们需要的库,如下图。本项目需要用到的库有requests、lxml、fake_useragent,如下图所示。fake_useragent一般是没有的,需要通过以下命令安装:pipinstallfake_useragent/3项目实现/1。导入所需的库(请求、lxml、fake_useragent)。2、我采用了封装的方式来实现各个部分的功能。首先写一个框架:构造一个类TianTangWebsite,然后定义一个__init__方法来继承(self),再定义一个main方法(main)。最后实现main方法,一步步实现。3.我们取天堂网的URL,构造请求头。以下是获取UserAgent的方法。打开天堂网网站后,按键盘上的F12键,然后进入开发者模式,然后点击网络,如下图。4.然后只需单击一个名称并复制标题中的UserAgent。5、我们点击下一页的地址,观察URL的变化,如下:https://www.ivsky.com/bizhi/1920x1080/index_2.htmlhttps://www.ivsky.com/bizhi/1920x1080/index_3。htmlhttps://www.ivsky.com/bizhi/1920x1080/index_4.html很明显这个网站的网页数量一直在变化。我们可以使用格式化{}来替换变化的值,像这样:https://www.ivsky.com/bizhi/1920x1080/index_{}.html6,然后我们使用for循环遍历这些url,代码如下如下:defmain(self):foriinrange(1,2):#numberofpagesrandomcustomersseturl=self.url.format(i)print(url)7.我们定义这个get_home()方法来请求这个网址。9、我们需要对获取到的数据进行解析,然后定义一个xiap方法来获取我们请求的URL。现在是项目的关键。10、至此,我们已经提前做好了反爬虫措施的准备工作。接下来就是分析网页的结构,提取网页图片的地址数据,将解析后的图片地址批量下载,实现我们下一篇文章。详细解释。/4总结/本文的主要内容是对图片网站的基本介绍。基于Python中的爬虫库requests、lxml、fake_useragent,提前部署请求头,模拟浏览器。我们提前做好了反爬虫措施。下篇文章将带大家分析网页结构并提取网页图片地址数据,并批量下载分析后的图片地址。手把手教你用Python做一个可视化的“剪刀石头布”游戏手把手教你用Python批量创建复工证