当前位置: 首页 > 后端技术 > Python

Python爬虫实战爬取网站所有图片(一)

时间:2023-03-26 18:35:59 Python

1.获取图片地址和图片名称1.输入网址后,按F12打开开发者工具,点击elements2.点击图片中的小箭头下图选择任意一张主图一张图片然后我们在这里点击第一张图3.显示控制台验证xpath是否正确4.通过xpath获取a的href和title。(请放大)我们看到有10个,我们返回网站看一下首页,数一数确实是10个,说明我们获取到的href和title是可以的,留着以后用使用。5、我们还需要访问这个链接的请求头信息,以备后面操作时使用。可以看到没有特殊的请求头6.获取每组图片中的所有图片。这也是我们的宗旨。否则,前面的工序也不算浪费。可以看到我们得到了11个链接地址。不要被源代码中的文字所迷惑。7.获取对应的请求头。可以发现需要关注的字段Referer只有一个。这里的地址就是我们访问这个页面时的地址。就把那个地址给8就行了。对于404处理,如果出现404,那你就得重新请求2.写python代码实现爬取。1.需要用到的库有:requestslxml如果没有安装请自行安装2.IDE:pycharm3.python版本:2.7.15其实没有下载,但是我发现很多人应该只是复制代码开始运行,然后留言说有问题。感觉连帖子都没看就拖到最下面,然后复制了。.所以我做了一个下载。下载地址:https://download.csdn.net/download/qq_33958297/12195656——————————————————