Python爬虫教程（二）

时间：2023-03-26 01:33:31 Python

1.bs4解析介绍1.bs4解析：BS4的全称是BeatifulSoup，它提供了一些简单的类python函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，可以自动将输入文档转换为Unicode编码，并将输出文档自动转换为utf-8编码。2.HTML：一种用来描述网页的语言。1）HTML指的是超文本标记语言（HyperTextMarkupLanguage）2）HTML不是一种编程语言，而是一种标记语言（markuplanguage）3）标记语言是一组标记标签（markuptags）4）HTML使用描述网页的标记标签3.常用HTML标签：h1：一级标签h2：二级标签p：段落2.在主页面源代码中定位标签找到子页面的链接位置。3.获取子页面下载链接，获取“href”。4、子页面下载地址不完整，请下载子页面了解拼接和完成。,以获得完整的下载链接。5.获取子页面源码。6.从子页面获取图片下载路径。7、下载图片，建立文件夹img，将下载的图片保存在img文件夹中，命名为下载链接的最后一部分（唯一）。3、xpath分析简介XPath即XML路径语言（XMLPathLanguage），是一种用来确定XML文档中某部分位置的语言。基于XML的树结构，提供在数据结构树中查找节点的能力。.您需要自己定义标签。5)XML被设计为自描述的。1、xpath入门，准备一个node示例。2.从节点示例中找到book节点。3.获取节点实例中name节点下的文本。4.获取author节点下所有nick节点的文本。示例中author节点下有nick节点，author节点下div中有nick节点。下面将输出所有内容。5.常用命令//：当前目录下所有后续节点*：通配符@：属性[]：索引[1]：第一项（xpath顺序从1开始）表示筛选属性@：表示当前节点./相对搜索4.使用xpath实际爬猪八戒.com信息获取图片中的四个信息：店铺、位置、价格、标题1.获取页面源代码。2.使用xpath分析找到整体源码位置。3.找到需要爬取的信息所在的位置。4、整理输出结果，以合适的格式输出，完成猪八戒网的信息获取。

上一篇：Python面向对象成员

下一篇：30 年前的圣诞节，Python 序章被谱写

Python爬虫教程（二）相关文章