1.bs4解析介绍1.bs4解析:BS4的全称是BeatifulSoup,它提供了一些简单的类python函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,可以自动将输入文档转换为Unicode编码,并将输出文档自动转换为utf-8编码。2.HTML:一种用来描述网页的语言。1)HTML指的是超文本标记语言(HyperTextMarkupLanguage)2)HTML不是一种编程语言,而是一种标记语言(markuplanguage)3)标记语言是一组标记标签(markuptags)4)HTML使用描述网页的标记标签3.常用HTML标签:h1:一级标签h2:二级标签p:段落2.在主页面源代码中定位标签找到子页面的链接位置。3.获取子页面下载链接,获取“href”。4、子页面下载地址不完整,请下载子页面了解拼接和完成。,以获得完整的下载链接。5.获取子页面源码。6.从子页面获取图片下载路径。7、下载图片,建立文件夹img,将下载的图片保存在img文件夹中,命名为下载链接的最后一部分(唯一)。3、xpath分析简介XPath即XML路径语言(XMLPathLanguage),是一种用来确定XML文档中某部分位置的语言。基于XML的树结构,提供在数据结构树中查找节点的能力。.您需要自己定义标签。5)XML被设计为自描述的。1、xpath入门,准备一个node示例。2.从节点示例中找到book节点。3.获取节点实例中name节点下的文本。4.获取author节点下所有nick节点的文本。示例中author节点下有nick节点,author节点下div中有nick节点。下面将输出所有内容。5.常用命令//:当前目录下所有后续节点*:通配符@:属性[]:索引[1]:第一项(xpath顺序从1开始)表示筛选属性@:表示当前节点./相对搜索4.使用xpath实际爬猪八戒.com信息获取图片中的四个信息:店铺、位置、价格、标题1.获取页面源代码。2.使用xpath分析找到整体源码位置。3.找到需要爬取的信息所在的位置。4、整理输出结果,以合适的格式输出,完成猪八戒网的信息获取。
