当前位置: 首页 > Web前端 > HTML

采集数据html解析方法

时间:2023-04-02 19:12:33 HTML

通常通过爬虫请求url获取html数据,需要快速解析文档,定位获取元素数据。BeautifulSoup是一个Python库,可以从HTML或XML文件中提取数据。您可以使用转换器来实现习惯的文档导航、搜索和修改文档方法。BeautifulSoup将大大提高文档分析效率,减少研发时间。下面将展示BeautifulSoup4中的所有主要功能,说明它适用于什么,如何工作和使用,以及如何达到预期的效果和处理异常。html_doc="""睡鼠的故事睡鼠的故事

从前有三个小姐妹;她们的名字是Elsie、Lacie和Tillie;他们住在井底。

...

"""使用BeautifulSoup解析这段html,可以得到BeautifulSoup对象,按照标准格式结构输出:frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc)print(soup.prettify())####睡鼠的故事######睡鼠的故事##

##从前有三个小姐妹;她们的名字是##Elsie##,##Lacie##and##Tillie##;他们住在井底#

##...#

##一些浏览结构化数据的方法:soup.title#睡鼠的故事soup.title.name#u'title'soup.title.string#u'睡鼠的故事'soup.title.parent.name#u'head'soup.p#睡鼠的故事

soup.p['class']#u'title'soup.a#Elsiesoup.find_all('a')#[Elsie,#Lacie,#Tillie]soup.find(id="link3")#Tillie从文档中查找特定字符标签的所有链接:forlinkinsoup.find_all('a'):print(link.get('href'))#http://example.com/elsie#http://example.com/lacie#http://example.com/tillie从文档中获取文本内容:print(soup.get_text())#TheDormouse'sstory##The睡鼠的故事##从前有三个小姐妹;她们的名字是#Elsie、#Lacie和#Tillie;#她们住在井底。##...