Python中的BeautifulSoup库可以轻松地从网页中提取HTML内容。今天我们将讨论如何使用BeautifulSoup库从HTML页面中提取内容,之后我们将使用它将它转换为Python列表或字典。什么是网页抓取,我为什么需要它?答案很简单:并非每个网站都有用于获取内容的API。您可能想从您最喜欢的烹饪网站获取食谱,或从旅游博客获取照片。如果没有API,提取HTML(或者抓取scraping可能是获取内容的唯一途径。我会告诉你如何使用Python来做。并不是所有的网站都喜欢被抓取,有些网站可能会明确禁止。请参考到网站所有者确认是否同意抓取。Python如何抓取网站?使用Python抓取,我们将执行三个基本步骤:使用请求库获取HTML内容分析HTML结构并识别包含我们内容的标签需要使用BeautifulSoup提取标签并将数据放入Python列表InstallLibraries首先安装我们需要的库,requests库从网站中获取HTML内容,BeautifulSoup解析HTML并将其转换为Python对象。在Python3中安装它们,运行:pip3installrequestsbeautifulsoup4extractHTML在这个例子中,我会选择抓取网站的技术部分。如果你跳转到这个页面,你会看到一个标题为excerp的文章列表t,和出版日期。我们的目标是创建一个文章列表。网站页面的完整URL为:https://notes.ayushsharma.in/technology我们可以使用请求从此页面获取HTML内容:#!/usr/bin/python3importrequestsurl='https://notes.ayushsharma.in/technology'data=requests.get(url)print(data.text)变量数据将包含页面的HTML源代码。从HTML中提取内容为了从数据中提取数据,我们需要确定哪些标签具有我们需要的内容。如果你浏览HTML,你会在顶部附近找到这段:
