PythonBeautifulSoup抓取简单指南

时间：2023-03-12 02:56:06 科技观察

Python中的BeautifulSoup库可以轻松地从网页中提取HTML内容。今天我们将讨论如何使用BeautifulSoup库从HTML页面中提取内容，之后我们将使用它将它转换为Python列表或字典。什么是网页抓取，我为什么需要它？答案很简单：并非每个网站都有用于获取内容的API。您可能想从您最喜欢的烹饪网站获取食谱，或从旅游博客获取照片。如果没有API，提取HTML（或者抓取scraping可能是获取内容的唯一途径。我会告诉你如何使用Python来做。并不是所有的网站都喜欢被抓取，有些网站可能会明确禁止。请参考到网站所有者确认是否同意抓取。Python如何抓取网站？使用Python抓取，我们将执行三个基本步骤：使用请求库获取HTML内容分析HTML结构并识别包含我们内容的标签需要使用BeautifulSoup提取标签并将数据放入Python列表InstallLibraries首先安装我们需要的库，requests库从网站中获取HTML内容，BeautifulSoup解析HTML并将其转换为Python对象。在Python3中安装它们，运行：pip3installrequestsbeautifulsoup4extractHTML在这个例子中，我会选择抓取网站的技术部分。如果你跳转到这个页面，你会看到一个标题为excerp的文章列表t，和出版日期。我们的目标是创建一个文章列表。网站页面的完整URL为：https://notes.ayushsharma.in/technology我们可以使用请求从此页面获取HTML内容：#!/usr/bin/python3importrequestsurl='https://notes.ayushsharma.in/technology'data=requests.get(url)print(data.text)变量数据将包含页面的HTML源代码。从HTML中提取内容为了从数据中提取数据，我们需要确定哪些标签具有我们需要的内容。如果你浏览HTML，你会在顶部附近找到这段：在Jekyll中使用变量定义自定义内容我最近发现Jekyll的config.yml可以用来定义自定义变量以重用内容。我觉得我一直生活在岩石下。但一次又一次地犯错是人之常情。

2021年8月