GoodProgrammerPython学习路线：PythonCrawler简介

时间：2023-03-26 15:51:05 Python

GoodProgrammerPython学习路线：PythonCrawler挑战入门。搜索引擎，例如传统的通用搜索引擎AltaVista、Yahoo!而Google等作为辅助人们检索信息的工具，成为用户访问万维网的入口和向导。然而，这些通用搜索引擎也有一定的局限性。　　1。什么是爬虫，即网络爬虫？你可以把它理解为在互联网上爬行的蜘蛛。它是在这张网上四处爬行的蜘蛛。如果它遇到资源，它就会抓住它。你想抢什么？这取决于您来控制它。　　比如说它在爬取一个网页，他在这个网页中找到了一个路径，其实就是一个指向该网页的超链接，那么它就可以爬到另一个网页去获取数据。这样一来，整个连在一起的大网对于这只蜘蛛来说就触手可及，分分钟爬下来不是问题。　　2。浏览网页的过程　　在浏览网页的过程中，我们可能会看到很多漂亮的图片，我们会看到几张图片和百度搜索框，这个过程其实就是用户输入网址后，通过DNS服务器，找到服务器主机，并向服务器发送请求。服务器解析后发送给用户浏览器HTML、JS、CSS等文件。浏览器解析后，用户可以看到各种图片。　　因此，用户看到的网页本质上是由爬虫爬取的HTML代码组成的。通过对这些HTML代码进行分析过滤，实现图片、文字等资源的获取。　　3。URL　　URL的含义，即UniformResourceLocator，也就是我们所说的URL，UniformResourceLocator是对可以从Internet获取资源的位置和访问方式的简明表示，是Internet上标准资源的地址。Internet上的每个文件都有一个唯一的URL，其中包含指示文件所在位置以及浏览器应该如何处理的信息。　　URL的格式由三部分组成：　　①第一部分是协议（或服务方法）。　　②第二部分是存放资源的主机IP地址（有时包括端口号）。　　③第三部分为宿主资源的具体地址，如目录、文件名等。　　爬虫在爬取数据时，必须有一个目标URL才能获取数据。因此，它是爬虫获取数据的基本依据。理解它的含义对爬虫学习很有帮助。　　4。环境配置　　学习Python，当然少不了环境配置。一开始我用的是Notepad++，但是发现它的提示功能太弱了，所以我用的是Windows下的PyCharm。我在Linux下使用EclipseforPython，还有其他几个优秀的IDE。

上一篇：PythonWeekly004

下一篇：LeetCode398.RandomPickIndex

GoodProgrammerPython学习路线：PythonCrawler简介相关文章