GoodProgrammerPython学习路线:PythonCrawler挑战入门。搜索引擎,例如传统的通用搜索引擎AltaVista、Yahoo!而Google等作为辅助人们检索信息的工具,成为用户访问万维网的入口和向导。然而,这些通用搜索引擎也有一定的局限性。 1。什么是爬虫,即网络爬虫?你可以把它理解为在互联网上爬行的蜘蛛。它是在这张网上四处爬行的蜘蛛。如果它遇到资源,它就会抓住它。你想抢什么?这取决于您来控制它。 比如说它在爬取一个网页,他在这个网页中找到了一个路径,其实就是一个指向该网页的超链接,那么它就可以爬到另一个网页去获取数据。这样一来,整个连在一起的大网对于这只蜘蛛来说就触手可及,分分钟爬下来不是问题。 2。浏览网页的过程 在浏览网页的过程中,我们可能会看到很多漂亮的图片,我们会看到几张图片和百度搜索框,这个过程其实就是用户输入网址后,通过DNS服务器,找到服务器主机,并向服务器发送请求。服务器解析后发送给用户浏览器HTML、JS、CSS等文件。浏览器解析后,用户可以看到各种图片。 因此,用户看到的网页本质上是由爬虫爬取的HTML代码组成的。通过对这些HTML代码进行分析过滤,实现图片、文字等资源的获取。 3。URL URL的含义,即UniformResourceLocator,也就是我们所说的URL,UniformResourceLocator是对可以从Internet获取资源的位置和访问方式的简明表示,是Internet上标准资源的地址。Internet上的每个文件都有一个唯一的URL,其中包含指示文件所在位置以及浏览器应该如何处理的信息。 URL的格式由三部分组成: ①第一部分是协议(或服务方法)。 ②第二部分是存放资源的主机IP地址(有时包括端口号)。 ③第三部分为宿主资源的具体地址,如目录、文件名等。 爬虫在爬取数据时,必须有一个目标URL才能获取数据。因此,它是爬虫获取数据的基本依据。理解它的含义对爬虫学习很有帮助。 4。环境配置 学习Python,当然少不了环境配置。一开始我用的是Notepad++,但是发现它的提示功能太弱了,所以我用的是Windows下的PyCharm。我在Linux下使用EclipseforPython,还有其他几个优秀的IDE。
