当前位置: 首页 > 网络应用技术

Python实用技术 - Reptile(1):爬行动物基金会

时间:2023-03-05 20:02:00 网络应用技术

  目录

  爬虫本身的技术不是非法的,但您应该注意:

  1.您爬什么数据

  2.如何攀登

  3.爬行后如何使用它

  其次,HTTP协议

  1. wanwei.com

  2,协议:

  第三,HTTP知识

  第四,HTTP请求方法:

  五,http响应

  六,HTTP的响应状态代码

  八,HTTPS协议

  九,最初的HTML文档

  十,html的标签

  在学习了Python的进入之后,我们开始学习如何深入播放Python。我希望每个人都可以学习东西并理解我的写作。

  首先,在开始本章之前,请给您几句话,希望每个人都能记住。

  周期性必须遵守法律和法规。

  没有对还是错误的技术。

  无法包括用户的个人信息,隐私或其他人的商业秘密,无法侵犯作者的版权等。

  严格遵守网站设定的机器人协议,必须禁止“入侵”通过“隐藏事实和虚构真理”的方法访问数据。

  获得的数据无法替换数据源的原始服务。

  在当今的大数据时代,毫不夸张地说,获得世界的数据并没有被夸大。在当前的社会中,这些数字始终充满了数据。在各行各业中,数据占据着重要地位。这意味着我们可以攀登的数据只能由其他人允许。如果人们不向我们展示,他们会设立一些障碍,以禁止我们爬行。攻击他人,这是非法的。流动数据已成为重要的生产因素和核心资源。

  对于公众来说,爬行者是获得数据获取的最低成本和最方便的方法。只需只需几行代码即可,数据就变成了袋装。。最新的数据安全法刚刚于2021年6月颁布,不要试图挑战国家法律!任何组织或个人收集的数据均应采用法律和合法的方式,并且不得以其他非法方式窃取或获取数据。

  1.机器人协议

  1994年6月30日,在搜索引擎研究人员和攀登网站网站网站管理员咨询之后,他们起草了第一项“机器人协议”,以成为搜索技术公司的规范。

  “机器人协议”更像是绅士协议。它不能阻止未经授权的爬行动物行为,更不用说实质上保护数据了。

  因此,必须法律进一步限制网络参与者的行为。

  其次,从简单的请求开始

  1.为什么从简单的请求开始?

  简单的请求是HTTP请求。什么是HTTP?

  2.捕获是为了模拟浏览器以将请求发送到服务器,然后从服务器返回的数据中筛选目标数据。

  因此,我们需要在学习爬行者之前了解请求和响应的过程。

  3,,

  对于网站,通常部署网站服务器。主要功能是存储网站文件和数据文件以响应用户请求,以便用户可以浏览网络下载数据。由于服务器通常使用HTTP协议与浏览器进行通信。因此,网站服务器通常称为HTTP服务器。

  对于Internet用户,使用了Web客户端,最常见的是各种浏览器。我们只需要输入URL即可获取所需的页面。我们今天的主要目的是了解这一过程。

  4.请求和响应过程:

  1)在浏览器中输入URL

  URL(统一资源定位器)统一资源定位符号?URL实际上是Internet标准资源的唯一地址?表示Internet资源和访问资源的方法

  互联网上的每个文件都有唯一的URL

  2)浏览器根据URL输入URL输入找到相应的IP地址

  浏览器正在根据输入URL寻找相应的IP地址。

  IP地址(Internet协议地址)是在Internet或Internet上分配唯一的标识符或设备,例如:14.215.177.38

  3)客户端和目标服务器建立了TCP连接

  TCP(传输控制协议)传输控制协议?为了在不可靠的Internet上提供可靠的,结束的字节流,这是一种专门设计的传输协议

  通过IP地址找到服务器后,目的必须用于信息交换。因此,必须建立TCP连接,以在不可靠的互联网上提供可靠的,结束的字节流。

  4)浏览器将HTTP请求发送到Web服务器

  5)收到请求后,Web客户端请求的文档(HTML)作为响应(成功与否)

  收到HTTP请求后,Web服务器将Web客户端请求的文档作为对用户的响应。

  6)浏览器处理文档,加载,解析和渲染。