当前位置: 首页 > 科技观察

Python下载的11种姿势,一个比一个进阶_0

时间:2023-03-11 20:50:25 科技观察

最后,你将学习如何克服你可能遇到的各种挑战,比如下载重定向文件、下载大文件、完成多线程下载等等策略.1.使用requests您可以使用requests模块从URL下载文件。考虑以下代码:您只需使用requests模块的get方法获取URL,并将结果存储到名为“myfile”的变量中。然后,将这个变量的内容写入文件。2.使用wget您还可以使用Python的wget模块从URL下载文件。您可以使用pip安装wget模块,如下所示:考虑以下代码,我们将使用它来下载Python的徽标图像。在此代码中,URL和路径(将存储图像的位置)传递给wget模块的下载方法。3.下载重定向文件在本节中,您将学习如何使用请求从一个URL下载一个文件,该URL将被重定向到另一个带有.pdf文件的URL。URL如下所示:要下载此pdf文件,请使用以下代码:在这段代码中,我们在第一步中指定了URL。然后,我们使用请求模块的get方法来获取URL。在get方法中,我们将allow_redirects设置为True,这将允许在URL中进行重定向,重定向后的内容将赋值给变量myfile。最后,我们打开一个文件来写入抓取的内容。4.分块下载大文件考虑以下代码:首先,我们像以前一样使用requests模块的get方法,但是这次,我们将stream属性设置为True。接下来,我们在当前工作目录下创建一个名为PythonBook.pdf的文件,并打开它进行写入。然后我们指定每次下载的块大小。我们将其设置为1024字节,然后遍历每个块并将这些块写入文件,直到块结束。是不是很漂亮?别担心,稍后我们会显示下载过程的进度条。5.下载多个文件(并行/批量下载)要同时下载多个文件,请导入以下模块:我们导入了os和time模块来检查下载一个文件需要多少时间。ThreadPool模块允许您使用池运行多个线程或进程。让我们创建一个简单的函数,将响应分块发送到一个文件:url是一个二维数组,指定要下载的页面的路径和URL。就像我们在上一节中所做的那样,我们将此URL传递给requests.get。最后,我们打开文件(在URL中指定的路径)并写入页面内容。现在,我们可以为每个URL单独调用此函数,也可以同时为所有URL调用此函数。让我们在for循环中分别为每个URL调用此函数,注意计时器:现在,将for循环替换为以下行:运行脚本。6.使用进度条下载进度条是clint模块的一个UI组件。输入以下命令来安装clint模块:考虑以下代码:在这段代码中,我们首先导入requests模块,然后从clint.textui导入progress组件。唯一的区别在于for循环。在向文件写入内容时,我们使用进度条模块的bar方法。7.使用urllib下载网页在本节中,我们将使用urllib下载网页。urllib库是Python的标准库,不需要安装。下面这行代码可以很方便的下载一个网页:这里指定你为什么要保存文件的URL以及你要保存文件的位置。在此代码中,我们使用urlretrieve方法并传递文件的URL和保存文件的路径。文件扩展名为.html。8.通过代理下载如果你需要使用代理来下载你的文件,你可以使用urllib模块的ProxyHandler。请看下面的代码:在这段代码中,我们创建了一个代理对象,通过调用urllib的build_opener方法打开代理,并传入代理对象。然后,我们创建一个获取页面的请求。此外,您还可以使用官方文档中描述的请求模块:您只需要导入请求模块并创建您的代理对象。然后,您可以获取文件。9.使用urllib3urllib3是urllib模块的改进版本。您可以使用pip下载并安装它:我们将使用urllib3获取网页并将其存储在文本文件中。导入以下模块:在处理文件时,我们使用了shutil模块。现在,我们像这样初始化URL字符串变量:然后,我们使用urllib3的PoolManager,它跟踪必要的连接池。创建文件:最后,我们发送GET请求以获取URL并打开文件,然后将响应写入文件:10.使用Boto3从S3下载文件要从AmazonS3下载文件,您可以使用Pythonboto3模块。在开始之前,您需要使用pip安装awscli模块:对于AWS配置,运行以下命令:现在,输入您的详细信息如下:要从AmazonS3下载文件,您需要导入boto3和botocore。Boto3是一个AmazonSDK,它允许Python访问AmazonWeb服务(例如S3)。Botocore提供用于与AmazonWeb服务交互的命令行服务。Botocore带有awscli。要安装boto3,请运行以下命令:现在,导入这两个模块:从亚马逊下载文件时,我们需要三个参数:Bucketname您需要下载的文件的名称下载后的文件的名称初始化变量:Now,我们初始化一个变量来使用会话资源。为此,我们将调用boto3的resource()方法,并传入服务,即s3:最后使用download_file方法下载文件,传入变量:11、使用asyncioasyncio模块主要用于处理系统事件。它围绕一个事件循环工作,该事件循环等待事件发生然后对其做出反应。这个响应可以是调用另一个函数。这个过程称为事件处理。asyncio模块使用协程来处理事件。要使用asyncio事件处理和协程功能,我们将导入asyncio模块:现在,像这样定义asyncio协程方法:关键字async表示这是一个原生的asyncio协程。在协程内部,我们有一个await关键字,它返回一个特定的值。我们也可以使用return关键字。现在,让我们使用协程创建一段代码来从网站下载文件:在这段代码中,我们创建了一个异步协程函数来下载我们的文件并返回一条消息。然后我们用另一个异步协程调用main_func,它等待URL并形成所有URL的队列。asyncio的wait函数等待协程完成。现在,为了启动协程,我们必须使用asyncio的get_event_loop()方法将协程放入事件循环中,最后,我们使用asyncio的run_until_complete()方法执行该事件循环。使用Python下载文件很有趣。希望本教程对您有用!