Python爬虫懒人神器-一键构建请求头

时间：2023-03-26 15:27:11 Python

今天给大家介绍一个神奇的网站！堪称爬虫的懒人神器！我们在编写爬虫和构建网络请求时，不可避免地需要添加请求头（headers）。以mdn学习区为例，我们的requestheaders是这样的：一般来说，我们只需要添加user-agent就可以满足大部分要求，Python代码如下：importrequestsheaders={#'authority':'developer.mozilla.org',#'pragma':'no-cache',#'cache-control':'no-cache',#'upgrade-insecure-requests':'1','user-agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/75.0.3770.100YaBrowser/19.7.0.1635Yowser/2.5Safari/537.36',#'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',#'accept-encoding':'gzip,deflate,br',#'accept-language':'zh-CN,zh-TW;q=0.9,zh;q=0.8,en-US;q=0.7,en;q=0.6',#'cookie':yourcookie,}response=requests.get('https://developer.mozilla.org/zh-CN/docs/learn',headers=headers)但对于某些请求，我们需要添加特定的headers参数获得正确的网络响应。如果我们不知道哪些参数是必须的，就需要先把所有的参数都加进去，然后一个一个排除。但是手动复制和粘贴headers字典中的每个键值对太麻烦了。一个不方便的解决方案：使用正则表达式或者直接字符串替换，将headers字符串直接转成字典，封装成函数，方便以后重复调用。有人喜欢用这种方式，每次都复制headers信息，然后调用自己封装的函数，但是我觉得还是挺麻烦的。那么有什么方法可以一键快速生成Python爬虫请求头呢？这里给大家介绍两个：网站在线转换Postman实战练习爬取网站：https://developer.mozilla.org...网站在线转换1、Chrome打开开发者选项（f12）--->网络标签--->刷新页面，获取请求--->找到页面信息对应的请求（根据请求的名称、后缀和响应内容判断）2、右键，复制--->复制为cURL(bash)，注意不是【copyascURL(cmd)】3、打开网站，https://curl.trillworks.com/，将cURL(bash)粘贴到左边curl命令，右边会自动生成Python代码4，生成的代码如图5，print(response.text)直接打印网页源码！postman1、下载postman（chrome也有postman插件，操作应该差不多）2、打开postman，弹出界面可以直接关闭3、import-->pasterawtext，copycurl(bash)在Chrome中，粘贴在下面的对话框中，点击导入按钮4，点击发送，模拟网络请求。您可以查看下面的源代码5。确保源代码正常后，点击code6。可以在左上角选择编程语言，在右上角复制到剪贴板，就大功告成了！事实上，我通常使用第一个。网站比较稳定，基本没有异常。有了这个神器，你就不需要自己构造请求头了。您可以一键生成，然后根据您的需要进行调整。它在几秒钟内完成。建议将URL加入书签。https://curl.trillworks.com/

上一篇：Python实现·十大排序算法：归并排序

下一篇：django-admin和manage.py用法

Python爬虫懒人神器-一键构建请求头相关文章