今天给大家介绍一个神奇的网站!堪称爬虫的懒人神器!我们在编写爬虫和构建网络请求时,不可避免地需要添加请求头(headers)。以mdn学习区为例,我们的requestheaders是这样的:一般来说,我们只需要添加user-agent就可以满足大部分要求,Python代码如下:importrequestsheaders={#'authority':'developer.mozilla.org',#'pragma':'no-cache',#'cache-control':'no-cache',#'upgrade-insecure-requests':'1','user-agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/75.0.3770.100YaBrowser/19.7.0.1635Yowser/2.5Safari/537.36',#'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',#'accept-encoding':'gzip,deflate,br',#'accept-language':'zh-CN,zh-TW;q=0.9,zh;q=0.8,en-US;q=0.7,en;q=0.6',#'cookie':yourcookie,}response=requests.get('https://developer.mozilla.org/zh-CN/docs/learn',headers=headers)但对于某些请求,我们需要添加特定的headers参数获得正确的网络响应。如果我们不知道哪些参数是必须的,就需要先把所有的参数都加进去,然后一个一个排除。但是手动复制和粘贴headers字典中的每个键值对太麻烦了。一个不方便的解决方案:使用正则表达式或者直接字符串替换,将headers字符串直接转成字典,封装成函数,方便以后重复调用。有人喜欢用这种方式,每次都复制headers信息,然后调用自己封装的函数,但是我觉得还是挺麻烦的。那么有什么方法可以一键快速生成Python爬虫请求头呢?这里给大家介绍两个:网站在线转换Postman实战练习爬取网站:https://developer.mozilla.org...网站在线转换1、Chrome打开开发者选项(f12)--->网络标签--->刷新页面,获取请求--->找到页面信息对应的请求(根据请求的名称、后缀和响应内容判断)2、右键,复制--->复制为cURL(bash),注意不是【copyascURL(cmd)】3、打开网站,https://curl.trillworks.com/,将cURL(bash)粘贴到左边curl命令,右边会自动生成Python代码4,生成的代码如图5,print(response.text)直接打印网页源码!postman1、下载postman(chrome也有postman插件,操作应该差不多)2、打开postman,弹出界面可以直接关闭3、import-->pasterawtext,copycurl(bash)在Chrome中,粘贴在下面的对话框中,点击导入按钮4,点击发送,模拟网络请求。您可以查看下面的源代码5。确保源代码正常后,点击code6。可以在左上角选择编程语言,在右上角复制到剪贴板,就大功告成了!事实上,我通常使用第一个。网站比较稳定,基本没有异常。有了这个神器,你就不需要自己构造请求头了。您可以一键生成,然后根据您的需要进行调整。它在几秒钟内完成。建议将URL加入书签。https://curl.trillworks.com/
