当前位置: 首页 > 后端技术 > Python

Python你见过三行代码的爬虫吗?

时间:2023-03-26 11:28:06 Python

Python使用Lassie库只用三行代码就可以爬取静态页面的图片和视频。每次Python实战教程讲到爬虫,都会从“发送请求”说起。谈到解析页面时,大多数读者可能会卡住,因为这部分确实需要一些XPATH或CSS选择器的预先知识。那么有没有办法不用那么复杂的操作就可以读取页面信息呢?答案是:是的。Lassie是一款超简单的页面信息检索工具,只需几行代码就可以获取页面的静态信息,如:页面描述、视频链接、页面标题、页面关键字、图片链接等。为什么超级棒简单的?感受一下:importlassiedata=lassie.fetch('https://www.zhihu.com')print(data)只需要抓取页面,就可以得到如下操作结果(输出为字典):(base)F:push20191112>pythontest.py{'images':[{'src':'https://static.zhihu.com/static/favicon.ico','type':'favicon'}],'videos':[],'description':'有问题上知乎。知乎是一个可靠的问答社区,使命是让每个人都能高效地获得可靠的答案。以严肃、专业、友好的社区氛围,结构化、通俗易懂的优质内容,以问答为主的内容生产方式和独特的社区机制,知乎吸引和汇集了各行各业的一大批见证者、业内人士和领域人士。专家和领域爱好者通过人节点大规模生产和分享优质内容。用户通过问答等交流方式建立信任和联系,创造和提升个人影响力,发现和获得新的机会。','locale':'zh_CN','url':'https://www.zhihu.com','title':'知乎-有问题上知乎','status_code':200}1.安装如果你还没有安装Python,推荐阅读这篇文章:Python安装。安装完成后,请打开你的CMD/Terminal(终端),输入以下命令:pipinstalllassie即可成功安装lassie。2.使用Now,使用这个工具来爬取我们上一篇文章的图片链接!importlassiedata=lassie.fetch('https://pythondict.com/ai/python-suicide-detect-svm/')print(data['images'])结果:[{'src':'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png','secure_src':'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png','类型':'og:image'},{'src':'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png','type':'twitter:image'},{'src':'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg','type':'favicon'}]当然我们也可以使用listcomprehension把所有的链接都放进去一个数组:print([i['src']foriindata['images']])结果:['https://pythondict.com/wp-con...','https://怎么样pythondict.com/wp-con...','https://pythondict.com/wp-con...'],这个工具爬静态页面有这么方便吗!唯一的缺点是不能抓取页面中详细的文字内容,只能用来提取图片、视频和页面相关信息。如果你的爬虫只需要爬取静态页面的图片和视频,那么这个库简直就是法宝。如果喜欢今天的Python教程,请继续关注Python实战宝典。如果对您有帮助,请在下方点赞/观看。有什么问题可以在下方评论区留言,我们会耐心解答!Python实战宝典(pythondict.com)不只是一个合集欢迎关注公众号:Python实战宝典原文来自Python实战宝典:Python你见过三行代码的爬虫吗?