学习Python爬虫，开始用Python爬取网页信息

时间：2023-03-26 18:38:02 Python

什么是Python爬虫？在Internet上收集数据的过程实际上称为网页抓取。复制粘贴歌词、摘抄文字或数据都可以算作爬虫的一部分，但网络编程语境下的爬虫更强调自动化，通过Python编程自动爬取资源，从而减少人力资源和能源消耗，提高效率.注意：程序员在做爬取之前还是需要考虑一些法律问题。一般而言，用于开源或教育相关用途的爬虫不会涉及法律问题，但如果用于其他商业用途或涉及一些敏感事项，爬虫也可能涉及违反服务条款甚至其他法律纠纷.同样，有些网站也会通过其他方式避开爬虫，提高安全门槛。在法律允许的范围内，学习使用Python实现自动化爬虫，可以让大家在信息密集的网络世界中快速收集自己需要的信息。本文将通过虚构的求职网站FakePython并使用LightlyIDE展示完整的项目代码，引导大家在不安装第三方软件的情况下，在浏览器中编写代码，学习Python爬虫。Lightly爬虫项目代码：https://538cd3972a-share.lightly.teamcode.com了解网站的基本结构在开始编写Python代码之前，一个合格的程序员还是需要具备基本的网络知识。在这里打开教程中使用的网页：https://realpython.github.io/fake-jobs/右键“查看页面源代码”，打开后会显示该网页的HTML代码。除了右键查看，使用Windows的同学还可以通过Ctrl+Shift+I（MacOS：Cmd+Alt+I）调动开发者工具，在“Elements”中查看源码。使用开发者工具，可以对代码进行折叠或展开，还可以根据鼠标悬停在网页中显示相应的代码内容。在Python爬虫中，同学们不需要被乱七八糟的HTML代码劝阻。一般来说，我们可以关注id/class等元素，从中找到对应的分组，然后借用Python和LightlyIDE从这些代码中分析出我们需要什么。提前准备：安装requests和BeautifulSoup库。初次使用Lightly或者之前没有安装过requests和bs4库的同学，需要在终端分别通过pipinstallrequests和pipinstallbs4安装依赖，然后才能开始写项目代码。如果之前忘记安装了，使用Lightly的同学也可以使用QuickFix来一键安装缺失的依赖。动手实践Python爬虫将Lightly快照中的Python项目代码复制到个人项目中进行学习：https://538cd3972a-share.lightly.teamcode.com如何用Lightly打开和编辑别人分享的项目？注意：快照复制到个人项目后，任何修改都不会影响原来的快照链接。同学们可以放心修改自己的代码，也可以随时通过快照链接再次查看源码。在LightlyPython爬虫实战项目代码中，分多个章节通过代码中的注释来讲解BeautifulSoup中的各个元素。完成学习后的输出如下：CrawlerChallenge这个爬虫使用的练习网站比较简单，但是也展示了基本的Python爬虫所需要的知识和应用。实际使用的网页可能比实际使用的网页更复杂，不同程序员使用的编程语言、风格、安全系数等都可能影响爬取的难度。此外，对于信息更新频繁的网站，你可能还会发现在学习爬虫的过程中，每次运行的内容可能会发生变化。如果网站变化较大，那么之前建立的爬虫代码可能会失效。因此，学习Python爬虫是一个不断实践和创新的过程。在法律法规允许的范围内，通过所学技能进一步实践和交流，才能真正把爬虫作为一种对自己有益的工具，提高工作效率和个人能力。

上一篇：【Git系列】Git基本概念

下一篇：力扣-面试题09.用两个栈实现一个队列[剑指Offer][Python]

学习Python爬虫，开始用Python爬取网页信息相关文章