当前位置: 首页 > 后端技术 > Python

小白学Python爬虫(一):开篇

时间:2023-03-26 16:14:38 Python

人生苦短,我用Python来介绍大家好,好久不见(也许只有一两天:囧)~~~先说一件事,昨天没有更新。emmmmmmmmm,当然是因为加班。快到年底了,公司项目比较忙,所以最近更新频率会降低。请善待。废话不多说,开始今天的正题。你应该从标题就猜到了。小编要开始更新一个新系列了《小白学 Python 爬虫》。由于每个人的水平参差不齐,建议对Python没有基本了解的同学第一次接触。看看之前小编更新的《小白学 Python 系列》,对Python的语法规则和一些基本用法有个大概的了解。我们先吹水。本系列小编计划做一个长期更新的系列。目前Python爬虫涉及的第三方库比较多,会涉及到很多web编程的基础知识,因为主要的目标人群是小白,这些内容需要一一介绍,这会是一个大系列。嗯,远远超出了之前的Python基础。呃,忘了一件事,再补充一句题外话,最近公众号在后台留言很多,很多同学的问题都看不到留言才来得及回复。在此,如有疑问,请加小编个人微信:allen_6174(放心,这是小编的个人微信,与工作号是分开的)。算了,顺便再打个广告:本爬虫系列文章将发布在公众号,个人博客站点次日同步,第三方博客平台不定期同步。你想跟着我吗?什么是爬行动物?不管你是程序员还是新手,对于爬虫这个词你应该都不陌生。毕竟最近发生了很多事情,很多人都是因为某些事情而进入的。具体情况我就不说了,很容易和谐。想知道的同学可以看我之前转发的一篇文章《只因写了一段爬虫,公司200多人被抓!》公众号。最近网上还有很多这样的新闻报道。在正式内容开始之前,先提醒各位读者尊重法律,爱护生命。老规矩,先看看百度的解读:网络爬虫(又称网络蜘蛛、网络机器人,在FOAF社区更常被称为抓网器)是一种按照一定规则自动抓取网页的爬虫.从万维网检索信息的程序或脚本。其他不太常用的名称包括ant、autoindex、emulator或worm。更接地气一点,我们把平时使用的网络看成是一张大蜘蛛网,每个站点都看成是这张网上的一个节点,爬虫就像一只蜘蛛。或者已经设计好的路线,找到目标节点,获取所需的资源。为什么要用爬虫通常我们上网的时候,看到一些有趣的网络资源,我们可以用复制粘贴的方式把这些资源下载回来。小时候,我们只要动动鼠标右键就搞定了,但是如果数据量很大,有时候会大到超出你的想象,然后鼠标右键复制粘贴就是了有点紧张。上图是博主用的鼠标,不是广告,就不贴型号了。这时候就需要勤劳的爬虫出来了。爬行动物是可以一天24小时不间断工作的“生物”。他们只需要提供必要的网络和电力,他们就可以继续努力工作,解放你的双手。无需手动使用CV方法。可以看出,爬虫非常适合帮助我们做两类事情:在一定的规则和条件下,大量数据的抽取。完全自动化,无需太多人为干预。试想一下,当老板让你去搜索某种信息时,辛辛苦苦写一个小爬虫,自己泡杯茶,拿起手机就开始开心的玩了,时不时的看看爬虫有没有完成了工作。这一幕让我想起了邪恶的资本家压榨劳动力。小结本文向同学们介绍了爬虫的??基本概念,让大家对爬虫有一个大概的了解,以便后续章节的学习。开胃菜吃完了,下一节我们要吃大餐了,准备好了吗?如果我的文章对你有帮助,欢迎扫描二维码关注作者的公众号:获取最新干货推送:)