就是这么简单!文章目录前言设计一个功能构造待抓取的URL确定待抓取内容的位置构造输入和调用部分程序完整代码0前言有时候,总有一些重复而琐碎的工作,但是你不得不去做。..一个一个不是不能算,就是太累了。。。有没有办法在5秒内自动统计整理?今天教大家一招,用Python爬取每个页面的下载,三分钟学会,省两小时。结果是这样的:你只需要输入应用名称,就可以得到各个市场的下载量。想要制作的话,只需要以下几步:1.设计一个函数首先,我们需要定义一个爬虫函数:如果你是零基础的初学者,不明白什么是函数,这里有一些解释:Python的函数主要有两部分:内置函数和自定义函数。内置函数是Python本身固有的函数,比如print()、input(),而自定义函数是我们为了方便重复调用而设计的代码块。函数结构如下:需要注意的是def和return是关键字,Python通过识别这些关键字来理解用户的意图。右括号后的冒号是强制性的。如果您在IDE中的冒号后按Enter,您将得到一个缩进。缩进后面的语句称为语句块。缩进是为了表明语句和逻辑之间的从属关系。2构造要抓取的URL这个爬虫需要抓取什么样的URL?程序需要告诉它:我们要抓取的app下载在详情页。而这个详情页是有规则可循的。以Apphui的Android市场为例,我们可以看到,当我们搜索“网易云课堂”时,URL是:所以我们可以使用url+searchcontent来构建我们爬取的URL。3确定要爬取的内容的位置。我们要抓取的是下载量,需要告诉程序元素所在的位置。在Chrome浏览器中,右键单击要抓取的内容,然后选择“检查”。然后在出现的复选框中选择邮件加深的部分,在copy中选择copyselector。粘贴我们复制的部分:我们称之为CSS元素选择器,通过它我们可以准确定位到我们要爬取的部分。通过以上三步,我们构建了一个函数的整体结构:4构造输入和调用部分这里我们使用输入函数,格式如下:调用函数,只需要输入函数名和输入参数,所以我们需要的是:5程序完整代码因为我们要同时抓取多个网站的结果,所以我们按照上面的例子自定义了多个函数,统一调用。现在,把你在30秒内完成的数据报告发出来吧!
