当前位置: 首页 > 科技观察

GitHub上有哪些好用的爬虫?

时间:2023-03-16 11:17:33 科技观察

在开发实际项目的时候,往往没有足够的数据,需要自己想办法获取。这个时候,往往需要用到爬虫。但是,环顾四周,很可能找了半天,找不到一个免费好用的爬虫。今天先从一个好的爬虫说起,这很可能是项目成功的开始。1复习项目和学习资料首先,我会介绍一些优秀的复习和学习项目,方便大家快速索引和找到自己需要的资源。1.1.awesome-spider地址:https://github.com/facert/awesome-spider由ID为facert的知乎工程师开源。头像如下,识别为boss。star6000+,内容如下:这个爬虫收集了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到QQ,还有很多不可描述的网站,你懂的。1.2.Nyspider地址:https://github.com/Nyloner/Nyspider这是ID为Nyloner的工程师制作的。头像如下:star1000+。风格与上面的项目大不相同。可以看出,有各种各样的网址。这是个头条,估计跟这位小哥的工作内容有关。1.3.awesome-python-login-model地址:https://github.com/CriseLYJ/awesome-python-login-model这是一个ID为CriseLYJ(职业未知)的用户,头像如下。本项目用于模拟各种网站登录,也包括一些简单的爬虫,star6000+。入手这个项目,分析一下各大网站的登录方式,很有用。可谓是先摸清对方再动手。1.4、python-spider地址:https://github.com/Jack-Cherish/python-spider这是东北大学一位ID为Jack-Cherish的同学整理的学习python爬虫的资料。这个头像很学生。star6000+包含了很多实用项目,非常适合想学习的朋友。还有一些其他的项目,就不一一介绍了。https://github.com/jhao104/proxy_poolhttps://github.com/Ehco1996/Python-crawler2优秀的图片/视频项目作者比较注重图片和视频,所以下面介绍一个功能强大,简单易用的使用图片和视频爬虫。工具测试长期有效,省去了很多找爬虫工具的时间,早点用比较好。2.1、Google、百度、Bing三大搜索引擎图片爬虫地址:https://github.com/sczhengyabin/Image-Downloader本爬虫由ID为sczhengyabin的用户组织,看图不易乱在个人资料图片上。可以根据需要在百度、必应、谷歌上抓取图片。我已经使用它好几年了,它提供了一个非常人性化的GUI,便于操作。使用方法如下:使用pythonimage_downloader_gui.py调用GUI界面,配置参数(关键词、路径、抓取次数等),关键词可以直接在这里输入,也可以从txt文件中选择。您可以配置需要爬取的样本数量。这里一次抓取2000个样本,3分钟搞定。这个爬虫足以满足小项目初始数据集的积累(爬几千张高质量图片就合适了),而且结果的命名也很整齐规范。最大的优点就是稳定,不会三两天不能用。2.2.各大视频网站爬虫地址:https://github.com/iawia002/annie由ID为iawia002的用户整理,不易看出头像出处。Annie是一个用go语言编写的视频下载工具。简单易用,支持从youtube、腾讯视频、抖音等网站下载视频和图片。包含的站点如下,可以说是应有尽有:这个项目虽然可以下载图片,但是我们还是用它来下载视频吧。使用方法很简单:annie[可选参数]http://...(videoURL)视频会被下载到当前目录。至于那些可选参数,赶紧去探索吧。要说互联网圈最牛逼的人物,爬虫高手肯定在其中。他们大概是掌握最多信息,最善于整合和抢夺资源的一群人。坚持,稍等。