标题图片:bywatercolor.illustrationsfrominstagram前天有同学加我微信问我:“猴哥,我想抓取最新的5000条新闻数据,不过我是文科的同学,我不会写代码,怎么办?侯哥一向有问必答,这位同学的问题我来安排一下,先说获取数据的方式:一种是使用现成的工具,我们只需要知道如何使用工具获取数据即可,而我们不需要关心工具是如何实现的,比如我们在岸上,想去海里的一个小岛,而岸上有一艘船,我们首先想到的是选择坐船去,而不是想着自己造一条船去,二是根据场景的需要做一些定制化的工具,需要一点编程基础,比如我们还是想去到海里的一个小岛,同时我们还要求1餐30分钟内送到岛上,所以前期只是想获取数据,如果没有其他需求,我会优先考虑现有的工具。可能是Python已经很流行了近年来,我们经常看到别人用Python做网络爬虫来抓取数据。所以有的同学有这样一个误区,认为要想从网上抓取数据,就必须要学Python,写代码。其实侯哥介绍了几个可以快速获取线上数据的工具。1.MicrosoftExcel你没有看错,就是Office三剑客之一的Excel。Excel是一个强大的工具,能够抓取数据是它的功能之一。我用耳机作为关键词,抓取了京东的商品列表。等待几秒后,Excel会将页面上的所有文本信息抓取到表格中。这种方式确实可以抓取数据,但是也会引入一些我们不需要的数据。如果您有更高的需求,可以选择以下工具。2.LocomotiveCollectorLocomotive是爬虫界的老字号,是目前使用最广泛的互联网数据抓取、处理、分析、挖掘软件。它的优点是收集无限的网页和内容,同时又是分布式收集,效率会更高。缺点是对新手用户不太友好,有一定的知识门槛(网页知识、HTTP协议等知识),熟悉工具操作需要一定的时间。因为有学习门槛,掌握了这个工具之后,采集数据的上限会很高。有时间有精力的同学可以去折腾折腾。官网地址:http://www.locoy.com/3。章鱼收集器章鱼收集器是一款非常适合初学者的收集器。它具有简单易用的特点,让您在几分钟内上手快手。Octopus为一些常用的爬取网站提供了模板,使用模板可以快速爬取数据。如果想在没有模板的情况下抓取网站,官网也提供了非常详细的图文教程和视频教程。Octopus基于浏览器内核实现可视化数据抓取,因此具有数据采集滞后、慢的特点。不过这个漏洞也难掩其优点,基本可以满足新手短时间抓取数据的场景,比如翻页查询、Ajax动态加载数据等。网址:https://www.bazhuayu。com/4.GooSeekerJisooke也是一个易于使用的可视化数据收集工具。还可以抓取动态网页,也支持抓取手机网站的数据,也支持抓取指数图表悬浮显示的数据。Jisoke以浏览器插件的形式抓取数据。虽然它有上面提到的优点,但也有缺点。不能多线程采集数据,浏览器卡顿在所难免。网址:https://www.gooseeker.com/5.Scrapinghub如果想爬取国外网站数据,可以考虑Scrapinghub。Scrapinghub是一个基于Python的Scrapy框架的云爬虫平台。Scrapehub是市面上一个非常复杂和强大的网页抓取平台,提供数据抓取的解决方案。地址:https://scrapinghub.com/6.WebScraperWebScraper是一款优秀的国外浏览器插件。也是一款适合新手抓取数据的可视化工具。我们只需要设置一些爬虫规则,剩下的就交给浏览器去做吧。地址:https://webscraper.io/
