本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。爬虫,伙计们——现在电子表格就可以了。一行代码都不写,第三方软件也不用担心。只需在表格中单击几下,您就可以开始了。信不信由你,你看:只需点击两下,网页上的产品信息就全都有了。网友们看后目瞪口呆,马不停蹄的码字。一看到这是谷歌的产品(GoogleSheet,谷歌的“Excel”),大家立马提示微软,问是不是赶时间。也有人称这是对它的“跨界打击”。△扫盲:“大硬”就是微软,网友们的调侃真是太热闹了。让我们看看如何实现它。详细步骤以爬取亚马逊某手机商品的商品页为例。我们先打开Goog??leSheet(可以用网友版)新建一个文档。然后将要爬取的URL复制粘贴进去,剩下的在Sheet中完成。我们先列出要爬取的元素,这里是:商品图片-识别码(asin,亚马逊为每个商品生成的唯一标识)-商品名称-价格-评级-图片网址。然后就可以正式开始爬山了。诀窍是一个名为ImportFromWeb的函数。也是一个插件,如果没有,需要先安装(安装地址在文末),然后通过GoogleSheet程序的“Extensions”菜单导入。我们只需要将ImportFromWeb函数放到asin的那一栏,然后在第一个参数中选择刚刚粘贴的URL,在第二个参数中拖拽要抓取的元素单元格(“图片”除外)。等待1-2秒,价格、商品名称等信息就出来了!还是缺图。简单~基本操作~使用IMAGE函数将G3网格中获取的图片URL值传递过去。至此,第一个商品页面的东西就爬取完了。唯一麻烦的是,如果需要爬取更多的商品信息,需要把商品网址一个一个贴上去。然后就什么都没有了,就是在单元格地址的行列标签上加上绝对引用字符“$”。这里不需要学习视频,直接f4就可以了。只需拖动即可完成!这个怎么样?是不是很方便。看完整个操作你也发现,其实Google写了一个脚本让我们直接打包使用。据官方介绍,这个ImportFromWeb函数还可以自动更新爬取的信息。而且只要能爬到JS写的网站(基本等于绝大多数网站),每个功能也可以支持50个url,上千个数据点。赶快码字吧~
