7月4日,林丹在微博上宣布退役。不好意思,我们快速浏览一下他们的微博。对于他们的微博内容,这里不作评价。我们用Python爬取他们微博下的评论信息,看看网友们都说了些什么。在抓取爬取之前,我们先简单了解一下微博。微博主要有以下三种展示形式:网页版(http://weibo.com)移动端(http://m.weibo.cn)移动端(http://weibo.cn)其中,在移动端相对容易。这里我们从移动端开始。首先在浏览器输入http://weibo.cn打开,如下图:我们可以看到有一个搜索框,我们可以用它来找人,以林丹为例,之后我们在搜索框中输入林丹,点击找人按钮,我们可以搜索林丹的微博,如下图:我们点击其微博博客名进入微博首页,如下图:然后打开开发者工具选择网络,然后点击评论,如下图:因为评论比较多,需要翻页查看更多内容,我们将翻页下拉,可以看到翻页按钮,我们点下一页看具体请求,如下图:上图中RequestURL中page参数前面是固定的,page是页码,我们需要抓取时使用这是URL。另外,我们还需要用到cookie和user-agent参数,可以在下面的RequestHeaders中找到,如下图:找到所有需要的东西之后,我们就可以抓取Fetchcomments了,主要代码实现如下:#抓取一页评论defget_one_page(url):headers={'User-agent':'MyownUser-agent','Host':'weibo.cn','Accept':'application/json,text/plain,*/*','Accept-Language':'zh-CN,zh;q=0.9','Accept-Encoding':'gzip,deflate,br','Cookie':'OwnCookie','DNT':'1','Connection':'keep-alive'}#获取网页htmlresponse=requests.get(url,headers=headers,verify=False)#响应抓取成功。status_code==200:#返回值为html文档,传入解析函数returnresponse.textreturnNone#解析并保存评论信息defsave_one_page(html):comments=re.findall('
