最近小初在研究Python在量化投资中的应用,发现Python的爬虫功能真的很强大。抓取微博、新浪新闻、豆瓣和各种APP的海量数据,真的是不费吹灰之力。知乎也算是国民级APP,日活跃用户数在1000万以上。而且,知乎的回答与百度知乎不同。基本上,知乎的回答都是比较高级和有逻辑的,借鉴意义非常大。那你一定很想知道,能回答这么高的回答的用户都有哪些?他们有什么共同特点?近日,知乎给小初发了一个问题:男生长得好看是一种怎样的体验?点进去,发现每一个回答都是帅气小哥哥的照片。这个问题有8284个答案,还有几万张美男图片。小楚看完帅哥,觉得还不够过瘾。既然知乎推了帅哥,那我御鹿君湛一定要看看这位漂亮的小姐姐。于是,又去知乎上找了一个问题:女生变漂亮是一种怎样的体验。这个问题下共有3000个答案。看到第一个回答的第一张照片,小楚就快撑不住了。..来自知乎用户ID:看完勾芡浇水,小初的肾上腺素飙升了半天,积极性被调动起来。他决定用Python抓取这8000个帅哥和3000个美女的用户信息,包括知乎昵称、一句话介绍、职业信息等,看看长得好看的人都有哪些共同特征。一个人快乐总比在一起快乐好。小初就教大佬们如何使用Python爬虫。不管你是不是小白,宝会。1.安装Python软件,我们先下载anaconda。下载地址可以到清华镜像网站下载最新的exe安装包,比官网快很多。下载安装后,打开里面的jupyternotebook,在输入框输入:pipinstallzhihu_oanth。完成后,你已经配置了抓取知乎所需的所有条件。**推荐:020持续更新,精品圈每天都有新内容,干货集中度极高。建立联系,讨论技术,你想要的都在这里!成为第一个加入团队并超越同行的人!(入群不收费)点此与Python开发高手交流学习。群号:745895701免费申请:Python软件安装包,免费提供Python实用教程资料,包括Python基础学习、进阶学习、爬虫、人工智能、自动化运维、自动化测试等**2.登录您的知乎账号输入以下代码,然后将代码中的手机号替换为您自己的知乎手机号,密码替换为您自己的账号密码。然后点击运行,会出现一个框让你输入验证码。一般会查看用户文件夹,会发现多了一个验证码图片文件,在图片上输入验证码,回车完成。3.抓取所有答案和用户信息(代码比较长,请用放大镜阅读)运行后会得到所有8000个答案,点赞和8000个回答者,体验下男生有多帅我们的用户特征,包括昵称、个人资料等。然后输入df.to_excel('beautifulboys.xlsx')将所有8000个答案导入到Excel表格中。4.将用户的昵称和简介制作成词云。让我们在Excel中提取用户的昵称和个人资料,看看帅哥喜欢如何选择他们的名字以及他们的个人资料有什么共同点。然后,我们惊喜地发现了帅哥词云:我们看到帅哥喜欢用“先生”。还有昵称中的“一”,很多帅哥也喜欢用“妹子”!(不好意思,我好像明白了什么)然后,把所有提取出来的profile做一个词云。果然,介绍的信息价值还是比较大的。从上面的词云我们发现,知乎上的帅哥主要集中在学生,尤其是大学生。这不难理解。毕竟,男孩子都20多岁了。是油腻大叔吧?其次,更让人意外的是,看上图,我们发现设计师行业的帅哥更多了。看来以后想要找帅哥,可以多逛设计公司。将爬取代码中的ID替换成美丽成长的经历ID后,得到美女词云特征:“美女”居多,非常符合她们精致的外表。从用户画像词云可以看出,知乎美女以学生居多,职业更集中在教师和设计师等职业。看来设计师行业是确实更容易出帅哥美女,两个词云都包含设计师这个关键词,毕竟在普通人的印象中,设计师都是比较严谨和挑剔的,没有自信,很难设计出漂亮的作品!
