今天用Python写了一个简单的脚本抓取公开交友文档,看看什么样的人在相亲?他们择偶的标准是什么样子的?什么样的人更容易脱单?在写代码的过程中,我们引入了我们需要使用的库。这里我们使用Python中的requests库来发送和接收请求,使用正则表达式re库来解析数据。很多时候我们会遇到请求超时,所以当出现错误时,我们会多试几次,所以这里我们使用retry装饰器进行多次尝试。我们抓取的数据包括出生年份、身高/体重、学历、收入、职业、自我介绍、择偶标准、车库情况等,都是通过正则表达式re库实现的。接下来我们使用pyecharts库绘制分析结果。结果的直观展示我们先来看性别比例。从分布来看,前来相亲的女生比例更高,主要是因为数据来源是北京、上海、杭州等大城市的相亲介绍,貌似大城市的女生越来越多出来比较困难。我们再来看看单身女性的特点。首先,他们的年龄主要集中在94、93、95岁左右,恰好是适婚年龄。从教育背景来看,本科占绝大多数,基本上都具有本科学历,大专占第二位,硕士和博士占少数。此外,小编还对单身女性的星座做了统计,发现处女座、天秤座、射手座、白羊座的女性单身率略高。最后,我们来看看他们的择偶标准。小编将他们的择偶标准分别提取出来,然后绘制成词云图。最后的样子如下图所示:可以看出,相亲市场的姑娘们,首先希望男方有房有车,其次如果男方有前科婚史,女生会比较在意,然后如果他有稳定的工作,有能力有责任感,一般都会给女生留下好印象。至于外在条件,大部分女生回答身高在175-180左右,年龄在90-97岁之间。
