当前位置: 首页 > 后端技术 > Python

我用Python搜集了上千份交友文档,终于发现了告别单身的秘诀

时间:2023-03-26 13:33:25 Python

大家好,我是陈诚!不久前,小编偶然看到这样一篇文章短视频,《1.7亿90后中只有约1000万对夫妻结婚,结婚率不到10%》。当然,我们无法验证其中数据的来源和真实性,但小编总能听到小伙伴们抱怨脱单难,找合适的另一半难。今天小编通过Python写了一个简单的脚本来抓取公众相亲文案,看看相亲对象都是些什么人?他们的择偶标准是怎样的?什么样的人更容易脱单?在代码编写过程中,我们引入了需要使用的库。这里我们使用Python中的requests库来发送和接收请求,使用正则表达式re库来解析数据。importrequestsfromtenacityimport*importreimporttime经常会遇到requestsTimeout,所以当出错的时候,我们会多试几次,所以这里我们使用retry装饰器尝试多次@retry(stop=stop_after_attempt(5))defdo_requests(url):response=requests.get(url,headers=headers,proxies=proxies,timeout=10)returnresponse.text我们抓取的数据包括出生年份、身高/体重、教育程度、收入、职业、自我简介、择偶标准、车库条件等。都是通过正则表达式re库实现的,date_of_birth=re.compile("
①出生日期/星座(.*?)
",re.M|re.S)sex=re.compile("
【基本信息】(.*?)
")height=re.compile("
②身高/体重(.*?)
")education=re.compile("
⑤学历(.*?)
")jobs_1=re.compile("
⑥职业(.*?)
")income=re.compile("
⑦月平均收入(.*?)
")married=re.compile("
⑨是否有婚史(.*?)
")house_cars=re.compile("
⑧车房情况(.*?)
")self_intro=re.compilele("
?自我介绍(.*?)
")requirements=re.compile("
【择偶标准】
(.*?)")family_member=re.compile("
⑩familymembers(.*?)
")结果可视化展示先来看看性别比例。从分布来看,前来相亲的女生比例更高,主要是因为数据来源是北京、上海、杭州等大城市的相亲介绍,貌似比较难找女孩在大城市摆脱单身。让我们来看看单身女性的特点。首先,他们的年龄主要集中在94、1993、1995年,均处于适婚年龄,其学历、本科学历占绝大多数,基本上都拥有本科学历,而所占比例专科学历位列第二,硕士和博士学位位列第二。其他几位小编也对单身女性的星座做了统计,发现处女座、天秤座、射手座、白羊座的女性单身率略高。最后,我们来看看他们的择偶标准。单独提取标准,然后绘制成词云图.most_common(200)print(reviews_counter)在reviews_counter中进行审查:review_list.append((""+review[0]+"")*review[1])stylecloud.gen_stylecloud(text="".join(review_list),max_words=500,collocations=False,font_path="KAITI.ttf",icon_name="fabfa-apple",size=653,output_name="4.png")最后的样子如下图所示,显示相亲市场上的女孩。首先,他们希望这个人是必须有房有车,其次如果男方有过婚史,女生会比较在意。那么,如果他有一份稳定的工作,有能力,有责任心,通常会给女生留下好印象。至于外在条件,大部分女生的回答是身高在175-180左右,年龄在90-97岁之间。它写在最后。对于圈子比较狭窄,接触不到异性的人。小编希望大家最终都能收获爱情,拥有美好的人生。