CDA数据分析师出品:米卡数据:振达后期:泽龙【攻略】今天我们用数据来说说高考。Python技术分析请看第二部分。拿数据给我看,今天就来说说。高考是人生中一次难忘的经历,今年的高考尤为特殊。今年受疫情影响,教育部3月31日宣布,高考延期一个月,由6月7日至7月8日举行。这是我国17年来首次高考。调整了高考时间。而2020年的高考考生,着实不容易。熬过疫情漫长的黑夜,我见证了高考历史性的延期,多了一个月的刻苦学习,多了一个月的心态考验。那么历年的高考人数和录取率是多少呢?哪个地区的高校最多?什么专业最受欢迎?今天我们就来说说数据。01回顾历年高考人数和录取率我们收集整理了复办高校40多年来的高考人数、录取人数和录取率数据1977-2019年高考历年高考人数数据见图:高考人数:高考人数逐年递增按年。2008年,高考人数达到了1050万的高峰。在接下来的几年里,这个数字有所下降。而今年,全国考生人数达到了2020年的1071万人次新高,是自2009年以来十年间再次突破千万大关,也是近年来考生人数最多的一年。录取人数:录取人数基本逐年递增。1997年,高校录取人数终于突破百万大关。录取率:录取率基本呈逐年上升趋势。2005年至2008年四年间,录取率较往年有所下降;随后,随着高校的陆续扩招,录取率迅速提高;到2017年,录取率达到82%。总体而言,高等教育的普及率越来越高。然后,我们看到了去年2019年各省高考录取数据:2019年各省录取线高考人数排名第一,河南遥遥领先。高考人数突破百万,达到103万人。其中一省录取学生12.92万人,录取率为12.54%。其次,广东和四川的高考人数也不容小觑,分别为76万人和65万人,一门课程录取率分别为12.87%和14.72%。02国内理工类院校占三分之一。江苏高校高考生源数量最多,达数千万。那么我国各省市的高校分布情况如何呢?全国哪个地区的高校最多?我们分析了中国教育在线网站(https://gkcx.eol.cn/)的大学数据,其中包括本科院校和高职(专科)院校。如何获取数据我们使用Python获取了中国教育在线网站上高校的数据,共2904条。下面展示了获取数据的部分代码:https://gkcx.eol.cn/school/se...具体思路如下:分析网页,可以发现数据是动态加载的翻页,于是使用Chrome浏览器抓包分析得到真实的URL请求地址,确定请求方式(get或post);使用requests请求网页数据;使用json解析和提取数据;使用pandas将数据保存到本地首先打开网址,使用Chrome浏览器的检查功能,切换到Network-XHR,点击翻页抓取网络数据,很容易发现数据是用json封装的,如下图:切换到Headers,确定请求方式为post请求,获取数据请求地址的URLAddress,其中page参数代表页数,遍历即可得到所有数据。代码如下:`#importpackageimportnumpyasnpimportpandasaspdimportrequestsimportjsonfromfake_useragentimportUserAgentimporttime获取一个页面defget_one_page(page_num):#获取URLurl='https://api.eol.cn/gkcx/api/'#构造headersheaders={'User-Agent':UserAgent().random,'Origin':'https://gkcx.eol.cn','Referer':'https://gkcx.eol.cn/school/se...',}#构造数据data={'access_token':"",'admissions':"",'central':"",'department':"",'dual_class':"",'f211':"",'f985':"",'is_dual_class':"",'keyword':"",'page':page_num,'province_id':"",'request_type':cho1,"",'size':20,'sort':"view_total",'type':"",'uri':"apigkcx/api/school/hotlists",}#发起请求try:.pponse=ostrequests(url=url,data=data,headers=headers)除了Exceptionase:print(e)time.sleep(3)response=requests.post(url=url,data=data,headers=headers)#解析并获取数据school_data=json.loads(response.text)['data']['item']#学校名称school_name=[i.get('name')foriinschool_data]#所属院系belong=[i.get('belong')foriinschool_data]#大学级别dual_class_name=[i.get('dual_class_name')foriinschool_data]#是否985f985=[i.get('f985')foriinschool_data]#是否211f211=[i.get('f211')foriinschool_data]#学校类型level_name=[i.get('level_name')foriinschool_data]#学校类型type_name=[i.get('type_name')foriinschool_data]#是否公开nature_name=[i.get('nature_name')foriinschool_data]#人气值view_total=[i.get('view_total')foriinschool_data]#省份province_name=[i.get('province_name')foriinschool_data]#城市city_name=[i.get('city_name')foriinschool_data]#regioncounty_name=[i.get('county_name')foriinschool_data]#保存保存df_one=pd.dataframe({{'school_name':school_name,'属于'属于':dual_class_name':dual_class_name':dual_class_name,'f985':f985':f985,'f211':f211':f211':f211,'level_name'级:':type_name,'nature_name':nature_name,'view_total':view_total,'province_name':province_name,'city_name':city_name':county_name,'county_name':county_name':county_name,})df_all=pd.DataFrame()#Cyclepagesforiinrange(all_page_num):#打印进度print(f'Gettingtheuniversityinformationonpage{i+1}')#Callfunctiondf_one=get_one_page(page_num=i+1)#追加df_all=df_all.append(df_one,ignore_index=true)#随机随机随机time.sleep(np.random.uniform(2))返回df_allif__name__name__=='_____________)`通过以上程序,一共得到了2904条数据,dat预览如下:df.head()分析结果高校全国分布:江苏高校数量排名第一经过分析发现,江苏省高校数量排名第一,以174所高校位居第一,其次是北京167所,其次是山东和广东,均为161所。全国高校:北京最多985所,211所高校。我们进一步分析数据发现,在各省市高校分布中,除了双飞高校外,211所高校中,北京最多27所,其次是江苏11所,上海10所。在985所高校中,北京有9所,其次是山东和上海4所。高校类型:国内三分之一的高校是理工类院校。然后我们看一下全国的高校类型,理工类院校最多,占比30.93%。其次是综合性高校,占比29.14%。有8.7%的师范学历。大学热门排名:厦门高居榜首。中国教育在线网站还根据搜索数据统计大学的受欢迎程度。我们对各大学的热度进行了统计发现:在全国大学热度排名中,厦门大学排名第一,武汉大学排名第二,四川大学排名第三。北京大学和清华大学分列第四和第五。03工科专业是数据解释最多的专业。说完了高校,再来说说专业。我们随后对中国教育在线的专业数据进行了分析整理,共得到1450条数据。学科专业:哪些学科副专业最多,工程专业最多,哲学最少?据统计,工科下设专业多达212个,文学下设专业122个。哲学的专业数量最少,只有4个。专业热度排名:临床医学搜索最多同样我们也分析统计了专业热度:结果发现临川医学的搜索率特别高,排名第一。其次是商业经济学、电气工程和智能控制。#学过两很喜欢的专业#你对哪些专业最好奇?在专业方面,网友对哪些专业比较感兴趣?微博上,#不学何很喜欢的专业#话题阅读量1.3亿,讨论1.3万。我们获取并分析了3544条数据,可以看出:在最好奇专业的榜单上,心理学绝对是第一位的。看来现在的人们越来越重视心理健康了。第二个是护理,第三个是考古学。以上就是本次的全部分析。最后祝愿本次高考的各位学子都能取得好成绩,进入理想的大学!
