最近在链家平台上对北京的二手房数据进行了可视化分析,对目前北京的二手房交易有了一个大概的了解,最后得出一个很实在的结论:我不能奋斗一辈子也要买个马桶这话不是骗人的,是真的;具体分析内容见下文1.工具说明本文使用的Python库有额外的百度地图API2.数据采集所有数据均来自链家二手房交易平台,每页30本文章采集前100页数据,从每一笔二手房交易数据中提取title、单价、price、address、year、roomstyle等字段作为数据源进行可视化分析。网站没有强大的反爬机制,爬取的时候使用requests+Cookies+PyQuery的组合。爬取的时候最好加上一个time.sleep()命令,每隔几秒休眠一次。部分代码如下:最后一共采集了3000条数据:3.地址经纬度坐标转换得到的数据是地址是字符串形式(例如,梵高水县*酒仙桥),后面标记地图位置时需要经纬度数据,所有地址都需要转换成经纬度坐标。这里使用百度地图API来完成。Step1.使用百度地图AK应用API,需要在百度地图开放平台申请AK验证码,登录自己的百度账号,在控制台创建应用。默认可以自定义应用名,IP白名单填0.0.0.0/0。以上步骤点击提交后,控制台面板上会多出一个应用,就是我们刚刚创建的应用。2.地址经纬度坐标转换获取到你的AK参数后,将AK和address(中国地址)作为参数传入下面的函数中,得到对应的经纬度坐标defget_location(address,AK):#Converttolatitudeandlongitude根据地址试试:url='http://api.map.baidu.com/geocoding/v3/?address={}&output=json&ak={}&callback=showLocation'.format(address,AK)res_test=requests.get(url).textres=re.search('((.*?))',res_test).group(0).strip('(').strip(')')lng=json.loads(res)['result']['location']['lng']lat=json.loads(res)['result']['location']['lat']print(lng,lat)returnlng,latexceptExceptionase:print('error----------n')returnNone百度地图API地址经纬度转换函数定位不限省市,还可以定位门牌号。只要您提供的地址越详细,获取到的经纬度信息就会越准确。4.可视化分析这部分进入可视化分析内容。这座城市到底是北京吗?房价方面,在抓拍到的数据中,最高的接近19万+一平,最低的也只有1.5万一平。看到15000一平米就不淡定了。常识不可能这么低);为了验证思路,首先做了楼盘地段标注,看前十:以上是房价最高的前10个地段。看来位置还不错,都在三四环以内,分布在市中心附近。如果你只看这张图片中的地图,你无法获得有用的信息。大家可以对比房价最低的Top10。它的范围从10,000到30,000。之前看到这张分布图,我只是以为上面的价格是卖家标错了。看了这张图,才知道卖家打着北京的名义在卖狗肉,卖北京。河北以外的房子(部分房子已经落户河北),这可能是卖房的套路之一。出事必有妖。不管是买房子还是买其他商品,卖家都不会无缘无故给我们打折。在远低于市场价交易之前,需要谨慎、谨慎、再谨慎!我把房价分为5个区间,分别是0-3万、3万-8万、8万-12万、12万-15万、15万+。我们来看看他们各自的比例分布。房价在3万-8万之间占比最大,为76%,其次是8万-12万和12万-15万,依次占比16.38%和3.46%,而房价在15万+占比最少,仅约1.12%;接下来我们再来看看。北京不同价位二手房分布15万??+,12万-15万-8万-12万-3万-8万。从区位分布来看,北京房价分为8万元。在水岭,8万元以上和8万元以下的房产分布发生明显变化。价格越高,离市中心越近;从地图信息上看,如果想在北京买个好地段的房子,预计最低价是8万+,8万是什么概念,也就是说,如果你想买50平米的房子在北京,最低是400万!关于15万+的楼盘,大致分布在两个区域,一个是大学区(周围有中国人民大学、北航、清华等大学),另一个位于右下角,也就是北京市朝阳区。北京出售的二手房不一定都是经过装修的,也有可能是毛坯房(施工交付后,还没有进行过装修);参考下图,北京二手毛坯房占比约为1.39%,共计41套,这些房子的业主很有可能用于资产增值。这不仅仅是一种需要;借助Treemap图看北京二手房开工时间分布。大部分集中在2002年到2010年这9年,北京房地产在这期间也发展迅猛,2015年后明显放缓,工地已经达到饱和状态,再加上国家相关政策的压力,最后贴出一张词云图作为本文的结尾。所选文本信息为3000条房产信息的标题。从图中看,标题中的高频词,南北通透,高楼层,精装修,采光好等。也可以说,这些特点也是大部分房源的最大卖点(不包括价格、地段等因素)5.总结本文并未全面分析北京的二手房,只是围绕房价、地段、建设年限等几个维度做了简单的分析。分析结果仅供学习,数据真实性已核查。以上就是本文的全部内容。最后,感谢大家的阅读,我们下期再见~
