bsport体育这几年伴随着北上广深等一线城市的房价飞涨,“逃离北上广”的呼声也越来越高。武汉作为全国输出大学生数量最多、同时也是发展最快的二线城市之一,自然也成为在外打拼的小伙伴们退居大城市的首选,而在汉能够买房安家才算真正的稳定下来。来看看近几年“武汉房价”的百度搜索指数如下:
很明显在2016年之前bsport体育,武汉房价的搜索指数并不高;进入2016年后,搜索指数便大幅上涨,并于该年国庆黄金周前后达到顶峰,可以猜想在武汉买房安家的小伙伴也同样在大幅上涨;进入2017年后,搜索指数虽然比较平稳,但依然处于高位,说明有意在武汉购买房产的人仍然很多。下图是近几年武汉全市新建商品住宅成交量及成交均价走势图。
由图可知, 从2011年以来,武汉的新房均价节节攀升,而在2014年后成交量的涨幅更是超过均价。
由于目前武汉主城区的新房房源越来越少,要想在比较中心的位置购房,二手房比新房的选择空间肯定会更大,因此本文将从二手房的多个角度分析来为想买房的人提供一个参考。
利用web scraper爬虫工具,爬取58同城上武汉二手房的房源(数据截止到2017年12月14日),包含主题、总价、单价、楼层、户型、装修情况、面积、朝向、建造年代、位置这几个方面的信息,共有3332条。爬完导出excel后经简单数据处理如图:
在Excel利用VLOOKUP函数、left函数、分列等功能将变量分类,处理后导入spss软件:
主题广告词云分析:将主题广告文本做词云图,广告词里提到最多的有“精装、两房、三房、南北”等关键词,看起来大多是两三居室、南北通透的精装修房源。
行政区房源均价分布:对变量均价做数据探索,整个武汉区均价呈右偏态分布,平均均价15996.9元/㎡。
按照行政区域对房源计数及均价绘制双轴图如下,武昌、江汉、洪山、新洲的二手房数量最多,东西湖和葛店的房源最少(当然这两个区不属于主城区,有充足的土地资源开发更多的新房);均价排名前三位的区域是武昌、洪山、青山bsport体育,平均值接近或超过2万/㎡,均价最低的是远离主城区的葛店(其实属于鄂州了bsport体育,但是过几年会通地铁直达武汉市区),才5000多元/㎡。
按照建造年代、行政区对房源计数做直方图和叠加图如下, 2000年以前二手房数量较少,2010年以后的房源很多,也就是说目前武汉二手房市场绝大部分是楼龄不超10年的新房。另外需要注意的是,2000年以前的二手房主要集中分布在武昌、洪山、青山、江夏、江岸这五个老城区,不想买楼龄太大或者不想周围老房子太多的人,对这几个区域二手房的选择需要更加慎重。
房源总价、面积分布:对总价类别、面积类别做统计及条形图,可以看出,这两个变量都呈右偏态分布,总价在400万以下的房子占比约95%,50万~200万的房子数量最多,占比约70%;超过60%的二手房面积小于100平,90%以上的房源面积在150平以下,200平以上的大房子占到不到5%。
行政区楼层、户型、装修、朝向分布:按楼层类别、行政区做分组条形图和饼图,位于中层的二手房数量最大,底层次之,高层最少,但是总体上三种楼层类别的房源数量差别并不太大。
按照户型类别做统计表格及饼图,两室和三室的房源最多,这两种户型占到总数量的75%以上,5室及以下占比达99%,6室及以上的房源很少,一共33套,占比只有1%。
按照装修情况、朝向做饼图,毛坯二手房占比23.26%,其余都是装修过的房源,精装修的房源数量超过一半;房屋朝向“南北+南”的房源超过90%,看来绝大部分房源朝向都不错。
接下来试图通过现有的变量,构建购买二手房所需总价的模型,显然这里是要建立多重线性回归模型。
前文分析总价600万及以下二手房占比约97%,面积为200平以下的房子占比超过95%,5居室及以下的房子占比达99%,房源总价过高、面积过大、6居室及以上的户型虽然很少,但是在这个模型里视为离群值,为了模型的稳定性,也考虑到我们大部分人不是土豪,可将总价>600万、面积>200平、6居室及以上的数据(共156个房源)去掉,即还剩余3332-156=3176个数据源,最终现有的数据源与原数据源数量之比3176/3332=95.3%。
(1)验证因变量是否符合正态分布:用P-P图考察总价是否符合正态分步如下左图,显然不符合预期,对其做自然对数变换后继续P-P图考察如下右图,总价对数变换后的分布已经较为接近正态,通过计算变量将总价转换为总价对数变换。
(2)验证自变量与因变量线性关系:由于总价=均价\times面积,本模型将总价定为被解释变量,根据前面分析,在这个模型里解释变量定为总价对数变换,均价和面积二者只能选其一作为自变量,这里选择面积。另外因为90%以上的户型是南北朝向,这里为了简化模型不考虑将朝向作为自变量纳入考察。因此纳入模型的自变量有楼层类别、户型类别、装修、面积、建造年代、行政区共6个,其中面积是连续变量,其余都是离散变量。因变量与自变量做双变量相关性分析如下:
总价对数变换与楼层类别、户型类别、装修、建造年代、行政区的双变量相关性分析:
显然因变量除了与建造年代的相关性系数>0.01外,与其余自变量相关性系数都<0.01,非常显著,在后面建模中去掉自变量建造年代。
容易看出,面积与户型类别的有很强的共线,其余自变量间没有很强的共线)模型探索
将自变量楼层类别、户型类别、装修、面积、行政区全部纳入回归模型,选择输入法,各选项设置如下:
显然以上模型的回归方程sig值均<0.001,即均具有统计学意义;决定系数【R平方】均90%,模型拟合效果都不错。但是两个模型DW<1.5,提示在这两个模型中因变量总价对数变换的残差存在较强的正自相关性。
另外在上述包含面积的模型中的系数表中,面积的标准系数0.533是最大值,即是这个模型中影响最大的系数,但是非标准化系数只有0.026,远小于楼层类别、装修的非标准化系数,因此考虑将自变量面积的值减去100后,再代入模型。
自变量取值范围: 楼层类别:1=底层,2=中层,3=高层 装修:1=毛坯,2=简单装修,3=中等装修、4=精装修,5=豪华装修 面积≤200 行政区:1=武昌,2=洪山,3=青山,4=江夏,5=江汉,6=江岸,7=硚口,8=汉阳,9=汉南,10=蔡甸,11=新洲,12=东西湖,13=黄陂,14=葛店
以面积为例,其偏回归系数为0.010,说明在同一个楼层类别、同一种装修类别、同一个行政区域的情况下,面积每增加一个平方,总价的值便会增加