bsport体育基于之前对机器学习自然语言处理相关内容的学习并在kaggle上尝试了泰坦尼克号生还者预测以及Words Meets Bags of Popcorn两个项目的研究体会到特征工程的重要性我对数据分析也产生了浓厚的兴趣对sql进行了集中式的学习之后以及在阅读过《赤裸裸的统计学》这本书讲解的生活中无处不在的统计学自己想动手利用所学知识对生活中的数据运用统计学的方法进行分析并得出一些有价值的结论。
在网络上下载链家全网北京二手房数据通过对这23677条二手房信息的分析与建模来进一步了解这些房源信息。
先将csv格式的原始数导入到numbers并进行初步的观察了解数据特征的缺失值异常值以及大概的描述性统计。
初步观察到一共有11个特征变量Price这里是我们的目标变量然后进一步的进行观察。
总结上面的结果给出了特征值是数值的一些统计值包括平均数标准差最小值25%分位数75%分位数最大值。这些统计结果简单直接对于了解一个特征的基本规律非常有用并且可以根据经验来对一些数据的好坏做出判断观察到Size特征的最小值为2平方米最大值为1019平方米那我们就可以思考这个在实际中是不存在的可以确定是异常值在后面分析过程中加以处理否则会影响模型的性能。
北京二手房数量分布从数量统计上看目前二手房市场上海淀区朝阳区和丰台区的二手房数量最多接近于3000套这三个是北京大区需求量较大。其次是昌平区数量紧随其后。而平谷怀柔和密云都位于北京五环以外数量非常少。
北京二手房均价从每平米单价的统计分布来看西城区的房价最贵均价大约11万/平因为西城在二环里并且是热门学区房聚集地其次是东城区大约10万/平海淀区是8.8万/平其他几个区的均价都在8万以下。
思考在计算北京各区二手房每平米单价时计算均价有两种算法第一种即上图中是利用每套房子的价格除以它的面积得到每套房子的每平米的单价然后group by 区域得到每个区二手房每平米单价的均价是一种算术平均值算法。第二种是直接求每个区域所有房子的价格总和与面积总和最后用价格总和除以面积总和得到每个区二手房每平米单价的均价是一种加权平均值算法。下面动手尝试第二种算法并且对比一下两者的结果bsport体育。
对于房屋面积特征我们可以分析房屋面积的数量分布以及房屋面积与房屋价格的关系。
从上面的折线c;房子size的种类太多了虽然能整体看出大概的趋势大多数的房子的面积都集中在60-100平方米之间但是坐标点过于密集size的过于稀疏看起来不够直观再结合机器学习特征处理时针对于数值型过于稀疏的特征通常采用数值归一化的处理。接下来尝试归一化看一下效果。
![avatar](image/屏幕快照 2019-02-28 下午6.29.07.png)
这次数据可视化利用同一组数据在numbers里画了两种统计图表展示统计的结果可以观察出条形图给人的感觉更加地清晰从上到小不同户型之间的数量对比一目了然。而柱状图则不那么明朗并且还有一个严重的缺点就是横坐标的文字的长度会影响整体的展示如上图甚至会生横坐标重叠的问题而条形图很好的避开。
*综上体会到数据可视化的方法应该是更加多元化的要深刻理解并熟练掌握不同种类的统计图表的优劣能够让别人更加直观的看出数据背后的规律。
对于房屋装修特征我们可以分析二手房装修特征的数量分布以及与价格的关系。
发现Renovation装修特征中竟然有南北它属于朝向特征但是在柱状图上观察不到它的数量是多少换饼状图看一下。
从饼状图中可以直观的看出南北特征的数据占整体的2%。在统计学中百分数比绝对数值和相对数值更能直观的表达出数值的大小和意义。
分析南北朝向的特征可能是爬虫过程中一些信息的位置为空所以导致朝向的特征出现在这所以要把这些数据去掉。
对于有无电梯特征可以分析一下北京各个区域电梯数量的TGI。
在数据概览的时候我们就发现Elevator特征有大量的缺失值。这对我的分析有很大的影响。
这么多的缺失值怎么办呢这个需要根据实际情况考虑常用的方法有平均值中位数填补法直接移除或者根据其他特征建模预测等。这里面我考虑填补法但是有无电梯不是数值不存在平均值和中位数我想到一种填补的方法
可以根据经验根据Floor来判断有无电梯一般楼层大于6都是有电梯而小于等于6层一般都没有电梯。
改进以上的填补法其实是基于我们的生活经验做出的一种假设现实问题建立模型中总是缺少一些信息条件这时候就要做出一些合理的假设使条件完备再继续分析。假设越接近于现实引入的误差也就越小考虑上面的方法以6层为分割线c;以下就是无电梯以上就是有电梯好像有些太绝对了。我修改一下假设的填补条件如果一个小区只要包含一个高于9层的房子或包含一个有电梯的房子那么这个小区有缺失值的房子就是有电梯的反之则扔保留空缺值。
对于Floor特征可以分析不同楼层的二手房数量分布以及楼层与房价的关系。
分析从图表中可以观察到6层二手房的数量最多有一个数量增长上的飞跃。
总结从求和图表可以更加明显地看出从5层到6层有一个断崖式地增长表明6层的二手房的数量最多而且还能看出大多数的二手房都是28层以下的29层~57层的数量非常少。
房屋的建造年份与房屋的产权年限直接相关也是二手房买卖中买家会比较看中的一点对于Year特征可以从建造时间与房屋价格的关系与size特征结合分析定义老破小房屋分析全市与市里各区域老破小房屋的TGI比例关系来分析。
从上图中可以看出1990年前房屋建造的数量比较少1990年到2005年一直持续走高2006年有开始急剧下滑。
综合上图的分析以及之前房屋面积特征的分析在分析之前要先对老破小下一个定义做一个假设再进行下面的分析。这里定义size40且year1990,满足这两个条件的房屋就是老破小。
分析西城东城海淀朝阳四个大区的老破小TGI比全市的要高说明这四个区域的二手房老破小的占比要高于北京市的平均水平其中西城和东城的比率最高。其他的区域二手房老破小的占比要低于北京市的平均水平。
对于Direction特征我们可以分析房屋朝向的数量分布以及和价格的分布关系bsport体育。
从上表中可以看出有很多脏数据朝向名称混乱还有平米数的错误数据要把这些数据去掉。
分析双轴图可以在同一个维度上观察不同特征的分布情况并进行对比。由以上两图可以看出南北朝向的房屋数量是最多的南北朝向的房屋通透采光好符合买房者的需求开发商在建造房屋时应该会尽量增加南北朝向的房屋。在价格分布上东西南北朝向的价格最高应该是别墅。东西南北单朝向的房子价格均偏低尤其是朝北的房子。
分析观察上图在朝向相同的情况下房屋的平均价格和平均面试仍是处于正相关的这与之前在画价格与面积的散点图得到的结论是一样的。
分析表中的数据各个特征的的关系基本上符合之前分析的规律。除此之外在网上查阅了万柳的房价为什么这么高
大致回答万柳毗邻世纪金源购物中心万柳高尔夫球场中关村三小非常优越。还有一些小区整体客户定位就是富人房型较大社区基础设施建设较好地近三环接近市中心等。
总结从以上数据与图表的分析来看现有的数据只能分析出影响二手房房价简单的具有线性关系的因素对于准确的定位还欠缺一些重要的特征数据比如是否是学区房交通是否便利等。
Size特征北京大多数二手房面积均小于160平方米房屋面积与价格呈线性关系
Year特征西城区和东城区二手房老破小数量占比远超全市水平
District特征对于二手房房价的准确定位需要更多的特征数据
综上我利用sql对链家北京市二手房的交易数据进行了多角度的分析更加熟练了sql的使用以及数据可视化有了更新的认识但是还有很多需要改进的地方