bsport体育在本分析中,我们分析的目的是分析上海链家网上的二手房的价格与该房的哪些属性有关。统计中,房屋的属性有:小区名称、户型、面积、区域、楼层、朝向、价格、单价、建筑时间。
关于链家二手房信息的整体展示如图1所示。在上海市的统计范围内总共有28201套二手房,其中存在缺失的属性有:朝向、建筑时间。我们需要在之后的分析之中分析该部分缺失值与我们最终分析的指标是否具有相关性。
如图2所示,使用pandas的describe()可以看到数据集中所有numeric数列的基本情况。一共有28201套房源信息,上海二手房目前的平均单价是59735.836034元/平米,最贵房源单价为199639元/平米,最低房源单价为8996元/平米,平均房屋面积为96.218136平米,房屋总价的中位数为430万元。
为了直观明了的了解房屋的属性,我们利用matplotlib进行绘图,根据绘图结果做进一步的分析。链家网上二手房的户型如图3所示。
如图3所示,上海二手房户型的统计及其数量如表1所示,将数量低于500的户型划分为一类.
随之对二手房所属的区域进行统计分析,众所周知,房价的高低与其所属位置有着莫大的联系,所以对房屋所属的区域进行统计分析至关重要。如图4所示,是对房屋所属区域的统计。
如图4所示,上海二手房所属区域的统计及其数量如表2所示。浦东的二手房相对其他区域而言,较多;静安、金山、崇明的二手房最少,我们在后面建模的时候可以考虑将这三个区域划分为一类(其他区域);除上述四个区域以外,其他区域的二手房数量相对都比较均衡。
房屋的朝向也是我们在购房时候的一个考虑因素,在购房时,大多数人都会考虑房屋的采光、风水等问题,因此对房屋朝向的统计分析也十分重要。上海链家网二手房房屋朝向如图5所示。
显而易见,绝大部分的房屋朝向为朝南北或者朝南,因此我们可以将剩余的房屋朝向划分为一类,及得到三类房屋朝向:朝南北、朝南、其他朝向。房屋朝向的数据统计如表3所示。
房屋的面积大小是房屋总售价的直接因素,我们根据面积的大小对房源面积进行分组,最终得到8个分组,如图6所示。
如图7所示,是我们根据房源所在的区域对房源的单价、总价格、面积进行的一个统计,并且根据单价进行排序,显而易见,在购房时房屋的价格与其所处的区域联系甚密。比如静安是上海的市中心,其房价高是必然的,但是该处房源平均面积没有黄浦的大bsport体育,房价最便宜的是崇明,崇明是一个岛屿,离上海的中心甚远。
如图8所示,是根据小区房源的单价进行排序,得到的单价最高的十个小区,以及单价最低的十个小区。可以发现,单价最高的三个小区,房源的平均面积都相对较大,单价基本在19万元/平米左右。单价最低的小区,单价介于1.1万元/平米~1.55万元/平米之间。
以上两个房价的分析是我们根据房屋所属的区域、小区进行的统计分析,于我而言,许多地方的房价只能是远远的观望。
在购房时,我们还会将房屋的修建时间考虑在其中,因此,对房源的修建时间及其单价进行统计分析如图9,我们可以看到,并不是房屋修建的时间越长,价格越便宜,可以发现,上海二手房房价较高的房屋的修建时间大部分都比较老,并且面积相对较小,我们之后可以针对房屋的修建时间,统计一下该时间段的房源所处的区域。
如图10所示,为上海二手房平均年份和房屋面积的散点图,我们可以看出,随着时间的变化,房屋的面积也发生着变化,在1940年以前,仍然存在的房屋的面积差异性较为明显,1950年~1990年期间,房屋的面积都较为均匀,1990年以后,人们对于房屋面积的需求越来越大bsport体育,于是出现了许多大面积的房屋,这也间接反映了上海经济的发展。
上面只是对链家网上上海二手房数据的初步的分析,尚未进行建模分析。在购房时,我们可以根据自己所能承受的范围进行房屋区域、修建时间、面积、小区的一定选择。