bsport体育数据集由原作者于2016年12月爬取2011-2016年链家北京二手房成交数据,保存在7个csv文件中,总数据量约16万2千条。预览如下:
6.依据开店年限和年均成交量,对所有门店进行分类,找出业绩持续走低的门店
将7个csv文件合并导入spss软件中,共有162226条数据,其中有14958个重复值,直接删除重复值后的数据量为147268个,有4条数据的成交时间是在2011年以前,也直接删除,还剩下147264条,占原始数据源的90.8 %。
1.将包含【成交小区/户型/面积】、【楼层朝向/楼层属性/楼层数】的字段进行分列,将户型类别按照居室数量进行分类;
2.将【成交单价】去掉单位元/平并转换成数值类型、【成交时间】去掉签约时间,并从日期中提取年份、季度、月份,并组合成字段【年月】;
3.从原始表中整理出各门店历年成交数量的明细,并利用第一次成交数量不为0的年份计算门店的开店年限(假设2011-2016年每年没有关闭门店的情况),统计每个门店成交数量、人数,见如下表1门店成交明细;
由上图可知,2011-2016年,链家平台北京二手房的成交数量持续增加,其中2015年的增长幅度最大。通过进一步了解,得知2015年政府出台多项政策放开房产市场,另外链家2014年11月主导o2o战略落地,平台进入一个飞速发展期,因此才有进入2015年后,成交数量增幅显著的成果。
近几年,北京二手房的成交单价在不断上涨,其中2013-2015年连续三年,房价比较平稳,上涨幅度较小,其余年份上涨幅度较大,尤其是2016年,成交单价相比2015年涨幅接近万元,这6年时间,整体成交单价实现翻翻。
除去部分户型值为空和错误值的户型bsport体育,还有146139个有效值,按居室数量来分,共有1~9个户型类别,考虑5居室及以上的户型归为一类,因此最终有5个户型类型。这些户型数量分布绘制饼图如下:
可以明显看出,2居室的户型成交量最高,也意味着最受市场欢迎,其成交量占到所有户型的一半以上,其次是3居室和1居室的成交量高,两者均占到所有成交量的20%以上,4居室及以上的户型很少,总共占比不到3%。
上图是历年各成交户型所占比例条形图,显然每年二手房市场上对各户型需求的比例变化不大,即历年对2居室的户型需求量最大,稳定占到所有户型的50%左右,1居室和3居室也是市场需求的主力,4居室及以上的户型需求很少。
由上面两图可看出,2011年,门店的数量和成交人数最低,2012-2016年,新开门店的数量以每年100~200的增幅在稳步增长,但是成交人数量的增长却与门店并不相同,2012-2014年,成交人每年增加的数量小于1000,但是2015年后,每年增加数量大于2000。
而在平均成交量的变化规律中,门店和成交人比较一致,即2011年,平均成交量最低,2012-2014年,平均成交量处于中等平稳的水平,2015-2016年,平均成交量处于较高的稳定状态,这也说明链家平台2014年底的战略措施和2015年政府对房产政策的放开,对门店和个人均有明显的影响。
截止到数据采集日期,北京共有1683个门店,根据开店年限这些门店分布情况如下图:
由图可知,开店年限为6年的门店数量最多,为584家,占到所有门店数量的34.7%;其次为年限有5年的门店数量,有452家,占比为26.9%;5年和6年的老店共有1036家,占所有门店数量的61.6%,而1~4年的门店数量均约在100~200之间(这与前面分析历年门店数量变化规律相一致),总共占比不到40%。
从图中看出,6年的门店的成交量最多,有80517个二手房成交,占比超过所有成交量的一半,达54.68%,其次是5年门店成交量,有45590个房子成交,占比达30.96%。
6年和5年的门店的成交量之和为126107,总占比达85.7%。其余1-3年的门店总成交量之和占比不到15%
即6年和5年的门店门店数量占比61.6%,而总成交量占比85.7%,说明老店的二手房成交几率比新店更高。
绘制历年成交量中各年限门店成交量的条形图如下,很明显,5-6年的老店是历年成交量的主力。
由上图可知,随着门店的开店年限的增高,每个店的平均成交量也在增加,并且5年和6年的老店,平均成交量大于100,而其余1-4年的门店成交量远低于5-6年的老店。
上图显示,3年以上的老店人均成交量较高,都在5套左右,1-2年的新店人均成交量较低,不到4套。
明显成交人的数量呈右偏态分布,门店平均有成交人的个数为5.33,人数最多的有20人,最小的仅1人,绝大部分门店的人数不超过10人。
由散点图可知,门店的总成交量与成交人数量存在较强的线性关系,即门店人数越多,成交量会越高。
另外值得留意的是,1683个门店中,数量在10个成交人以上的门店都是5-6年的老门店,新门店的成交人数普遍在个位数。
由图可知,总体而言,不论开店年限多少,门店在开张第一年的成交量会偏低,在开店的第二年后,人均成交量都会有所上升,这也解释了前文1-2年的新店平均成交量明显低于3年及以上门店的原因。
2013-2014年的人均成交量相比2012年有明显下滑,结合这段时期北京出台了史上最严的房产调控政策,这个变化也在情感理之中。
前文了解到,5-6年的老店是贡献成交量的主力,毫无疑问老店中有不少成交量高业绩好的明星门店,但是也存在成交量持续走低的门店。
由图可知,584家6年老店实际上只有532个店每年有开单成交,其余52家门店有1-3年没有成交量。452家5年老店实际上399个店每年有成交量,其余52家门店有1-3年没有成交量。
显然,2013-2014年无成交量的门店数量大幅上升,再一次验证那两年北京的房地产严控政策的影响。
经统计,链家6年来共有8274个员工有成交量,统计个人历年的成交量之和,并将成交量按照50套以下、50~100套、100套以上分为三类,其成交量的频率在条形图中的分布如下:
由图可以看出,8274个成交人中,8038人的成交量在50套以下,占比97%;100套以上成交量的人很少,仅有26人,占比仅0.3%;取得最大成交量的员工姓名是张博,成交了201套。
那么个人的总成交量与其从业年限是否相关呢?由于从业年限为有序分类变量,而成交量为连续变量,所以考虑要spearman相关性系数检验,检验结果如下表:
spearman系数值为0.704,认为个人从业年限和成交量有较强的正相关性,即个人从业年限越长,总成交量可能会越高。
那么是否真的从业年限越高,个人平均年成交量会越高吗?同样对这两者进行spearman相关系数检验,结果如下:
相关系数值等于0.405,说明二者有正相关性,但并不是很强,也就是说,可能存在从业年限不多,但是年均成交量高的黑马人。
聚类K值与组内误差平方和SSE的关系图如上,当把所有样本当作一类时,离差平方和达到最大,随着聚类数量的增加,组内离差平方和会逐渐降低,直到极端情况,每一个样本作为一类,此时组内离差平方和为0。从上图看,聚类数量在6次以上,组内离差平方降低非常缓慢,可以把拐点当作6,即聚为6类。
从上表可知,业绩很好年均成交量很高的门店有19个,主要分布在4年以上的老门店中;业绩一般的门店数量最多,有541个;最需要关注的是业绩很差的老门店,数量有414个,需要详细调查成交量连年偏低的原因,并根据实际经营状况,采取适当的措施对这部分门店加以整改,必要时可考虑将一些长期业绩不佳的门店关闭 。
经过以上2011-2016年对各门店及个人成交量的分析,总的来说,可以总结为以下几方面:
历年来,二手房市场对户型需求最多的是2居室,占比达所有户型的一半,其次是1居室和3 居室,4居室以上的户型需求极少;
2012年以来,链家新开门店数量以每年100-200的平稳速度在增长,但是门店员工在2015年以前以小于千人的较小幅度在增长,2014年底平台O2O战略落地,人员开始大幅 扩张,2015年以后每年新增2000人的极大幅度增长;
虽然2011年链家平台的总成交量很低,仅千余套,但2012-2014年的总成交量稳步上升并都在万套以上,年均成交增长量3000套;之后得益于平台战略和政府政策的开放,2015-2016年,总成交量有了迅猛提升,年均成交增长量达2万套以上;
5-6年的老门店是历年二手房的成交量主力,当然这可能与老店的从业人数多于新店有 关;3年以上的门店的人均成交量在5套左右,明显高于1-2年新门店的人均成交量(仅3余套),可能与新店开张第一年人气不高、成交量普遍偏低有关;
2013-2014年受北京房地产严控政策的影响,使得链家有小部分门店没有成交量,其中5-6年老店无成交量的门店数量均达到20-40家/年;
总体而言,个人的成交量与从业年限有一定的正相关性,但是并不绝对,有从业年限不长的销售人员的成交量高的可能。
最后依据5-6年老店总体人均成交量对其排序,以下是部分门店历年人均成交量的截图。
以下是从业年限在2年以下年度成交量高的黑马销售名单(在8274个人的排名中占到前100位的有20人):
以下是年度成交量排名前10位的销售名单,除去第10位的于洋,其余都是4年以上的从业人员: