您好, 访客   登录/注册

基于多变量自回归分析的北京房价预测研究

来源:用户上传      作者:

  摘 要:房价一直是一个备受全国上下关注的热点问题。无论是房地产商家还是准备购房的消费者,合理的估计房价的走势,或是正确的预判某套房子的市值变化趋势,都可以使我们尽可能达到获益最大。对北京市近十年的房价进行了研究,利用回归分析的方法,建立了月均房价的波动走势预测模型,对北京市2010年至2018年的月均房价走势进行研究。根据房价数据特点,我们以2017年3月颁布的限购政策为分界点,分为2010-2016年和2016-2018年两段,分别分析了房价的线性增长规律、周期性波动规律和政策影响波动规律,引入“政策影响期”的虚拟变量,最后完成了经多次优化改进的回归模型,在2010-2018年北京月均房价数据集上体现出非常好的拟合和测试性能。
  关键词:北京房价预测;时序回归分析;房价政策影响因素
  中图分类号:TB 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.06.092
  1 前言
  房地產行业作为国民经济新的增长点,为全国各地大中小城市的经济快速增长做出了巨大贡献,但是由于缺乏必要的法律监管制度,在巨大的市场需求和不菲的利益驱动下,近十五年来,我国房价不断攀升,尤其是在一线城市,已经出现了十万以上的天价。一些无良开发商,囤积土地,延迟开发,造成极大的资源浪费。还有一些偏远地区开发商,错估了形势,胡乱开发,建造了不少永远无人问津的“鬼楼”。从历史规律来看,房产并不能永远增值,每一个房子的市值变化,其背后都隐藏着可预见和不可预见的影响因素。因此,不管是想要抓住最佳时机的购房者、还是想卖出最合理售价的房产人,都需要对房价的走势和房价的影响因素有一个较为准确的预估和预判。
  本文以北京市及周围地区的商品房为主要研究对象,对北京市近十年的房价进行了研究,利用回归分析的方法,建立了月均房价的波动走势预测模型,对北京市2010年至2018年的月均房价走势进行研究。根据房价数据特点,我们以2017年3月颁布的限购政策为分界点,分为2010-2016年和2016-2018年两段,分别分析了房价的线性增长规律、周期性波动规律和政策影响波动规律,引入“政策影响期”的虚拟变量,最后完成了经多次优化改进的回归模型,在2010-2018年北京月均房价数据集上体现出非常好的拟合和测试性能。
  与同类型其他研究相比,本文通过时序得出房价-时间关系式,建立了模型并不断优化,因为选取了合适的自变量,预测性能与他人相比有了较大的提高。这也说明了,模型并非越复杂越好,而是需要根据具体情况具体分析,并遵循数据挖掘科学的思想进行充分探讨,才会得到比较贴近真实的预测结果。本文尤其对楼市政策对房价的影响进行了深入研究,并刻画了房价周期性波动的规律,为未来的投资提供有价值的参考。
  2 通过自回归模型得出房价的时序关系式
  本章通过从房地产网站搜集资料,建立北京市近十年(2009/1-2018/2)的房价按时序排列的数据库,为了方便后期计算,将月份从2009年1月起,采用1-110编号的形式将其标注。采用不同类型的函数进行线性回归,以此来拟合房价的变化趋势,根据拟合优度、p-value等,从中选出拟合程度最好的一种作为预测模型。
  本章主要研究并建立时间序列预测模型,用到北京月均房价数据是由安居客网站提供,时间从2010年2月至2018年2月。数据的整体走势如图1所示。
  2.1 模型基本假设
  (1)房地产市场整体平稳,不会因为外界扰动而发生突变。
  (2)根据图像观察可知,在研究对象的时间范围内,北京市房价包含两种长期走势:线性增长特征和周期性波动特征。
  (3)2017年3月北京市出台关于完善商品住房销售和差别化信贷政策,受到该政策的影响,北京房价产生了短期的政策影响波动,假设政策影响分为颁布前期、房价抑制期和反弹振荡期三个阶段。
  2.2 模型一:一元线性回归模型
  首先,我们以时间变化为回归变量,以“月”为单位,建立了最简单的一元线性回归预测模型,来刻画房价的线性变化趋势。对于年月信息的处理如下:以2009年12月作为起始,往后第1个月记为1,往后第二个月记为2,……,往后第n个月记为n。表达式如下:
  本文利用excel的数据分析工具进行拟合,同时将训练集测试集划分为:
  (1)训练集:2010年1月——2016年10月。
  (2)测试集:2016年10月——2018年1月。
  得到的拟合结果为表1。
  因此,得到模型表达式为:y=311.51t+20597.47,拟合优度为R2=0.8748,说明该模型在训练集上的拟合性能还有提升空间。之后在测试集上对该模型的预测性能进行测试,并且计算均方根误差参数来衡量预测性能,RMSE=8215.43,预测性能不够理想,从图2真实房价和预测房价的对比也可以看出简单的线性模型不能较准确地预测房价,模型需要进一步优化。
  2.3 模型二:加入周期波动预测模型
  通过研究一元线性回归模型的残差,如图3,可得出训练集上的残差具有很强的周期性规律,这种非线性变化的部分反映了北京市房价长期的周期波动特征。因此,考虑在后续的模型优化中,加入三角函数特征表达式,来反应房价的长期波动走势。
  因此,在模型中加入sinωt和cosωt表达式,利用正弦和余弦函数的叠加反应任意相差的周期函数。优化后的模型表达式如下:
  根据图3训练集残差走势,观察得该函数的波动周期T=38,根据ω=2πT得知ω=0.165。训练集与测试集保持不变,利用excel进行拟合分析得到的参数,见表2。
  该模型的拟合优度R2=0.9712,比之前有了相当高的提升。说明该模型在训练集上具有很好的拟合效果,如图4所示。与图3相比,可以明显看出该模型加入周期波动函数后,对于房价波动性描述更为有效。   然而,在图4中也可以看出,该模型的测试集预测性能依然没有达到预期,RMSE=5476.19,特别是2016年10月以后的房价波动规律几乎不能反映出来。究其原因,主要是因为2017年3月17日北京市颁布的“史上最严格房价调控政策”,打破了房价系统的稳定性,使该系统不再满足稳定性假设,因而难以使用历史数据进行预测。基于此,我们进一步优化模型,在模型中加入“政策影响”修正量,使模型性能进一步提高。
  2.4 模型三:引入“政策影响”修正量的回归模型
  通过对2016年10月后的房价波动规律观察,我们发现政策带来的影响同样是具有一定的波动周期的。通过对大量文献的研读和对时政的分析,我们认为政策的颁布会对房价产生三个阶段的影响:
  (1)颁布前期(2016年11月——2017年3月):这个阶段政策尚未颁布,但关于政策的消息和风声已经广为流传。因此,房产市场无论是卖方还是买房都希望能够在政策颁布前完成购房买卖,尽量降低政策对自己带来的影响。这种心态引发了一波交易量的迅猛上涨,也连带着导致了房价的飙升。
  (2)房价抑制期(2017年3月——2017年8月):这个阶段政策刚刚出台,其严格的规定对房地产市场产生了极大的抑制作用,使交易量迅速下降至冰点,因而房价也一路狂跌直至2017年夏天。
  (3)房价波动期(2017年8月——2018年):由于很多人购房存在刚性需求,几个月的交易量抑制后必然会存在反弹,并随着2017年冬天的到来再次下降。后续的波动依旧存在,虽然我们很难预测政策影响的波动期会持续多久,但毫无疑问2018年年初仍然在政策影响的范围内。
  经过以上的分析,我们在模型中引入“政策影响”修正量P,以虚拟变量的形式存在。P可以取值0和1,当市场处于政策影响期时,P取1;市场处于非政策影响期时,P取0。因此优化后的模型表达式为:
  其中φ为被这一轮政策影响的第一个月份的t值,本文研究中对应为83。与前文同理,通过观察得政策波动函数的波动周期约为T=10,用k=2πT求解k=0.628。划分训练集和测试集为:
  (1)训练集:2010年1月——2017年5月。
  (2)测试集:2017年6月——2018年1月。
  利用excel进行拟合分析得到的参数结果,代入表达式得到最终的模型为:
  Y=338.69t+3632.37sin0.165t+22891.51+4785.55sin(0.628(t-83))
  最终拟合得到的拟合优度为R2=0.98597,说明该模型在训练集上具有更好的拟合效果。之后在测试集上对该模型的预测性能进行测试,得到RMSE=1369.87,如图6,可以看出考虑政策影响因素后,模型能够很好地反应出北京房价变化的规律,训练集和测试集均具有良好的性能,说明该模型并不存在过拟合的问题。这种结果支持了我们对于房价的线性增长、周期性变化和政策波动三个特征相叠加的假设。
  3 总结与分析
  本文对北京市近十年的房价进行了研究,利用回归分析的方法,建立了月均房价的波动走势预测模型,对北京市2010年至2018年的月均房价走势进行研究。根据房价数据特点,我们以2017年3月颁布的限购政策为分界点,分为2010-2016年和2016-2018年两段,分别分析了房价的线性增长规律、周期性波动规律和政策影响波动规律,引入“政策影响期”的虚拟变量,最后完成了经多次优化改进的回归模型,在2010-2018年北京月均房价数据集上体现出非常好的拟合和测试性能。
  总的来说,我们共构建了三个模型,分别是一元线性回归模型、加入周期因素的回归模型和加入政策影响因子的回归模型。三个模型的性能总结如下:
  (1)一元线性回归模型:R2=0.8748,RMSE=8215.43。
  (2)加入周期因素的回归模型:R2=0.9712,RMSE=5476.19。
  (3)加入政策影响因素的回归模型:R2=0.98597,RMSE=1369.87。
  可以看出,随着模型的不断优化,训练集和测试集上的性能都在不断上升,说明模型越来越接近于数据客观存在的规律。然而即使最完善的时间序列预测模型,也很难达到非常精准的预测,因为模型中考虑因素少、忽略了一些重要的影响因素。因此,在后续研究中,我们可以再进一步探究多种影响房价的因素,并提高对未来的房价预测的性能。
  参考文献
  [1]Zhu H,Xiong H,Tang F,et al.Days on Market:Measuring Liquidity in Real Estate Markets[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2016:393-402.
  [2]Min Hwang and Quigley,John M.Economic fundamentals in local housing markets:evidence from U.S.metropolitan regions[J].Journal of Regional Science,2006,8(46):425-453.
  [3]王聰.基于多因素LOGISTIC的城市房地产价格预测模型研究[D].大连:大连理工大学,2008.
  [4]牛刀.稳定房价——政府与地产商的博弈[EB/OL].(2006-06-10).http://www.niudaoblog.com/shichang/285.html.
  [5]多元回归分析[EB/OL].https://baike.baidu.com/item/多元回归分析/10843316?fr=aladdin.
  [6]自回归模型[EB/OL].https://baike.baidu.com/item/自回归模型/1037587?fr=aladdin.
转载注明来源:https://www.xzbu.com/2/view-15332454.htm