房价走势前瞻模型构建方法、装置及存储介质与流程

文档序号:17444291发布日期:2019-04-17 05:18阅读:129来源:国知局
房价走势前瞻模型构建方法、装置及存储介质与流程

本发明涉及数据处理技术领域,尤其涉及一种房价走势前瞻模型构建方法、电子装置及计算机可读存储介质。



背景技术:

中房指数系统是一套以价格指数形式来反映全国主要城市房地产市场发展变化轨迹与当前市场状况的指标体系和分析方法。中国房地产指数系统覆盖北京、上海、天津、广州、武汉、深圳、重庆、杭州、成都、南京等17个重要城市,定期发布中国主要城市房地产价格指数。

然而,定期发布的中房指数无法满足投资者了解未来房价走势的需求,例如,无法解决投资者对未来房价的风险管理、资产配置的需求,且目前业内没有预测房价走势的模型。因此,需提供一种房价走势前瞻模型。



技术实现要素:

鉴于以上内容,本发明提供一种房价走势前瞻模型构建方法、电子装置及计算机可读存储介质,其主要目的在于提高房价走势预测的准确性。

为实现上述目的,本发明提供一种房价走势前瞻模型构建方法,该方法包括:

s1、获取指定区域在预设时间内的历史数据,从该历史数据中提取出预设长名单中的各第一类指标及房价指数的历史值;

s2、根据预设数据处理规则对所述第一类指标的历史值进行数据处理,确定所述预设长名单中各指标的历史值;

s3、根据预设的短名单生成规则,从所述长名单中筛选出多个指标作为目标指标,生成目标短名单;

s4、根据预设分析规则分析所述目标短名单中各目标指标相较于房价指数的最佳滞后期,并根据所述目标指标的最佳滞后期确定建模宽表;及

s5、利用所述建模宽表对预设机器学习方法进行训练,确定房价走势前瞻模型。

此外,本发明还提供一种电子装置,该装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的房价走势前瞻模型构建程序,所述房价走势前瞻模型构建程序被所述处理器执行时,可实现如上所述房价走势前瞻模型构建方法中的任意步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括房价走势前瞻模型构建程序,所述房价走势前瞻模型构建程序被处理器执行时,可实现如上所述房价走势前瞻模型构建方法中的任意步骤。

本发明提出的房价走势前瞻模型构建方法、电子装置及计算机可读存储介质,利用历史数据确定预设长名单中各指标的历史数据,分别对各指标对房价指数的预测能力进行评估,筛选出最具解释力的指标生成短名单;分析短名单中各指标相较于房价指数的最佳滞后期,确定建模宽表;利用建模宽表中不同入模指标组合的数据对多种机器学习方法进行训练,并选择出平均误差最小者作为最终的房价走势前瞻模型,提高了对未来房价走势预测的准确性。

附图说明

图1为本发明房价走势前瞻模型构建方法较佳实施例的流程图;

图2为本发明电子装置较佳实施例的示意图;

图3为图2中房价走势前瞻模型构建程序的程序模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种房价走势前瞻模型构建方法。参照图1所示,为本发明房价走势前瞻模型构建方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

在本实施例中,房价走势前瞻模型构建方法包括步骤s1-s5:

s1、获取指定区域在预设时间内的历史数据,从该历史数据中提取出预设长名单中的各第一类指标及房价指数的历史值。

其中,第一类指标及房价指数的历史值以时间序列的形式存在。

历史数据为各类可能影响房地产价格的经济因素及政策因素等数据,例如,包括:各类宏观经济指标、中观经济指标、政策法规及挂盘交易数据等。上述宏观经济指标包括:gdp、cpi、pmi、人均可支配收入等;上述中观经济指标包括指定区域的城市化率、地铁里程、人均住房面积、商品房待售面积等;上述政策法规包括:房地产限售限购政策、首套房利率政策、城市中长期发展规划等。

预设长名单为预先设置的影响房价指数的所有指标的集合,长名单中包括:第一类指标、第二类指标、第三类指标。其中,第一类指标的历史值可从历史数据中直接提取,第二类指标为衍生指标,需通过对第一类指标计算得到,第三类指标为对第一类指标及第二类指标进行指标转换后得到的指标。

对历史数据中的各因素进行量化,确定各第一预设指标在预设时间(例如,2001年1月至2018年7月)内每个单位周期(例如,每个月)的历史值。以“居住人口”这一指标为例,该指标的历史值为[h1、h2、…、hi、…],其中,hi表示在预设时间内的第i期的居住人口数。

s2、根据预设数据处理规则对所述第一类指标的历史值进行数据处理,确定所述预设长名单中各指标的历史值。

根据第一类指标在预设时间内的历史值,依次确定预设长名单中第二类指标及第三类指标的历史数据。

优选地,步骤s2包括:

a1、根据预设的缺失值填补规则,对存在缺失的第一类指标的历史值进行填补,得到填补后的第一类指标的指标数据;

各第一类指标的历史值可能因为工作周期等原因存在缺失,为保证数据完整性,需首先对各第一类指标进行缺失值填补。在本实施例中,预设的缺失值填补规则包括:

分别计算各第一类指标的历史值的缺失率;

对于缺失率小于或等于第一预设阈值的第一类指标,根据指标性质及指标缺失情况,对存在缺失值的各第一类指标进行缺失值填补;及

对于缺失率大于第一预设阈值的第一类指标予以剔除。

以“房交易量”这一指标为例,该指标的历史值的缺失率的计算公式为:

α=n1/n2

其中,α表示指标的历史值的缺失率,n1表示该指标缺失历史值的数量,n2表示该指标历史值的总量。

第一预设阈值可以根据需求进行调整,例如,第一预设阈值为30%。当指标缺失率超过第一预设阈值时,可能存在其根据其余可获得数据源也无法填补的情况,对该类指标予以剔除。当缺失率小于或等于第一预设阈值的第一类指标,缺失值填补包括以下几种情况:

对于周期性、季节性缺失的第一类指标,例如,由于工作周期造成每年1月份、2月份数据周期性缺失。为了增强数据的可比性,需对1月份、2月份的指标缺失值进行填补。若缺失的第一类指标为累计值,则以当年度3月份数据的三分之一、三分之二分别作该年1月份、2月份的指标缺失值进行填补;若缺失的第一类指标为当月实际发生值,则以该年3月份的指标值作当年度1月份、2月份的指标缺失值进行填补。

对于无规律性缺失的第一类指标,若缺失的第一类指标为累计值,则根据缺失当月前后一个月的指标值进行线性插值填补;若缺失的第一类指标为当月实际发生值,则以距离当月(即,缺失月)最近6个月均值进行填补。

对于部分特殊指标,例如“施工面积”等指标,由于该指标性质的特殊性,可采用该年度平均增长率倒推进行指标缺失值填补。

a2、根据预设衍生规则对所述填补后的第一类指标的指标数据进行变频及衍生处理,确定所述长名单中各第二类指标的指标数据;

在本实施例中,所述预设的指标衍生规则包括:分别计算统计时间间隔为一季度、半年度、一年度的各第一类指标对应的月度数据;根据各第一类指标对应的月度数据计算各第二类指标的历史值。

第二预设指标需根据现有的一个或多个第一类指标的历史值计算获得。其中,衍生指标的计算方法可以包括相除、相减等方法。

然而,有的第一预设指标的统计周期并不是一个月,因此,需先对该类第一类指标进行指标变频处理。例如,假设“gdp”这一指标为季度数据,“常住人口”这一指标为年度数据,通常使用连续两个季度或者两个年度的历史数据进行线性插值,对这两个指标进行变频处理,计算出对应的月度数据,然后,计算衍生指标的历史值。例如:“常住人口/户籍人口比”这个衍生指标由“常住人口”和“户籍人口”这两个指标衍生得到。

a3、根据预设转换规则对所述第一类指标及第二类指标进行指标转化,确定所述长名单中第三类指标的指标数据。

确定各第一类指标、第二类指标的历史指标数据后,再对其进行指标转化,预设转化规则包括:3个月环比、一年同比、标准化、归一化及原始值。

例如,对于“房交易量”这一指标,计算其3个月的环比值;对于累积值指标,例如,“销售面积”这一指标,计算其一年同比值;对于指标历史值为比率的指标,会使用原始值;对于指标历史值相差较大的指标,对该指标各期的历史值进行归一化;对于单位不一致的指标,进行标准化处理等。

需要说明的是,在指标转化过程中,部分第三预设指标(例如,需同比转化的指标),由于原始数据起始时间的局限性,会出现转化后数据缺失的情况,该类指标缺失值可以将指标转化后数据的中位数作为缺失值进行填补。

s3、根据预设的短名单生成规则,从所述长名单中筛选出多个指标作为目标指标,生成目标短名单。

在本实施例中,该步骤包括:

b1、分别对所述长名单中的各指标与房价指数的历史数据进行单变量检验,筛选出通过单变量检验的指标生成第一短名单;及

b2、获取预设的第二短名单,合并所述第一短名单和所述第二短名单,生成目标短名单。

在本实施例中,单变量检验包括:相关性检验、经济含义检验及t检验。优选地,步骤b1包括:

c1、分别计算所述长名单中各指标与房价指数之间的相关系数,当相关系数绝对值大于或等于第二预设阈值时,判断通过相关性检验;

获取房价指数的历史值,计算各期房价指数的历史增长率(例如,三个月环比、一年同比等),分别获取目标数据集中各预设指标的历史值及房价指数的历史增长率,并分别生成对应的时间序列,根据预设的相关系数计算方法,计算各预设指标与房价指数之间的相关系数。预设的相关系数计算方法包括:皮尔逊相关系数,斯皮尔曼相关系数等。若相关系数的绝对值越接近1,说明相关性越强,绝对值越接近0,说明相关性越小。当相关系数大于0时,为正相关,当相关系数小于0时,为负相关。

第二预设阈值可以根据需求进行调整,例如,第二预设阈值为0.6。

c2、分别获取所述长名单中各指标的经济含义及对应的相关系数,当经济含义与相关系数同向时,判断通过经济含义检验;

预先设置长名单中各指标的经济含义并保存。若某指标的经济含义为正,说明该指标的指标值越大,其对房价具有促进作用,反之,若该指标的经济含义为负,指标值越大,其对房价具有抑制作用。当指标的经济含义与相关性同向时,判断该指标通过经济含义检验,当指标的经济含义与相关性反向时,判断该指标未通过经济含义检验。

例如,“房屋交易量”、“m2(同时反映现实和潜在购买力)”、“居民收入”等指标与房价为正相关性,“利率”这一指标与房价为负相关性。当计算得到“居民收入”这一指标与房价指数的相关系数为正数时,其经济含义与相关性同向,判断经济含义检验通过。

c3、分别对所述长名单中各指标与房价指数进行t检验,当t检验中p值小于或等于第三预设阈值时,判断通过t检验;

第三预设阈值可以根据需求进行调整,例如,第三预设阈值为0.05。

当指标在t检验中的p值小于等于0.05时,判断指标通过t检验,反之,当p大于0.05时,判定t检验不通过。

c4、从所述长名单中筛选出相关性检验、经济含义检验及t检验的检验结果均为检验通过的指标作为目标指标,生成第一短名单。

对长名单中的各指标进行单变量检验的目的在于,根据指标是否通过单变量检验从长名单的各指标中筛选出最具解释力的指标,以生成第一短名单。

上述第二短名单为预先确定的,第二短名单中各指标是专家认为对房价影响较大的指标。需要说明的是,第二短名单中的指标不一定通过了单变量检验,不同的城市对应的第二短名单不一定相同。

合并上述第一短名单及第二短名单中的指标,生成目标短名单,使目标短名单中的指标更全面。

s4、根据预设分析规则分析所述目标短名单中各目标指标相较于房价指数的最佳滞后期,并根据所述目标指标的最佳滞后期确定建模宽表。

房价指数对不同指标的敏感度不一样,有的指标对房价指数的影响会在短期内体现,有的则会在较长时间才会体现,因此,需确定每个指标对房价指数产生影响的时间,即,确定最佳滞后期。

在本实施例中,所述“根据预设分析规则分析所述目标短名单中各目标指标相较于房价指数的最佳滞后期”包括:

d1、对所述目标短名单中各目标指标进行滞后期衍生,确定所述目标指标在不同滞后期对应的房价指数的指标数据;

对目标短名单中的每个目标指标进行滞后期衍生,并确定不同滞后期下各目标指标的历史值所对应的房价指数历史值,例如,滞后期n可以为3,6,12,15,18,24等。以指标a为例,当n=3时,指标a在第t期的指标值与房价指数在第t+3期的值相对应。

d2、分别计算所述目标指标在不同滞后期下与房价指数之间的相关系数,选择相关系数满足预设条件者对应的滞后期作为所述目标指标的最佳滞后期。

在本实施例中,预设条件为相关系数的绝对值大于或等于第四预设阈值。第四预设阈值可很久需求进行调整,例如,第四预设阈值为0.9。

当某目标指标在不同滞后期对应的相关系数的绝对值均小于第四预设阈值时,无法确定该目标指标的最佳滞后期,为该类目标指标赋予一个默认值作为该类目标指标的最佳滞后期,例如,指定该类目标指标的最佳滞后期为3个月或者12个月。

相关系数的计算方法与步骤c1一致,这里不作赘述。

同一个指标在不同的滞后期对应着不同的相关系数,相关系数绝对值越大,其对房价指数的预测能力也越强,因此,选择相关系数绝对值最大的滞后期作为指标的最佳滞后期。不同指标的最佳滞后期不一定相同。

在其他实施例中,所述目标指标的最佳滞后期还可以通过显著性检验来判断。例如,分别对所述目标短名单中不同滞后期下的各目标指标与房价指数进行t检验,确定各目标指标在不同滞后期对应的p值,选择p值小于或等于0.05的滞后期作为各目标指标的最佳滞后期。

对不同滞后期下的各目标指标与房价指数的相关性进行显著性分析并不仅限于t检验,还可以采用其他分析方法,例如,u检验、方差分析、x2检验、零反应检验等。

建模宽表也可以理解为模型训练的样本数据,建模宽表中包括解释变量x及被解释变量y。其中,解释变量x为各目标指标,被解释变量y为房价指数的增长率,房价指数的增长率可根据房价指数各期的历史值计算得到。

确定各目标指标的最佳滞后期后,即可确定每一期被解释变量y与最佳滞后期下各目标指标对应的历史值,基于上述对应关系生成建模宽表。

s5、利用所述建模宽表对预设机器学习方法进行训练,确定房价走势前瞻模型。

在本实施例中,步骤s5包括:

e1、对所述目标短名单中的所有目标指标进行分组,分别从每个分组中获取一个目标指标,确定入模指标组合;

e2、获取所述入模指标组合中每个目标指标及房价指数的历史数据,确定所述入模指标组合对应的训练集、测试集;

e3、利用每个所述入模指标组合对应的训练集,对预设机器学习方法进行训练,构建每个所述入模指标组合对应的第一房价走势前瞻模型;

e4、利用每个所述入模指标组合对应的测试集,对各入模指标组合对应的第一房价走势前瞻模型的准确性进行测试;及

e5、从所述第一房价走势前瞻模型筛选出满足预设筛选规则的第二房价走势前瞻模型。

首先,对短名单进行分组配置,例如,在分组配置过程中,根据指标类型进行分组,例如,中观、宏观、衍生等。

在某一种机器学习方法的训练过程中,入模指标组合的数量为所有分组中选取1个目标指标的遍历,即,每个分组的入模指标数量控制在有且仅有一个。比如,若a组有3个指标,b组有2个指标,则组合数为3*2=6,共6种,每个组合的指标数量为2个。对于某一个入模指标组合而言,将该组合内各指标及房价指数在2001年1月到2017年7月的数据作为训练集,将该组合内各指标及房价指数在2017年8月到2018年7月的数据作为测试集。由于不同城市的数据质量不尽相同,若分组内某指标无数据,则该指标数量为零。

基于所有的入模指标组合,分别利用各入模指标组合对应的训练集对预设机器学习方法进行训练,构建初始房价前瞻模型。在本实施例中,预设机器学习方法包括:线性回归(linearregreesion)、lasso回归、岭回归(ridgeregression)、随机森林(randomforest)、k近邻算法(kneighbourregression)、决策树(decisiontree)、支持向量机回归(supportvectorregression,svr)、梯度增强回归(gradientboostingregressor)模型以及xgboost算法。也就是说,每个入模指标组合对应9个第一房价走势前瞻模型,6个入模指标组合对应6*9个第一房价走势前瞻模型。

为了确定同一个入模指标组合对应的多个房价走势前瞻模型中预测效果最佳的房价前瞻模型,利用该入模指标组合对应的测试集对多个第一房价走势前瞻模型进行测试,根据测试结果计算各第一房价走势前瞻模型的平均误差,选取平均误差最小的第一房价走势前瞻模型作为该入模指标组合对应的最优房价走势前瞻模型。

分别确定每一个入模指标组合对应的最优房价走势前瞻模型后,从各入模指标组合对应的最优房价走势前瞻模型后,选择平均误差最小的最优房价前瞻模型作为第二房价走势前瞻模型,即所有第一房价走势前瞻模型中最优的房价走势前瞻模型。

当需要对房价进行预测时,获取最终的房价前瞻模型对应的入模指标的相应历史数据输入模型中,模型输出结果即为预测的房价指数增长率,根据预测的房价指数增长率及当期的房价指数,即可计算出未来的房价指数。

需要说明的是,鉴于时间序列模型的局限性,时间序列对短期内的预测效果较为显著,在其他实施例中,依据预测时长对模型进行细分,例如,可以细分为:预测未来三个月房价走势的前瞻模型(model_3m)、预测未来一年的房价走势的前瞻模型(model_12m)。

与上述模型训练步骤的区别在于,对于model_3m,被解释变量y为房价指数三个月的环比值,对于model_12m,被解释变量y为房价指数一年同比值,解释变量x不变。

上述实施例提出的房价走势前瞻模型构建方法,利用历史数据确定预设长名单中各指标的历史数据,分别对各指标对房价指数的预测能力进行评估,筛选出最具解释力的指标生成短名单;分析短名单中各指标相较于房价指数的最佳滞后期,确定建模宽表;利用建模宽表中不同入模指标组合的数据对多种机器学习方法进行训练,并选择出平均误差最小者作为最终的房价走势前瞻模型,提高了对未来房价走势预测的准确性。

本发明还提供一种电子装置。

参照图2所示,为本发明电子装置1较佳实施例的示意图。

在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该电子装置1包括存储器11、处理器12,及网络接口13。

其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如该电子装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。

存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据,例如房价走势前瞻模型构建程序10等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如房价走势前瞻模型构建程序10等。

网络接口13可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。

图2仅示出了具有组件11-13的电子装置1,本领域技术人员可以理解的是,图2示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。

可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(organiclight-emittingdiode,oled)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

在图2所示的电子装置1实施例中,作为一种计算机存储介质的存储器11中存储房价走势前瞻模型构建程序10的程序代码,处理器12执行房价走势前瞻模型构建程序10的程序代码时,实现如下步骤:

a1、获取指定区域在预设时间内的历史数据,从该历史数据中提取出预设长名单中的各第一类指标及房价指数的历史值。

其中,第一类指标及房价指数的历史值以时间序列的形式存在。

历史数据为各类可能影响房地产价格的经济因素及政策因素等数据,例如,包括:各类宏观经济指标、中观经济指标、政策法规及挂盘交易数据等。上述宏观经济指标包括:gdp、cpi、pmi、人均可支配收入等;上述中观经济指标包括指定区域的城市化率、地铁里程、人均住房面积、商品房待售面积等;上述政策法规包括:房地产限售限购政策、首套房利率政策、城市中长期发展规划等。

预设长名单为预先设置的影响房价指数的所有指标的集合,长名单中包括:第一类指标、第二类指标、第三类指标。其中,第一类指标的历史值可从历史数据中直接提取,第二类指标为衍生指标,需通过对第一类指标计算得到,第三类指标为对第一类指标及第二类指标进行指标转换后得到的指标。

对历史数据中的各因素进行量化,确定各第一预设指标在预设时间(例如,2001年1月至2018年7月)内每个单位周期(例如,每个月)的历史值。以“居住人口”这一指标为例,该指标的历史值为[h1、h2、…、hi、…],其中,hi表示在预设时间内的第i期的居住人口数。

a2、根据预设数据处理规则对所述第一类指标的历史值进行数据处理,确定所述预设长名单中各指标的历史值。

根据第一类指标在预设时间内的历史值,依次确定预设长名单中第二类指标及第三类指标的历史数据。

优选地,步骤a2包括:

a1、根据预设的缺失值填补规则,对存在缺失的第一类指标的历史值进行填补,得到填补后的第一类指标的指标数据;

各第一类指标的历史值可能因为工作周期等原因存在缺失,为保证数据完整性,需首先对各第一类指标进行缺失值填补。在本实施例中,预设的缺失值填补规则包括:

分别计算各第一类指标的历史值的缺失率;

对于缺失率小于或等于第一预设阈值的第一类指标,根据指标性质及指标缺失情况,对存在缺失值的各第一类指标进行缺失值填补;及

对于缺失率大于第一预设阈值的第一类指标予以剔除。

以“房交易量”这一指标为例,该指标的历史值的缺失率的计算公式为:

α=n1/n2

其中,α表示指标的历史值的缺失率,n1表示该指标缺失历史值的数量,n2表示该指标历史值的总量。

第一预设阈值可以根据需求进行调整,例如,第一预设阈值为30%。当指标缺失率超过第一预设阈值时,可能存在其根据其余可获得数据源也无法填补的情况,对该类指标予以剔除。当缺失率小于或等于第一预设阈值的第一类指标,缺失值填补包括以下几种情况:

对于周期性、季节性缺失的第一类指标,例如,由于工作周期造成每年1月份、2月份数据周期性缺失。为了增强数据的可比性,需对1月份、2月份的指标缺失值进行填补。若缺失的第一类指标为累计值,则以当年度3月份数据的三分之一、三分之二分别作该年1月份、2月份的指标缺失值进行填补;若缺失的第一类指标为当月实际发生值,则以该年3月份的指标值作当年度1月份、2月份的指标缺失值进行填补。

对于无规律性缺失的第一类指标,若缺失的第一类指标为累计值,则根据缺失当月前后一个月的指标值进行线性插值填补;若缺失的第一类指标为当月实际发生值,则以距离当月(即,缺失月)最近6个月均值进行填补。

对于部分特殊指标,例如“施工面积”等指标,由于该指标性质的特殊性,可采用该年度平均增长率倒推进行指标缺失值填补。

a2、根据预设衍生规则对所述填补后的第一类指标的指标数据进行变频及衍生处理,确定所述长名单中各第二类指标的指标数据;

在本实施例中,所述预设的指标衍生规则包括:分别计算统计时间间隔为一季度、半年度、一年度的各第一类指标对应的月度数据;根据各第一类指标对应的月度数据计算各第二类指标的历史值。

第二预设指标需根据现有的一个或多个第一类指标的历史值计算获得。其中,衍生指标的计算方法可以包括相除、相减等方法。

然而,有的第一预设指标的统计周期并不是一个月,因此,需先对该类第一类指标进行指标变频处理。例如,假设“gdp”这一指标为季度数据,“常住人口”这一指标为年度数据,通常使用连续两个季度或者两个年度的历史数据进行线性插值,对这两个指标进行变频处理,计算出对应的月度数据,然后,计算衍生指标的历史值。例如:“常住人口/户籍人口比”这个衍生指标由“常住人口”和“户籍人口”这两个指标衍生得到。

a3、根据预设转换规则对所述第一类指标及第二类指标进行指标转化,确定所述长名单中第三类指标的指标数据。

确定各第一类指标、第二类指标的历史指标数据后,再对其进行指标转化,预设转化规则包括:3个月环比、一年同比、标准化、归一化及原始值。

例如,对于“房交易量”这一指标,计算其3个月的环比值;对于累积值指标,例如,“销售面积”这一指标,计算其一年同比值;对于指标历史值为比率的指标,会使用原始值;对于指标历史值相差较大的指标,对该指标各期的历史值进行归一化;对于单位不一致的指标,进行标准化处理等。

需要说明的是,在指标转化过程中,部分第三预设指标(例如,需同比转化的指标),由于原始数据起始时间的局限性,会出现转化后数据缺失的情况,该类指标缺失值可以将指标转化后数据的中位数作为缺失值进行填补。

a3、根据预设的短名单生成规则,从所述长名单中筛选出多个指标作为目标指标,生成目标短名单。

在本实施例中,该步骤包括:

b1、分别对所述长名单中的各指标与房价指数的历史数据进行单变量检验,筛选出通过单变量检验的指标生成第一短名单;及

b2、获取预设的第二短名单,合并所述第一短名单和所述第二短名单,生成目标短名单。

在本实施例中,单变量检验包括:相关性检验、经济含义检验及t检验。优选地,步骤b1包括:

c1、分别计算所述长名单中各指标与房价指数之间的相关系数,当相关系数绝对值大于或等于第二预设阈值时,判断通过相关性检验;

获取房价指数的历史值,计算各期房价指数的历史增长率(例如,三个月环比、一年同比等),分别获取目标数据集中各预设指标的历史值及房价指数的历史增长率,并分别生成对应的时间序列,根据预设的相关系数计算方法,计算各预设指标与房价指数之间的相关系数。预设的相关系数计算方法包括:皮尔逊相关系数,斯皮尔曼相关系数等。若相关系数的绝对值越接近1,说明相关性越强,绝对值越接近0,说明相关性越小。当相关系数大于0时,为正相关,当相关系数小于0时,为负相关。

第二预设阈值可以根据需求进行调整,例如,第二预设阈值为0.6。

c2、分别获取所述长名单中各指标的经济含义及对应的相关系数,当经济含义与相关系数同向时,判断通过经济含义检验;

预先设置长名单中各指标的经济含义并保存。若某指标的经济含义为正,说明该指标的指标值越大,其对房价具有促进作用,反之,若该指标的经济含义为负,指标值越大,其对房价具有抑制作用。当指标的经济含义与相关性同向时,判断该指标通过经济含义检验,当指标的经济含义与相关性反向时,判断该指标未通过经济含义检验。

例如,“房屋交易量”、“m2(同时反映现实和潜在购买力)”、“居民收入”等指标与房价为正相关性,“利率”这一指标与房价为负相关性。当计算得到“居民收入”这一指标与房价指数的相关系数为正数时,其经济含义与相关性同向,判断经济含义检验通过。

c3、分别对所述长名单中各指标与房价指数进行t检验,当t检验中p值小于或等于第三预设阈值时,判断通过t检验;

第三预设阈值可以根据需求进行调整,例如,第三预设阈值为0.05。

当指标在t检验中的p值小于等于0.05时,判断指标通过t检验,反之,当p大于0.05时,判定t检验不通过。

c4、从所述长名单中筛选出相关性检验、经济含义检验及t检验的检验结果均为检验通过的指标作为目标指标,生成第一短名单。

对长名单中的各指标进行单变量检验的目的在于,根据指标是否通过单变量检验从长名单的各指标中筛选出最具解释力的指标,以生成第一短名单。

上述第二短名单为预先确定的,第二短名单中各指标是专家认为对房价影响较大的指标。需要说明的是,第二短名单中的指标不一定通过了单变量检验,不同的城市对应的第二短名单不一定相同。

合并上述第一短名单及第二短名单中的指标,生成目标短名单,使目标短名单中的指标更全面。

a4、根据预设分析规则分析所述目标短名单中各目标指标相较于房价指数的最佳滞后期,并根据所述目标指标的最佳滞后期确定建模宽表。

房价指数对不同指标的敏感度不一样,有的指标对房价指数的影响会在短期内体现,有的则会在较长时间才会体现,因此,需确定每个指标对房价指数产生影响的时间,即,确定最佳滞后期。

在本实施例中,所述“根据预设分析规则分析所述目标短名单中各目标指标相较于房价指数的最佳滞后期”包括:

d1、对所述目标短名单中各目标指标进行滞后期衍生,确定所述目标指标在不同滞后期对应的房价指数的指标数据;

对目标短名单中的每个目标指标进行滞后期衍生,并确定不同滞后期下各目标指标的历史值所对应的房价指数历史值,例如,滞后期n可以为3,6,12,15,18,24等。以指标a为例,当n=3时,指标a在第t期的指标值与房价指数在第t+3期的值相对应。

d2、分别计算所述目标指标在不同滞后期下与房价指数之间的相关系数,选择相关系数满足预设条件者对应的滞后期作为所述目标指标的最佳滞后期。

在本实施例中,预设条件为相关系数的绝对值大于或等于第四预设阈值。第四预设阈值可很久需求进行调整,例如,第四预设阈值为0.9。

当某目标指标在不同滞后期对应的相关系数的绝对值均小于第四预设阈值时,无法确定该目标指标的最佳滞后期,为该类目标指标赋予一个默认值作为该类目标指标的最佳滞后期,例如,指定该类目标指标的最佳滞后期为3个月或者12个月。

相关系数的计算方法与步骤c1一致,这里不作赘述。

同一个指标在不同的滞后期对应着不同的相关系数,相关系数绝对值越大,其对房价指数的预测能力也越强,因此,选择相关系数绝对值最大的滞后期作为指标的最佳滞后期。不同指标的最佳滞后期不一定相同。

在其他实施例中,所述目标指标的最佳滞后期还可以通过显著性检验来判断。例如,分别对所述目标短名单中不同滞后期下的各目标指标与房价指数进行t检验,确定各目标指标在不同滞后期对应的p值,选择p值小于或等于0.05的滞后期作为各目标指标的最佳滞后期。

对不同滞后期下的各目标指标与房价指数的相关性进行显著性分析并不仅限于t检验,还可以采用其他分析方法,例如,u检验、方差分析、x2检验、零反应检验等。

建模宽表也可以理解为模型训练的样本数据,建模宽表中包括解释变量x及被解释变量y。其中,解释变量x为各目标指标,被解释变量y为房价指数的增长率,房价指数的增长率可根据房价指数各期的历史值计算得到。

确定各目标指标的最佳滞后期后,即可确定每一期被解释变量y与最佳滞后期下各目标指标对应的历史值,基于上述对应关系生成建模宽表。

a5、利用所述建模宽表对预设机器学习方法进行训练,确定房价走势前瞻模型。

在本实施例中,步骤a5包括:

e1、对所述目标短名单中的所有目标指标进行分组,分别从每个分组中获取一个目标指标,确定入模指标组合;

e2、获取所述入模指标组合中每个目标指标及房价指数的历史数据,确定所述入模指标组合对应的训练集、测试集;

e3、利用每个所述入模指标组合对应的训练集,对预设机器学习方法进行训练,构建每个所述入模指标组合对应的第一房价走势前瞻模型;

e4、利用每个所述入模指标组合对应的测试集,对各入模指标组合对应的第一房价走势前瞻模型的准确性进行测试;及

e5、从所述第一房价走势前瞻模型筛选出满足预设筛选规则的第二房价走势前瞻模型。

首先,对短名单进行分组配置,例如,在分组配置过程中,根据指标类型进行分组,例如,中观、宏观、衍生等。

在某一种机器学习方法的训练过程中,入模指标组合的数量为所有分组中选取1个目标指标的遍历,即,每个分组的入模指标数量控制在有且仅有一个。比如,若a组有3个指标,b组有2个指标,则组合数为3*2=6,共6种,每个组合的指标数量为2个。对于某一个入模指标组合而言,将该组合内各指标及房价指数在2001年1月到2017年7月的数据作为训练集,将该组合内各指标及房价指数在2017年8月到2018年7月的数据作为测试集。由于不同城市的数据质量不尽相同,若分组内某指标无数据,则该指标数量为零。

基于所有的入模指标组合,分别利用各入模指标组合对应的训练集对预设机器学习方法进行训练,构建初始房价前瞻模型。在本实施例中,预设机器学习方法包括:线性回归(linearregreesion)、lasso回归、岭回归(ridgeregression)、随机森林(randomforest)、k近邻算法(kneighbourregression)、决策树(decisiontree)、支持向量机回归(supportvectorregression,svr)、梯度增强回归(gradientboostingregressor)模型以及xgboost算法。也就是说,每个入模指标组合对应9个第一房价走势前瞻模型,6个入模指标组合对应6*9个第一房价走势前瞻模型。

为了确定同一个入模指标组合对应的多个房价走势前瞻模型中预测效果最佳的房价前瞻模型,利用该入模指标组合对应的测试集对多个第一房价走势前瞻模型进行测试,根据测试结果计算各第一房价走势前瞻模型的平均误差,选取平均误差最小的第一房价走势前瞻模型作为该入模指标组合对应的最优房价走势前瞻模型。

分别确定每一个入模指标组合对应的最优房价走势前瞻模型后,从各入模指标组合对应的最优房价走势前瞻模型后,选择平均误差最小的最优房价前瞻模型作为第二房价走势前瞻模型,即所有第一房价走势前瞻模型中最优的房价走势前瞻模型。

当需要对房价进行预测时,获取最终的房价前瞻模型对应的入模指标的相应历史数据输入模型中,模型输出结果即为预测的房价指数增长率,根据预测的房价指数增长率及当期的房价指数,即可计算出未来的房价指数。

上述实施例提出的电子装置1,利用历史数据确定预设长名单中各指标的历史数据,分别对各指标对房价指数的预测能力进行评估,筛选出最具解释力的指标生成短名单;分析短名单中各指标相较于房价指数的最佳滞后期,确定建模宽表;利用建模宽表中不同入模指标组合的数据对多种机器学习方法进行训练,并选择出平均误差最小者作为最终的房价走势前瞻模型,提高了对未来房价走势预测的准确性。

可选地,在其他的实施例中,房价走势前瞻模型构建程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。例如,参照图3所示,为图2中房价走势前瞻模型构建程序10的模块示意图,该实施例中,房价走势前瞻模型构建程序10可以被分割为数据提取模块110、数据处理模块120、筛选模块130、分析模块140及模型构建模块150,所述模块110-150所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,其中:

数据提取模块110,用于获取指定区域在预设时间内的历史数据,从该历史数据中提取出预设长名单中的各第一类指标及房价指数的历史值;

数据处理模块120,用于根据预设数据处理规则对所述第一类指标的历史值进行数据处理,确定所述预设长名单中各指标的历史值;

筛选模块130,用于根据预设的短名单生成规则,从所述长名单中筛选出多个指标作为目标指标,生成目标短名单;

分析模块140,用于根据预设分析规则分析所述目标短名单中各目标指标相较于房价指数的最佳滞后期,并根据所述目标指标的最佳滞后期确定建模宽表;及

模型构建模块150,用于利用所述建模宽表对预设机器学习方法进行训练,确定房价走势前瞻模型。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括房价走势前瞻模型构建程序10,所述房价走势前瞻模型构建程序10被处理器执行时实现上述房价走势前瞻模型构建方法的步骤

本发明之计算机可读存储介质的具体实施方式与上述房价走势前瞻模型构建方法的具体实施方式大致相同,在此不再赘述。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1