一种基于网络搜素指数的房价预测方法与流程

文档序号:15448091发布日期:2018-09-14 23:36阅读:321来源:国知局

本发明涉及房地产数据分析技术领域,特别是一种基于网络搜素指数的房价预测方法。



背景技术:

在过去的近二十年里,房地产行业一直是我国经济增长的重要动力来源之一,而房价是房地产市场健康稳定发展的重要指标,同时也是整个社会所重点关注的热门话题。房价的有效预测,不仅可以帮助政府相关部门更好对房地产市场进行精确的调控,保持房地产市场的平稳有序,控制炒房等现象的发生;也可以帮助房地产开发商进行前期投资决策,对未来房地产市场走向进行研判,因此具时效性和前瞻性的我国城市房地产价预测指数预测是现阶段的研究热点所在。



技术实现要素:

有鉴于此,本发明的目的是提出一种基于网络搜素指数的房价预测方法,可以有效预测房价的变化情况。

本发明采用以下方案实现:一种基于网络搜素指数的房价预测方法,具体包括以下步骤:

步骤s1:分析挖掘出影响房价的一个以上的宏观经济变量;根据所述宏观经济变量对房价的影响程度,即相关性强弱,筛选出与房价相关性强的变量作为解释变量加入到房价指数预测数据集中;

步骤s2:利用与房价相关的关键词获取网络搜索指数并将搜索指数数据加入到房价预测数据集中;运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测;采用mse和mae作为模型预测效果的评估指标;

步骤s3:以多个城市的房价数据集为基础构建以梯度提升算法为主要的对比预测模型,并进行实验对比,最后对步骤s2提出的预测模型的预测精度进行评价。

进一步地,步骤s1具体为:首先根据经济学知识初步得到与房价相关的宏观经济变量,再以相关性分析法获取到影响房价的最主要的一个以上的相关宏观经济变量,以这些相关宏观经济变量为基础从国家统计局数据库和wind数据库采集训练数据和测试数据,并且将所述训练数据与测试数据进行预处理后加入到房价指数预测数据集中;所述预处理包括数据的频率处理、缺失值处理。

进一步地,步骤s2中,所述网络搜索指数的获取为:以某个与房价最为相关的关键词(如房价指数或者贷款利率)为基础,利用搜索引擎(如百度)指数平台获取该关键词在某一时间段的搜索量,并将其加入到房价的预测数据集中充当解释变量。

进一步地,步骤s2中,所述运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测具体包括以下步骤:

步骤s21:设一个允许参数随时间变化的回归模型tvp为:

其中,yt是因变量,即房价;zt-1是预测的自变量的观测值组成的一个1×m矩阵,所述自变量为房价的解释变量;θt是回归系数的一个m×1矩阵,残差项满足εt~n(0,ht),随机扰动项满足ηt~n(0,qt);其中,ht表示正态分布下参数εt满足的方差,qt表示正态分布下参数ηt满足的方差;

步骤s22:在tvp的基础上,将上式进一步改写为:

其中,k=1,2...,k,k表示对应的模型集合数,ht(k)表示正态分布下参数满足的方差,qt(k)表示正态分布下参数满足的方差;

步骤s23:采用下式计算每个时间节点上1,2,...k个模型的概率:

π(t|t-1,k)=p(lt=k|yt-1);

其中,lt代表某一个具体的模型,lt=k意味着第k个模型被选中,yt-1={y1,y2,...yt-1}即yt-1表示前t-1个时期因变量的集合;

步骤s24:对步骤s23得到的多个概率进行加权平均,得到最后的预测结果。

进一步地,步骤s2中,所述mse和mae的计算如下:

其中,n表示预测值数量,y'表示模型预测值;

其中,mse和mae的值越小,模型的预测效果越好。

进一步地,步骤s3具体包括以下步骤:

步骤s31:建立以决策树为基本分类器的梯度提升树作为主要的对比模型,将每个决策树作为预测的基分类器,利用损失函数的负梯度在当前模型的值作为提升树算法中残差的近似值,拟合一棵回归树模型;

步骤s32:利用梯度提升算法得到的回归树模型与步骤s2得到的预测模型进行多次对比实验,依照mse和mae评价不同的方法在不同城市房价预测中的效果。

其中,梯度提升树算法步骤如下:

①初始化:

②对于m=1,2,...,m(m为决策树的数量)

■对于i=1,2,...,n计算:

■对rmi拟合一棵回归树,得到第m棵树的叶节点区域rmj,j=1,2,...,j。

■计算每个区域rmj上的输出值:对j=1,2,...,j计算:

■更新

③得到回归树:

与现有技术相比,本发明有以下有益效果:本发明基于网络搜索指数的房价预测方法,将大数据背景下的网络搜索指数加入到房价的预测数据集中,建立动态模型平均方法和机器学习预测模型,应用到房地产价格预测和数据分析领域中,从而对不同城市的房价进行实时的预测。本发明具有预测精确度高、实时性强、具有较好的健壮性等优点。

附图说明

图1为本发明实施例的方法流程示意图。

图2为本发明实施例的对比模型的梯度提升树工作流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1以及图2所示,本实施例提供了一种基于网络搜素指数的房价预测方法,具体包括以下步骤:

步骤s1:分析挖掘出影响房价的一个以上的宏观经济变量;根据所述宏观经济变量对房价的影响程度,即相关性强弱,筛选出与房价相关性强的变量作为解释变量加入到房价指数预测数据集中;

步骤s2:利用与房价相关的关键词获取网络搜索指数并将搜索指数数据加入到房价预测数据集中;运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测;采用mse和mae作为模型预测效果的评估指标;

步骤s3:以多个城市的房价数据集为基础构建以梯度提升算法为主要的对比预测模型,并进行实验对比,最后对步骤s2提出的预测模型的预测精度进行评价。

在本实施例中,步骤s1具体为:首先根据经济学知识初步得到与房价相关的宏观经济变量,再以相关性分析法获取到影响房价的最主要的一个以上的相关宏观经济变量,以这些相关宏观经济变量为基础从国家统计局数据库和wind数据库采集训练数据和测试数据,并且将所述训练数据与测试数据进行预处理后加入到房价指数预测数据集中;所述预处理包括数据的频率处理、缺失值处理。

在本实施例中,步骤s2中,所述网络搜索指数的获取为:以某个与房价最为相关的关键词(如房价指数或者贷款利率)为基础,利用搜索引擎(如百度)指数平台获取该关键词在某一时间段的搜索量,并将其加入到房价的预测数据集中充当解释变量。

在本实施例中,步骤s2中,所述运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测具体包括以下步骤:

步骤s21:设一个允许参数随时间变化的回归模型tvp为:

其中,yt是因变量,即房价;zt-1是预测的自变量的观测值组成的一个1×m矩阵,所述自变量为房价的解释变量;θt是回归系数的一个m×1矩阵,残差项满足εt~n(0,ht),随机扰动项满足ηt~n(0,qt);其中,ht表示正态分布下参数εt满足的方差,qt表示正态分布下参数ηt满足的方差;

步骤s22:在tvp的基础上,将上式进一步改写为:

其中,k=1,2...,k,k表示对应的模型集合数,ht(k)表示正态分布下参数满足的方差,qt(k)表示正态分布下参数满足的方差;

步骤s23:采用下式计算每个时间节点上1,2,...k个模型的概率:

π(t|t-1,k)=p(lt=k|yt-1);

其中,lt代表某一个具体的模型,lt=k意味着第k个模型被选中,yt-1={y1,y2,...yt-1}即yt-1表示前t-1个时期因变量的集合;

步骤s24:对步骤s23得到的多个概率进行加权平均,得到最后的预测结果。

在本实施例中,步骤s2中,所述mse和mae的计算如下:

其中,n表示预测值数量,y'表示模型预测值;

其中,mse和mae的值越小,模型的预测效果越好。

在本实施例中,步骤s3具体包括以下步骤:

步骤s31:建立以决策树为基本分类器的梯度提升树作为主要的对比模型,将每个决策树作为预测的基分类器,利用损失函数的负梯度在当前模型的值作为提升树算法中残差的近似值,拟合一棵回归树模型;

步骤s32:利用梯度提升算法得到的回归树模型与步骤s2得到的预测模型进行多次对比实验,依照mse和mae评价不同的方法在不同城市房价预测中的效果。

其中,梯度提升树算法步骤如下:

①初始化:

②对于m=1,2,...,m(m为决策树的数量)

■对于i=1,2,...,n计算:

■对rmi拟合一棵回归树,得到第m棵树的叶节点区域rmj,j=1,2,...,j。

■计算每个区域rmj上的输出值:对j=1,2,...,j计算:

■更新

③得到回归树:

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1