一种基于局部加权线性回归的空间属性预测方法与流程

文档序号:14950840发布日期:2018-07-17 22:30阅读:966来源:国知局

本发明属于统计学习和地理信息系统技术领域,具体涉及一种基于局部加权线性回归的空间属性预测方法的设计。



背景技术:

地理信息系统(geographicinformationsystem,gis)又被称为“地学信息系统”,是一种特定的十分重要的空间信息系统。它是在计算机硬、软件系统支持下,对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。

在地理信息系统中,通常地理区域的多个空间业务属性之间具有相关性,比如:交通覆盖属性、植被覆盖属性、商业密度属性都会影响房价属性,某一空间属性是由其他多个空间属性综合影响的结果。采用多元线性回归方法对空间属性之间的影响关系进行数学建模,可以实现对空间属性值的预测分析。但是普通线性分析方法在使用线性回归进行多维空间属性的组合分析时,没有考虑分析区域之间的空间距离关系,导致分析预测结果与实际结果出入较大,存在比较严重的欠拟合问题。



技术实现要素:

本发明的目的是为了解决采用现有的线性回归分析方法进行多维空间属性的组合分析时,存在比较严重的欠拟合问题,提出了一种基于局部加权线性回归的空间属性预测方法。

本发明的技术方案为:一种基于局部加权线性回归的空间属性预测方法,包括以下步骤:

s1、选取地理信息系统中用户指定的一个研究区域为分析区域。

s2、通过空间查询提取分析区域的业务属性和经纬度坐标。

其中业务属性包括房价、房屋面积和交通覆盖指数。

s3、根据分析区域的业务属性构建训练数据集。

以分析区域内各地点的房屋面积和交通覆盖指数为输入变量x(i),以分析区域内各地点的房价为输出变量y(i),构建训练数据集{(x(i),y(i));i=1,2,...,m};其中上标(i)表示训练数据集的索引标号,m为训练数据集的样本总数。

s4、根据分析区域的业务属性构建机器学习的计算模型。

构建关于输入变量x的线性函数h0(x):

h0(x)=θ0+θ1x1+θ2x2(1)

其中θ0表示截距项权重参数,θ1表示房屋面积权重参数,θ2表示交通覆盖指数权重参数,x1表示房屋面积,x2表示交通覆盖指数;

对公式(1)进行二次项拟合,得到机器学习的计算模型:

s5、根据分析区域的经纬度坐标计算得到空间距离因子,并将空间距离因子添加进计算模型,得到空间距离子数衰减模型。

根据分析区域的经纬度坐标计算得到空间距离因子w(i),计算公式为:

其中|l(i)-l|表示第i个训练样本对应地点到其他样本对应地点的平均距离,由各个训练样本对应地点的经纬度坐标计算得到;τ为带宽参数;

将空间距离因子w(i)添加进计算模型,得到空间距离子数衰减模型:

f(x(i))=w(i)(y(i)-h(x(i)))2(4)

s6、将训练数据集输入空间距离子数衰减模型,采用梯度下降法对空间距离子数衰减模型进行训练。

将训练数据集输入空间距离子数衰减模型,对于单个训练样本,采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练,j=0,1,2;

其中α为学习速率,当j取值为0时,xj=x0=1;

对于多个训练样本,采用批量梯度下降法或随机梯度下降法对空间距离子数衰减模型中的权重参数θj进行训练;

批量梯度下降法具体为:重复使用公式(6)对θj进行训练直到θj收敛;

随机梯度下降法具体为:对整个训练数据集进行循环遍历,每遇到一个训练样本,则采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练。

s7、根据训练后的空间距离子数衰减模型构建参数评估模型:

s8、提取使得参数评估模型值最小的空间属性权重参数,并将其用于对真实数据进行预测。

本发明的有益效果是:

(1)本发明采用线性函数进行计算,计算复杂度较低。

(2)本发明计算结果唯一且简单,利于程序处理。

(3)本发明采用多元线性回归处理各种空间属性的线性组合关系,与实际情况相符。

附图说明

图1所示为本发明实施例提供的一种基于局部加权线性回归的空间属性预测方法流程图。

图2示为本发明实施例提供的欠拟合曲线图。

图3示为本发明实施例提供的过拟合曲线图。

图4示为本发明实施例提供的正常拟合曲线图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。

一种基于局部加权线性回归的空间属性预测方法,如图1所示,包括以下步骤s1-s8:

s1、选取地理信息系统中用户指定的一个研究区域为分析区域。

本发明实施例中,用户指定的一个研究区域可以为一个区域经济规划板块,一个行政区,一个经济发展区等。

s2、通过空间查询提取分析区域的业务属性和经纬度坐标。

本发明实施例中,业务属性包括房价、房屋面积和交通覆盖指数。

s3、根据分析区域的业务属性构建训练数据集。

以分析区域内各地点的房屋面积和交通覆盖指数为输入变量x(i),以分析区域内各地点的房价为输出变量y(i),构建训练数据集{(x(i),y(i));i=1,2,...,m};其中上标(i)表示训练数据集的索引标号,m为训练数据集的样本总数。

s4、根据分析区域的业务属性构建机器学习的计算模型。

构建关于输入变量x的线性函数h0(x):

h0(x)=θ0+θ1x1+θ2x2(1)

其中θ0表示截距项权重参数,θ1表示房屋面积权重参数,θ2表示交通覆盖指数权重参数,x1表示房屋面积,x2表示交通覆盖指数。

由于在实际训练过程中,训练数据的趋势一般不是一条严格的直线,因此这里采用公式(1)就会出现欠拟合的现象,如图2所示。因此本发明实施例中需要对公式(1)中的特征进行补充,理论上对特征补充得越多,效果就越好,但增加太多特征也会造成过拟合现象,如图3所示,若采用五次多项式进行拟合则出现过拟合现象。

因此本发明实施例中对公式(1)进行二次项拟合,得到机器学习的计算模型:

拟合后的图像如图4所示。

s5、根据分析区域的经纬度坐标计算得到空间距离因子,并将空间距离因子添加进计算模型,得到空间距离子数衰减模型。

本发明实施例中需要在计算模型中引入空间距离因子,让空间距离与分析目标的影响度呈反相关的关系,空间距离越近的数据对分析目标的影响越大,空间距离越远的数据对分析目标的影响越小。

根据分析区域的经纬度坐标计算得到空间距离因子w(i),计算公式为:

其中|l(i)-l|表示第i个训练样本对应地点到其他样本对应地点的平均距离,由各个训练样本对应地点的经纬度坐标计算得到(实际计算时,为减小计算量,可将分析区域划分为一个个正六边形的子区域,形成形状酷似“蜂窝”的结构,然后仅计算第i个训练样本对应地点到“蜂窝”结构内其他样本对应地点的平均距离);τ为带宽参数。

w(i)是一个非负的权值,取决于每个训练样本对应的预测评估地点。如果|l(i)-l|非常小,那么权值w(i)就接近于1;反之如果|l(i)-l|非常大,那么权值w(i)就变小。随着训练样本对应地点到查询点的距离的距离降低,训练样本的权值也在降低,参数τ控制了这个降低的速度。

将空间距离因子w(i)添加进计算模型,得到空间距离子数衰减模型:

f(x(i))=w(i)(y(i)-h(x(i)))2(4)

s6、将训练数据集输入空间距离子数衰减模型,采用梯度下降法对空间距离子数衰减模型进行训练。

将训练数据集输入空间距离子数衰减模型,对于单个训练样本,采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练,j=0,1,2。

其中α为学习速率,当j取值为0时,xj=x0=1。

对于多个训练样本,采用批量梯度下降法或随机梯度下降法对空间距离子数衰减模型中的权重参数θj进行训练。

其中,批量梯度下降法在每一个步长内检查所有整个训练数据集中的所有训练样本,具体方法为:重复使用公式(6)对θj进行训练直到θj收敛。

随机梯度下降法具体为:对整个训练数据集进行循环遍历,每遇到一个训练样本,则采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练。

s7、根据训练后的空间距离子数衰减模型构建参数评估模型。

为了挑选出合适的权重参数θj,比较合理的方法是让f(x(i))h(x)尽量逼近y(i),用公式来衡量对于每个不同的θj值,f(x(i))与对应的y(i)的距离,就要构造一个参数评估模型,也叫成本函数:

s8、提取使得参数评估模型值j(θj)最小的空间属性权重参数θj,并将其用于对真实数据进行预测。

本领域的普通技术人员将会意识到,这里的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1