一种房价数字估计模型的构建方法与流程

文档序号:11433154阅读:250来源:国知局
一种房价数字估计模型的构建方法与流程

本发明属于计算机网络技术领域,特别是涉及一种房价数字估计模型dem(digitalevaluationmodel)的构建方法。



背景技术:

我国房地产二三级市场日益发展,二手房交易市场如买卖、置换、抵押等活动越来越频繁,一方面这些市场交易活动本身使二手房价格分布情况越来越受到重视,另一方面其涉及的国家税收问题,也使得了解客观房价变得尤为重要。

然而,在二手房交易过程中,影响价格的因素较多,人们难以以经验判断二手房的交易价格。阅读表格形式的房价评估报告,虽然准确,但是难以满足二手房交易者的需求,专业的房价评估更是需要大量的人力和财力。买家或卖家需要一种能在在短时间内获取大量的二手房房源价格信息的方式。

房价dem(digitalevaluationmodel),即房价数字估计模型(或数字房价模型),是通过有限房源的房价数据实现对一定区域内的房价数字化模拟,是一种数字化表达房价形态的方式。它是由一组有序数值阵列形式表示房价的一种实体三维模型。

目前国内外还没有提出房价dem的生成方法。现有的二手房价获取方式所存在的缺陷有:1、人工服务,耗费人力财力;2、操作不便,需要给出房产各种附加信息;3、单次仅能查看单一房源的房价,知识获取的效率低下;4、不能展现区域内房价整体走势,不利于用户制定买卖计划;5、以数据和表格的方式呈现,阅读困难,表现手法单一;6、与用户互动少,用户体验感差7、采用二维图例展示,情景单调乏味。

房价dem生成的难点在于:

1.如何快速有效地获取房价数据;

2.如何整合来源不同的房价数据,进行矢量化;

3.如何对房价数据的粗差筛选,如何处理房价数据中的数据陡崖、洞和突起;

4.如何在房价dem中同时描绘出城市外观,如何处理交通主干线、河流、广场处的无房价情况。



技术实现要素:

为了解决上述技术问题,更有效地描述房价在城市中的分布,降低理解分析房价的难度,形成新的房价参考模型,本发明提出了一种房价数字估计模型的构建方法。

本发明所采用的技术方案是:一种房价数字估计模型的构建方法,其特征在于,包括以下步骤:

步骤1:获取房产信息;

步骤2:对获取的信息进行数据规范化和坐标系转化处理;

步骤3:对处理后的数据进行粗差剔除;

步骤4:提取和筛选房价特征点;

步骤5:生成房价t1n(不规则三角网,triangulatedirregularnetwork),tin中的三角形各个顶点记录了房价的值;

步骤6:数据内插与修饰。对tin的数据进行内插,生成房价规则格网(规则格网,以下简称grid),利用已知的城市矢量进行数据修饰,生成房价dem。

本发明使用的房价tin是一种由三角形作为基本单元的平面网格,三角形的各个顶点记录了房价的值。房价tin能有效地处理房价数据分布凌乱不均的问题。

本发明的优势在于:引入众源房价信息,以增大房价数据量,使模型更精确;对获取的信息进行标准化处理,以解决数据来源不同产生的变量冲突;对数据进行粗差探测,以提高网络房产数据的可靠性,解决陡崖、洞、突起问题;结合城市基本地形图,剔除房价dem中不存在房产的区域,展现城市基本结构;采用自动生成方式,避免让用户输入任何附加信息,迅速表达一定区域内房价的走势,以减轻用户在使用时的操作负担;通过三维曲面形象地表现房价变化,缩短用户的阅读时间,改善用户的视觉体验。

较传统房价展示形式而言,房价dem是一种信息量更大、感染力更强、视觉效果更优秀、交互更友好的三维房价表现形式。

附图及说明

图1:为本发明实施例的流程图;

图2:为本发明实施例的武汉市房产原始数据示意图;

图3:为本发明实施例的武汉市房价部分特征点分布示意图;

图4:为本发明实施例的逐步添加数据的武汉市房价tin示意图;

图5:为本发明实施例的未修饰的房价dem的平面投影示意图;

图6:为本发明实施例的未修饰的房价dem示意图;

图7:为本发明实施例的武汉市水域、植被、交通主干线的矢量数据示意图;

图8:为本发明实施例的武汉市房价dem的平面投影示意图;

图9:为本发明实施例的武汉市房价dem示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

下面以利用某知名网站的房产数据为例,展示基于众源房价信息生成武汉市二手房价dem的具体实施方式。请见图1,本实施例提供的一种房价数字估计模型的构建方法,包括以下步骤:

步骤1、获取房产信息;

以某知名二手房交易网站为例,利用网络爬虫,爬行武汉市内的二手房产价格信息。房产数据可表示为,其中di为房价数据点,address为房产地址,psi为房价字符串:

di(address,psi),i=1,2,3…m(1)

该房产网站提供了每平方米的房产价格,以及房产地址,但未提供房产的经纬度坐标。如果网站提供了房产坐标,还需要将其记录,并记录坐标对应的坐标系。

获取的房价原始数据如图2。

步骤2:对获取的信息进行数据规范化和坐标系转化处理;

由于房价信息来自各大房产网站、房管局的数据格式存在差异,还需进行数据规范化。

对步骤1所采集的房价数据而言,由于为字符串形式“xxxx元/m2”,首先去除尾部单位,将其转换为数值格式“xxxx”。对于采用不同单位的房价数据,要进行单位换算。

对步骤1所采集的地址数据而言,需要将其转换为矢量坐标。(1)中的数据经过了如下变换:

di(address,psi)→di(xi`,yi`,pi),i=1,2,3…m(2)

其中(x`,y`)表示搜索引擎所在的坐标系下的坐标,pi表示数值化的房价。

由于坐标来源不同,故这些坐标所处的坐标系也可能不同,对坐标系不同的数据,要变换到统一平面坐标系下。

di(xi`,yi`,pi)→di(xi,yi,pi),i=1,2,3…m(3)

其中,(xi,yi)表示统一地理坐标系下的坐标。

步骤3:对处理后的数据进行粗差剔除;

步骤2所规范化的房价点中,还含有一定数量的粗差点。现采用局部聚类分析法探测房价粗差。循环每一个di:提取距离di最近的k个点,形成集合d:

d={di,dj(xj,yj,pj)|j=1,2,3…k}(4)

将d中元素从大至小排序,选择其中位于头尾处的房价数据ps和pe作为初始聚类中心。采用k均值聚类算法,将d分为两类d1和d2。通过局部k均值聚类,可以探测di与周围房价点的相关性。此时两个子集合中的元素个数应大于某个值,以保证房价di在该区间上,是连续曲线或曲面上的点,而非孤点。

min{crad(d1),crad(d2)}>k/s,(s<k)(5)

若局部k均值聚类结果,满足(5),则应保留房价数据点di,反之,剔除di。

步骤4:提取和筛选房价特征点;

在进行特征点提取之前,由于同一栋房屋,可能存在多楼层同时出售,极可能导致该点附近区域有多个房价值,对特征点提取不利,故先采用半径滤波器对房价数据进行滤波。设置一个较小的滤波器半径r,若滤波器覆盖范围内房价数据的个数大于阈值n,则将滤波器内所有房价数据di的坐标、房价求平均值,产生一个新的房价数据代替。

由于特征点都是梯度变化明显的点,故采用高通滤波器对房价数据进行筛选。循环每一个di:提取距离di最近的l个点,形成集合l:

l={di,dj(xj,yj,pj)|j=1,2,3…l}(6)

取两个较小的阈值ε和δ,l的方差为d(l),期望为e(l),若下式成立:

d(l)<εand|di-e(l)|<δ(7)

则所选的集合l表示一组波动很小的房价,此时进一步判断di是否位于数据集l的中央。求l的外界多边形s,若di位于s内部,则剔除di,反之保留di。

经过以上步骤,一些冗余的房价信息被剔除,房价信息中的特征数据被保留。

武汉市房价部分特征点分布如图3。

步骤5:生成房价tin,tin中的三角形各个顶点记录了房价的值;

步骤4将初始数据进行了简化,但房价数据点的数量依然庞大。另外由于使用网络爬虫,房价数据实时更新,随时都有新的数据点加入。传统的tin生成方法,如递归生长法、凸闭包收缩发,由于每个三角形的产生都涉及所有待处理的点,时间复杂度为o(n2),不适用于房价tin生成。为了更快地构建tin,采用数据逐点插入法生成房价tin。算法流程大致为以下步骤:

a.首先提取整个数据区域的最小外界矩形范围,并以此作为最简单的凸闭包。

b.按一定规则将数据区域的矩形范围进行格网划分,为了取得比较理想的综合效率,可以限定每个格网单元平均拥有的数据点数。

c.根据数据点di的(x,y)坐标建立分块索引的线性链表。

d.剖分数据区域的凸闭包形成两个超三角形,所有的数据点都一定在这两个三角形范围内。

e.按照c建立的数据链表顺序往d的三角形中插入数据点。首先找到包含数据点的三角形,进而连接该点与三角形的三个顶点,简单剖分该三角形为三个新的三角形。

f.根据delaunay三角形的空圆特性,分别调整新生成的三个三角形及其相邻的三角形。对相邻的三角形两两进行检测,如果其中一个三角形的外接圆中包含有另一个三角形除公共顶点外的第三个顶点,则交换公共边。

g.重复e-f直至所有的房价数据点都被插入到房价tin中。

逐步添加数据的武汉市房价tin如图4。

步骤6:数据内插与修饰。

对tin的数据进行内插,生成房价规则格网(规则格网,以下简称grid),利用已知的城市矢量进行数据修饰,生成房价dem。

房价本身不连续,需将房价tin进行格网化,以形成连续的三维模型。下面采用三角形线性内插来进行格网化。

任意格网点dij(xij,yij,pij),i=1,2,3…m,j=1,2,3…n都处在某个三角形d1d2d3上,其三个顶点为d1(x1,y1,p1)、d2(x2,y2,p2)、d3(x3,y3,p3),则任意一点dij的房价pij由(8)、(9)给出:

pij=a0+a1xij+a2yij(8)

遍历所有规定区域内的格网点,即生成房价dem。

未修饰的武汉市房价dem如图5、图6所示。

本实施例经进一步进行修饰房价dem;

修饰房价dem,利用矢量数据,对房价dem进行修剪,排除水域、绿地、广场等大面积无房产区域的dem模型,将这些区域的格网房价值赋0。用于修饰的武汉市矢量数据如图7。选择其中表示水域、植被、交通主干线的图层,现针对这些属性修饰房价dem。

a.坐标转换,将矢量数据与房价dem所在的平面坐标系对齐;

b.遍历grid网格,当遇到网格对应的矢量区域为给定的水域、绿地、广场其中任意一种时,将此处对应的房价dem的房价赋0。

经过上述,已完成房价数据的采集、整合、处理、表达的过程,生成武汉市房价dem如图8、图9所示。

本实施例使用grid法(规则格网法)作为模型显示方法。grid是一种由正方形作为基本单元的平面网格,正方形的各个顶点记录了房价的值。利用grid,能将房价模型可视化。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1