本发明涉及大数据技术领域,尤其是涉及一种基于多源感知数据的人口空间化测算方法、装置。
背景技术:
在人口时空大数据作为我国社会经济的基础数据,对区域规划及城市未来可持续发展至关重要。随着社会感知及对地观测技术的发展,天地一体化的地理感知数据为实现更准确和快速地探测城市内部人口分布和规模带来可能。
现有的测算方法利用土地利用数据或夜光遥感数据估算我国城市人口数据,但是现有的测算方法的准确率和测算速度都已跟不上我国迅速城市化的发展。
技术实现要素:
针对上述技术问题,本发明提供了一种基于多源感知数据的人口空间化测算方法、装置,能够快速准确估算我国城市人口数据。所述技术方案如下:
第一方面,本发明实施例提供了一种基于多源感知数据的人口空间化测算方法,步骤包括:
获取待定区域的人口感知数据;
基于所述待定区域对应的空间回归系数,以所述待定区域的人口感知数据作为输入数据,利用人口估算模型计算出所述待定区域的人口规模;其中,
获取与所述待定区域相邻的邻近区域的人口统计数据、人口感知数据;
调用所述人口估算模型,并利用所述邻近区域的人口统计数据、人口感知数据计算空间回归系数。
在本发明第一方面的第一种可能的实现方式中,利用相关分析方法测算预测因子与人口规模的相关性,以确定所述人口感知数据具体为在线用户总数、建设用地规模数据、夜光遥感总强度。
在本发明第一方面的第二种可能的实现方式中,所述人口估算模型,具体为多元地理加权回归模型,其函数表述如下:
yi=βi0+βi1qqi+βi2lci+βi3nli+εi
其中,yi表示城市i的人口规模,qqi、lci和nli分别表示该城市i所对应的社交用户规模、城镇土地用地规模和夜光总强度;βij(j=0,1,2,3)表示城市i的回归系数;εi为预设常数。
在本发明第一方面的第三种可能的实现方式中,所述的基于多源感知数据的人口空间化测算方法,还包括:
获取夜光遥感数据、土地利用数据及网络用户分布数据;
以所述夜光遥感数据、所述土地利用数据及所述网络用户分布数据为预测因子,建立反映所述预测因子与人口规模的相关性的人口估算模型。
在本发明第一方面的第四种可能的实现方式中,所述获取夜光遥感数据、土地利用数据及网络用户分布数据,具体为:
以行政区域为单元,利用面域统计方法,计算各行政单元内的城镇化用地总规模、夜间灯光总强度和网络通讯终端的用户总数。
在本发明第一方面的第五种可能的实现方式中,所述的基于多源感知数据的人口空间化测算方法,还包括:
获取人口统计调查数据并将所述人口统计调查数据输入所述人口估算模型,以测算所述人口估算模型的计算精度。
在本发明第一方面的第六种可能的实现方式中,基于所述待定区域对应的空间回归系数,以所述待定区域的人口感知数据作为输入数据,利用人口估算模型计算出所述待定区域的人口规模;
其中,所述空间回归系数为预设数值。
在本发明第一方面的第七种可能的实现方式中,所述人口估算模型,具体为线性回归模型,其函数表述如下:
yi=β0+β1qqi+β2lci+β3nli+εi
其中,yi表示城市i的人口规模,qqi、lci和nli分别表示该城市i所对应的社交用户规模、城镇土地用地规模和夜光总强度;εi为预设常数;[β0,β1,β2,β3]表示线性回归方法所得到的4个回归系数,对任意区域,回归系数唯一。
第二方面,本发明实施例提供了一种基于多源感知数据的人口空间化测算装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于多源感知数据的人口空间化测算方法。
第三方面,本发明实施例提供了一种基于多源感知数据的人口空间化测算装置,包括:
数据采集模块,用于获取待定区域的人口感知数据;
人口估算模块,用于基于所述待定区域对应的空间回归系数,以所述待定区域的人口感知数据作为输入数据,利用人口估算模型计算出所述待定区域的人口规模;其中,
所述数据采集模块,还用于获取与所述待定区域相邻的邻近区域的人口统计数据、人口感知数据;
所述人口估算模块,还用于调用所述人口估算模型,并利用所述邻近区域的人口统计数据、人口感知数据计算空间回归系数。
相比于现有技术,本发明实施例具有如下有益效果:
本发明提供一种基于多源感知数据的人口空间化测算方法、装置,获取待定区域的人口感知数据作为输入数据,利用人口估算模型计算出所述待定区域的人口规模,从而结合新兴的社交用户数据及传统的地理遥感数据快速准确估算我国城市人口数据,实现城市智慧管理和规划。社交用户数据能有效地反映我国人口空间分布情况,相比起现有技术具有较高人口预测能力。另外,本发明利用与所述待定区域相邻的邻近区域的人口统计数据、人口感知数据修正空间回归系数,从而有效解决不同地区由于该部分地区较偏远、存在发射信号设备较稀少且社交媒体使用率不高等情况影响回归系数数值偏差等问题,从而进一步提高各地区人口规模估算的准确率。
附图说明
图1是本发明实施例中的一种基于多源感知数据的人口空间化测算方法的步骤流程图;
图2是本发明实施例中的一种基于多源感知数据的人口空间化测算方法的估算待定区域人口规模的示意图;
图3是本发明实施例中的一种基于多源感知数据的人口空间化测算装置的模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1、2,本发明提供一种示例性实施例,一种基于多源感知数据的人口空间化测算方法,步骤包括:
使用所述基于多源感知数据的人口空间化测算方法对某地理空间的人口规模进行测算时,
先选定需要进行测算的地理区域为待定区域,与之相邻的地理区域为邻近区域;
获取待定区域的人口感知数据;
基于所述待定区域对应的空间回归系数,以所述待定区域的人口感知数据作为输入数据,利用人口估算模型计算出所述待定区域的人口规模;其中,
获取与所述待定区域相邻的邻近区域的人口统计数据、人口感知数据;
其中,所述待定区域、所述邻近区域均为以行政单位划分的地理区域;
调用所述人口估算模型,并利用所述邻近区域的人口统计数据、人口感知数据计算空间回归系数。
在本实施例中,所述人口感知数据优选为夜光遥感数据、土地利用数据及网络用户分布数据;
所述基于多源感知数据的人口空间化测算方法,还包括:
获取夜光遥感数据、土地利用数据及网络用户分布数据;
以所述夜光遥感数据、所述土地利用数据及所述网络用户分布数据为预测因子,建立反映所述预测因子与人口规模的相关性的人口估算模型。
其中,利用相关分析方法测算预测因子与人口规模的相关性。为了建立人口规模及相关预测因子之间的关系,相关分析方法被用于探测城市人口有关的定量指标,如夜光总强度、腾讯用户总数、建设用地总规模、行政边界覆盖面积等。利用相关分析方法,计算可知,腾讯在线用户总数、建设用地规模、夜光遥感总强度三个数据,相关性分别为0.78、0.72、0.65。因此,上述三个因子被选取出来,作为候选的人口预测因子。
利用相关分析方法测算预测因子与人口规模的相关性,以确定所述人口感知数据具体为在线用户总数、建设用地规模数据、夜光遥感总强度。
利用上述三个候选人口因子,采用逐步回归方法进行统计分析。结果显示,腾讯在线用户总数、建设用地规模、夜光遥感总强度,三个因子均被选入模型。
所述基于多源感知数据的人口空间化测算方法,还包括:
获取人口统计调查数据并将所述人口统计调查数据输入所述人口估算模型,以测算所述人口估算模型的计算精度。
所述获取夜光遥感数据、土地利用数据及网络用户分布数据,具体为:
以行政区域为单元,利用面域统计方法,计算各行政单元内的城镇化用地总规模、夜间灯光总强度和网络通讯终端的用户总数。
在本实施例中,考虑到人口统计数据主要以行政区域为单元,而各个预测因子则是规则的栅格结构。为了使得人口数据同社会感知及地理遥感数据相匹配,需要结合各独立行政单元的边界求取不同因子在该行政辖区内的总和,作为每个县级单元的因子值。因此,对每个县级行政单元,需要利用面域统计方法,计算各行政单元内的城镇化用地总规模、夜间灯光总强度和腾讯用户总数。
所述人口估算模型,具体为多元地理加权回归模型,其函数表述如下:
yi=βi0+βi1qqi+βi2lci+βi3nli+εi
其中,yi表示城市i的人口规模,qqi、lci和nli分别表示该城市i所对应的社交用户规模、城镇土地用地规模和夜光总强度;βij(j=0,1,2,3)表示城市i的回归系数;εi为预设常数。
所述基于多源感知数据的人口空间化测算方法,具体计算过程如下;
待估算人口的待定区域为i,周围有8个距离较近的行政单元被作为行政单元i的距离邻近单元;
邻近区域为8个邻域行政单元,获取数据包括8个先验人口数据y(y1,…,y8)及相应人口感知变量信息(包括腾讯用户数qq(qq1,…,qq8),土地利用规模lc(lc1,…,lc8)和夜光总强度nl(nl1,…,nl8),利用常规线性回归方法可求解一组回归系数,如下表示:
y=β0+β1qq+β2lc+β3nl+ε
获取到待定区域,即行政单元i的人口感知数据(qqi,lci,nli),利用上述步骤所求解得到的回归系数(β0,β1,β2,β3),可以求解待定行政单元i的人口规模为:
yi=β0+β1×qqi+β2×lci+β3×nli
依次类推,对于不同行政单元,依据其空间邻域单元信息,可以估算得到不同的因变量回归系数。显然,该方法所得到的因变量回归系数是随着行政单元的空间位置变化而改变,最终可利用各个行政单元的各自的空间回归系数,估算得到全国不同行政单元的人口规模。
基于所述待定区域对应的空间回归系数,以所述待定区域的人口感知数据作为输入数据,利用人口估算模型计算出所述待定区域的人口规模,
所述空间回归系数为预设数值。
所述人口估算模型,具体为线性回归模型,其函数表述如下:
yi=β0+β1qqi+β2lci+β3nli+εi
其中:[β0,β1,β2,β3]表示线性回归方法所得到的4个回归系数,对任意行政区域,回归系数唯一。无论中国行政单元划分多少,线性回归方法所需要估计的参数个数仅有4个;εi为预设常数。
本发明提供一种基于多源感知数据的人口空间化测算装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于多源感知数据的人口空间化测算方法。
请参见图3,一种基于多源感知数据的人口空间化测算装置,包括:
数据采集模块101,用于获取待定区域的人口感知数据;
人口估算模块102,用于基于所述待定区域对应的空间回归系数,以所述待定区域的人口感知数据作为输入数据,利用人口估算模型计算出所述待定区域的人口规模;其中,
所述数据采集模块,还用于获取与所述待定区域相邻的邻近区域的人口统计数据、人口感知数据;
所述人口估算模块,还用于调用所述人口估算模型,并利用所述邻近区域的人口统计数据、人口感知数据计算空间回归系数。
所述基于多源感知数据的人口空间化测算装置,还包括模型生成模块,用于:
获取夜光遥感数据、土地利用数据及网络用户分布数据;
以所述夜光遥感数据、所述土地利用数据及所述网络用户分布数据为预测因子,建立反映所述预测因子与人口规模的相关性的人口估算模型。
其中,利用相关分析方法测算预测因子与人口规模的相关性。为了建立人口规模及相关预测因子之间的关系,相关分析方法被用于探测城市人口有关的定量指标,如夜光总强度、腾讯用户总数、建设用地总规模、行政边界覆盖面积等。利用相关分析方法,计算可知,腾讯在线用户总数、建设用地规模、夜光遥感总强度三个数据,相关性分别为0.78、0.72、0.65。因此,上述三个因子被选取出来,作为候选的人口预测因子。
所述基于多源感知数据的人口空间化测算装置,还包括相关性分析模块,用于:
利用相关分析方法测算预测因子与人口规模的相关性,以确定所述人口感知数据具体为在线用户总数、建设用地规模数据、夜光遥感总强度。利用上述三个候选人口因子,采用逐步回归方法进行统计分析。结果显示,腾讯在线用户总数、建设用地规模、夜光遥感总强度,三个因子均被选入模型。
所述基于多源感知数据的人口空间化测算装置,还包括先验模块,用于:
获取人口统计调查数据并将所述人口统计调查数据输入所述人口估算模型,以测算所述人口估算模型的计算精度。
所述基于多源感知数据的人口空间化测算装置,还包括数据统计模块,用于:
以行政区域为单元,利用面域统计方法,计算各行政单元内的城镇化用地总规模、夜间灯光总强度和网络通讯终端的用户总数。
在本实施例中,考虑到人口统计数据主要以行政区域为单元,而各个预测因子则是规则的栅格结构。为了使得人口数据同社会感知及地理遥感数据相匹配,需要结合各独立行政单元的边界求取不同因子在该行政辖区内的总和,作为每个县级单元的因子值。因此,对每个县级行政单元,需要利用面域统计方法,计算各行政单元内的城镇化用地总规模、夜间灯光总强度和腾讯用户总数。
所述人口估算模型,具体为多元地理加权回归模型,其函数表述如下:
yi=βi0+βi1qqi+βi2lci+βi3nli+εi
其中,yi表示城市i的人口规模,qqi、lci和nli分别表示该城市i所对应的社交用户规模、城镇土地用地规模和夜光总强度;βij(j=0,1,2,3)表示城市i的回归系数;εi为预设常数。
所述基于多源感知数据的人口空间化测算方法,具体计算过程如下;
待估算人口的待定区域为i,周围有8个距离较近的行政单元被作为行政单元i的距离邻近单元;
邻近区域为8个邻域行政单元,获取数据包括8个先验人口数据y(y1,…,y8)及相应人口感知变量信息(包括腾讯用户数qq(qq1,…,qq8),土地利用规模lc(lc1,…,lc8)和夜光总强度nl(nl1,…,nl8),利用常规线性回归方法可求解一组回归系数,如下表示:
y=β0+β1qq+β2lc+β3nl+ε
获取到待定区域,即行政单元i的人口感知数据(qqi,lci,nli),利用上述步骤所求解得到的回归系数(β0,β1,β2,β3),可以求解待定行政单元i的人口规模为:
yi=β0+β1×qqi+β2×lci+β3×nli
依次类推,对于不同行政单元,依据其空间邻域单元信息,可以估算得到不同的因变量回归系数。显然,该方法所得到的因变量回归系数是随着行政单元的空间位置变化而改变,最终可利用各个行政单元的各自的空间回归系数,估算得到全国不同行政单元的人口规模。
基于所述待定区域对应的空间回归系数,以所述待定区域的人口感知数据作为输入数据,利用人口估算模型计算出所述待定区域的人口规模,
所述空间回归系数为预设数值。
所述人口估算模型,具体为线性回归模型,其函数表述如下:
yi=β0+β1qqi+β2lci+β3nli+εi
其中:[β0,β1,β2,β3]表示线性回归方法所得到的4个回归系数,对任意行政区域,回归系数唯一。无论中国行政单元划分多少,线性回归方法所需要估计的参数个数仅有4个;εi为预设常数。
本发明还提供一种具体实施例,本实施例以我国2000多个县市行政单元作为测算区域,结合收集到的全国多源社会感知及地理遥感数据,进行人口估算。
收集到的数据包括2015年末县市级人口统计调查数据,全国夜光遥感数据,土地利用数据及腾讯用户分布数据等。其中,2015年人口统计调查数据来源于各地方的人口统计年鉴。全国土地利用数据来自欧空局所制作的标准化全球土地利用覆盖产品,并利用我国边界图截取了我国土地利用覆盖部分。夜光遥感数据采用的为美国航空航天局所制作的2015年年平均npp/viirs夜光强度数据,该数据已做去云和去异常值处理。以及,从网络社交软件取得在线用户数。
具体地,用到的县级行政单元有2868个,考虑到每个县级单元有3种不同数据,因此相应的预测变量的大小为2868×3。进一步,利用县级单元的人口规模同人口感知因子之间的关系,可建立人口估算模型。
根据所建立的人口估算模型,对各单元模拟人口总数相加,可以得到我国2015年的总人口模拟值为13.71亿,而当年实际人口调查总数为13.69亿,总人口模拟准确度约为99.8%。
本发明提供一种基于多源感知数据的人口空间化测算方法、装置,获取待定区域的人口感知数据作为输入数据,利用人口估算模型计算出所述待定区域的人口规模,从而结合新兴的社交用户数据及传统的地理遥感数据快速准确估算我国城市人口数据,实现城市智慧管理和规划。社交用户数据能有效地反映我国人口空间分布情况,相比起现有技术具有较高人口预测能力。另外,本发明利用与所述待定区域相邻的邻近区域的人口统计数据、人口感知数据修正空间回归系数,从而有效解决不同地区由于该部分地区较偏远、存在发射信号设备较稀少且社交媒体使用率不高等情况影响回归系数数值偏差等问题,从而进一步提高各地区人口规模估算的准确率。
进一步的,不同人口感知因子对我国不同地区具有一定的适应性,对某些地区好,可能某些地区较差。这也间接说明,模型和因子的选择都需要利用空间分异规律,才能更好的预测我国人口的空间分布,特别是对于我国中部和西部地区。本发明利用网络社交数据,城市土地利用及夜光遥感数据,利用多源数据进行估算,相比起单一人口感知数据更准确。
进一步的,本发明利用多元地理加权回归模型为非线性人口估算方法,相比起线性回顾估算方法,估算精度更高。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。