基于多模型融合的人口分布估计方法、装置及存储介质

文档序号:27095725发布日期:2021-10-27 16:52阅读:129来源:国知局
基于多模型融合的人口分布估计方法、装置及存储介质

1.本发明涉及深度学习和人口分布估计技术领域,具体涉及一种基于多模型融合的人口分布估计方法、装置及存储介质。


背景技术:

2.人口空间分布是指人口在一定时期内的分布情况。对于资源利用、城市灾害评估、调控环境和城市化进程而言,准确了解人口分布和人口数量至关重要。以调查为基础的人口普查可以提供一个国家人口的全面概况,但一方面,人口普查需耗费较多人力物力资源,另一方面,按行政区划划分的人口分布估计的空间分辨率较低,不适合细粒度的城市管理,实施成本较高。


技术实现要素:

3.本发明解决的问题是现有的按行政区划划分的人口分布估计的空间分辨率较低。
4.本发明提出一种基于多模型融合的人口分布估计方法,包括:将人口分布估计区域划分为多个地理单元;获取每个所述地理单元的人口分布影响因子;基于所述地理单元之间的邻接关系生成每个所述地理单元的一阶邻接矩阵,分别根据每个所述地理单元的人口分布影响因子和每个所述地理单元的一阶邻接矩阵生成每个所述地理单元的多源空间表示数据;分别将每个所述地理单元的多源空间表示数据和人口分布影响因子作为预置的人口分布估计模型的输入,由所述人口分布估计模型分别输出每个所述地理单元的人口估计值,其中,所述人口分布估计模型包括空间矩阵特征编码模型、全局属性特征编码模型、数据融合模型及分类器模型,所述空间矩阵特征编码模型用于从所述多源空间表示数据中提取局部空间特征,所述全局属性特征编码模型用于从所述人口分布影响因子中提取全局属性特征,所述数据融合模型用于将所述局部空间特征和所述全局属性特征融合得到融合特征,所述分类器模型用于基于所述融合特征生成所述人口估计值。
5.可选地,所述多源空间表示数据为高维张量形式。
6.可选地,所述人口分布影响因子包括以下至少一者:夜间遥感灯光程度、地理单元与每个兴趣点类别的最短距离、地理单元与每个路网类别的最短距离、土地覆盖、地形坡度、植被指数、草地比例、耕地比例和不透水面比例。
7.可选地,所述将人口分布估计区域划分为多个地理单元包括:获取所述人口分布估计区域的基础影像数据;对所述基础影像数据进行统一坐标投影,并使用邻接法将其重采样到预设分辨率大小,将所述预设分辨率对应的基础影像中的每个网格作为一个地理单元。
8.可选地,所述空间矩阵特征编码模型包括卷积神经网络模型。
9.可选地,所述卷积神经网络模型包括:输入层、卷积层、池化层、全连接层和输出
层,其中,输入矩阵大小为3
×
3,卷积核和池化核的大小为2
×
2,所述卷积层由多个权重共享内核和一个非线性激活函数组成,所述卷积层的输出经过所述全连接层处理后得到所述局部空间特征。
10.可选地,所述全局属性特征编码模型包括多层感知器模型,所述多层感知器模型包括输入层、隐藏层和输出层。
11.可选地,所述数据融合模型包括至少一个全连接层,所述分类器模型包括至少一个全连接层,所述数据融合模型用于将所述局部空间特征和所述全局属性特征融合后,输入到所述分类器模型的全连接层,由所述分类器模型输出所述人口估计值。
12.本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如上所述的基于多模型融合的人口分布估计方法。
13.本发明还提出一种基于多模型融合的人口分布估计装置,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的基于多模型融合的人口分布估计方法。
14.本发明的有益效果为:采用多源数据空间表示方法,将从卫星影像数据、兴趣点数据和道路网等多源数据提取到的人口分布影响因子表征为多维张量,并作为人口分布估计模型的输入,基于卷积神经网络的方法从地理单元的一阶邻接矩阵中提取空间相关性特征,基于多层感知机的方法从影响因子中提取地理单元的全局属性特征,充分考虑了地理单元的局部空间信息和全局属性信息,能够取得很好的人口分布估计效果。
附图说明
15.图1为本发明实施例基于多模型融合的人口分布估计方法流程一示意图;图2为本发明实施例基于多模型融合的人口分布估计方法中多源空间数据表示数据的示意图;图3为本发明实施例基于多模型融合的人口分布估计方法中人口分布估计模型的示意图;图4为本发明实施例基于多模型融合的人口分布估计方法又一示意图。
具体实施方式
16.为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
17.如图1,在本发明一实施例中,所述基于多模型融合的人口分布估计方法包括:步骤s100,将人口分布估计区域划分为多个地理单元。
18.人口分布估计区域,指人口分布的研究区域,例如,某国家、某省份、某市、某区,或者某平原、一定经纬度划分的区域。地理单元为本发明中人口分布估计的最小单元。
19.可选地,步骤s100包括:获取所述人口分布估计区域的基础影像数据;对所述基础影像数据进行统一坐标投影,并使用邻接法将其重采样到预设分辨率大小,将所述预设分辨率对应的基础影像中的每个网格作为一个地理单元。
20.通过获取卫星遥感影像数据,从卫星遥感影像数据中裁剪出人口分布估计区域,
得到人口分布估计区域的基础影像数据。在人口分布估计区域为某省份、某市区等特定行政区时,可使用行政区划数据对卫星遥感影像数据进行初步裁剪,以得到人口分布估计区域的基础影像数据。
21.再将其进行使用邻接法重采样到预设分辨率,例如重采样到100m。并对其统一坐标投影,即将所有数据统一坐标系,具体可使用统一空间坐标系下的通用横向墨卡托(utm)地图投影进行一致投影。
22.其中,卫星遥感影像数据可为夜间灯光卫星遥感影像数据。
23.现有的按行政区划划分的人口分布估计的空间分辨率较低,因而在本发明中,将基于行政单位的人口估计转换为超越行政区划及地理限制的空间网格的人口估计,实现高空间分辨率的更为精细的人口分布估计。
24.由上述做法,当预设分辨率取100m时,每个网格为一个地理单元,每个地理单元的各种属性,如土地覆盖、地形坡度、植被指数等属性,组成一个100m分辨率的统一空间数据集。
25.步骤s200,获取每个所述地理单元的人口分布影响因子。
26.人口分布影响因子,即影响人口分布的因素。可选地,所述人口分布影响因子包括但不限于以下至少一者:夜间遥感灯光程度、地理单元与每个兴趣点类别的最短距离、地理单元与每个路网类别的最短距离、土地覆盖、地形坡度、植被指数、草地比例、耕地比例和不透水面比例。
27.其中,夜间遥感灯光程度为指遥感影像像元亮度值。
28.地理单元与每个兴趣点类别的最短距离,指地理单元到最近的每个兴趣点类别的距离。兴趣点类别(poi)包含住宅、学校、商场等多个类别,不同类别的兴趣点可影响人口分布,也可反映实际的人口分布。将所有兴趣点类别的所有距离层输出为100m空间分辨率的栅格层。
29.地理单元与每个路网类别的最短距离,指地理单元到最近的每个路网类别的距离。上述距离,可指欧几里得距离。
30.步骤s300,基于所述地理单元之间的邻接关系生成每个所述地理单元的一阶邻接矩阵,分别根据每个所述地理单元的人口分布影响因子和每个所述地理单元的一阶邻接矩阵生成每个所述地理单元的多源空间表示数据。
31.其中,多源空间表示数据表示为高维张量形式。
32.地理单元的一阶邻接矩阵,指与地理单元直接相邻的地理单元形成的邻接矩阵。图2展示了多源空间表示数据的形成过程。图2中的a为多源地理空间数据,包括灯光数据(ntl)、植被覆盖指数数据(ndvi)、土地利用和土地覆盖(lulc)和poi数据、路网数据。图2中的b为地理空间单元表示,其首先确定研究区域内的地理单元,确定地理单元之间的邻接关系,使用v1、v2、v3...vi表示研究区域内不规则的地理单元,确定vi的一阶邻接地理单元,再基于vi的一阶邻接地理单元构建vi的多维信息表示,vi的多维信息表示包含vi的一阶邻接地理单元以及地理单元的各个属性(即各个影响因子),图2中的attr指属性,i,j表示空间位置:经度和纬度,n为影响因子。图2中的c为多源空间表示数据的多维张量表示,其中,r为中心地理单元(待预估的地理单元),其周边的深色网格即其一阶邻接矩阵。
33.给定一个地理单元,其具有与其对应的人口分布影响因子,一般空间数据可以抽
象为一个映射:f:v

s,其中,v表示地理单元的集合,s表示人口分布影响因子集合,相应的数据结构可以表示为 <x,attri>,x表示地理单位的位置attri表示人口分布影响因子的值。
34.将中心地理单元(待预估的地理单元)的多源空间数据表示成多维张量的形式,其优点是:从一阶空间矩阵上看,地理格局表现为不同属性的空间分异,这样可以考虑到邻接地理单元信息的空间分异性,即,将多源空间数据表示成规则的图像数据形式,有利于cnn模型训练。
35.步骤s400,分别将每个所述地理单元的多源空间表示数据和人口分布影响因子作为预置的人口分布估计模型的输入,由所述人口分布估计模型分别输出每个所述地理单元的人口估计值,其中,所述人口分布估计模型包括空间矩阵特征编码模型、全局属性特征编码模型、数据融合模型及分类器模型,所述空间矩阵特征编码模型用于从所述多源空间表示数据中提取局部空间特征,所述全局属性特征编码模型用于从所述人口分布影响因子中提取全局属性特征,所述数据融合模型用于将所述局部空间特征和所述全局属性特征融合得到融合特征,所述分类器模型用于基于所述融合特征生成所述人口估计值。
36.其中,全局属性特征编码模型的输入为中心地理单元的人口分布影响因子,其数据组织形式为一个多维的向量,例如1*n的向量,n表示影像因子的类别数量。
37.其中,空间矩阵特征编码模型包括卷积神经网络模型(cnn模型),卷积神经网络模型包括:输入层、卷积层、池化层、全连接层和输出层,其中,输入矩阵大小为3
×
3,卷积核和池化核的大小为2
×
2,所述卷积层由多个权重共享内核和一个非线性激活函数组成,所述卷积层的输出经过所述全连接层处理后得到所述局部空间特征。
38.即,使用卷积神经网络模型从一阶邻接矩阵中提取空间相关性特征。
39.如图3,在输入的多维张量中,提取中心地理单元(待预估的地理单元)的3
×
3一阶邻接矩阵作为卷积神经网络模型的输入,其中,3
×
3的一阶邻接矩阵包含矩阵本身表征的空间位置关系以及矩阵中每个地理单元的人口分布影响因子。
40.可选地,如图3,所述全局属性特征编码模型包括多层感知器模型(mlp模型),所述多层感知器模型包括输入层、隐藏层和输出层。
41.多层感知器模型的输入数据为中心地理单元(待预估的地理单元)本身,包含中心地理单元的人口分布影响因子,多层感知器模型用于学习人口分布影响因子与人口数量的非线性映射关系。
42.可选地,所述数据融合模型包括至少一个全连接层,所述分类器模型包括至少一个全连接层,所述数据融合模型用于将所述局部空间特征和所述全局属性特征融合后,输入到所述分类器模型的全连接层,由所述分类器模型输出所述人口估计值。
43.其中,可通过将局部空间特征和全局属性特征直接拼接,实现二者的融合,具体可在数据融合模型的全连接层实现二者的融合。
44.融合特征输入到分类器模型后,通过分类器模型中的全连接层实现数据高维到低维的空间映射,即实现降维和信息提取,全连接层的激活函数为softmax函数,该函数可以将神经元的输出转换为预测每一个人口估计值的概率,最后最大概率值对应的估计人口作为模型人口估计的结果。
45.通过多个全连接层,可提升人口分布估计模型的非线性表达能力。
46.通过将卷积神经网络模型和多层感知器模型融合,卷积神经网络模型可以充分利用卷积神经网络的优点捕捉到地理单元的空间局部信息,多层感知器模型可很好地捕捉到人口分布与其影响因子之间的非线性关系,再通过数据融合模型将卷积神经网络模型和多层感知器模型提取的特征进行拼接,拼接后的特征输入到多个全连接层,最后通过全连接层中的非线性函数得到标签数据与人口分布影响因子之间的非线性对应关系,得到准确的人口估计值。
47.如图3,人口分布估计模型f包括从多源空间表示数据中提取局部空间特征的空间矩阵特征编码模型f
s
、从人口分布影响因子中提取全局属性特征的全局属性特征编码模型f
d
、将局部空间特征和全局属性特征融合的数据融合模型f
f
以及输出人口估计值的分类器模型。人口分布估计模型f以一阶邻接矩阵和地理中心单元作为输入,输出所有类别的预测概率分布,其定义为:p=f(s,d)=f
f
(f
s
(s),f
d
(d))。
48.其中,cnn模型被设计为空间矩阵特征编码模型,而mlp模型被设计为全局属性特征编码模型,将提取到的空间特征和属性特征进一步融合并输入到全连接层(fc),进行回归预测,结果输出中心地理单元的人口估计值。
49.本发明的有益效果为:采用多源数据空间表示方法,将从卫星影像数据、兴趣点数据和道路网等多源数据提取到的人口分布影响因子表征为多维张量,并作为人口分布估计模型的输入,基于卷积神经网络的方法从地理单元的一阶邻接矩阵中提取空间相关性特征,基于多层感知机的方法从影响因子中提取地理单元的全局属性特征,充分考虑了地理单元的局部空间信息和全局属性信息,能够取得很好的人口分布估计效果。
50.如图4所示,在验证本发明所述的基于多模型融合的人口分布估计方法的有效性时,执行如下操作:使用tensorflow框架,并设置两组对比实验,第一组采用本发明所述的基于多模型融合的人口分布估计方法,使用人口分布估计模型,另外一组,采用基于mlp的模型来训练数据集。两组设置同样的训练样本,以开放访问的格网人口数据集worldpop中的人口数据作为标签数据,以乡级人口密度作为验证集,其中,乡级人口密度指乡镇级行政区划的人口密度,从统计年鉴上得到,这里的验证指,本发明所述的人口分布估计模型估计出来的人口与乡镇级统计人口进行误差计算。训练集和测试集按7:3的比例随机划分。然后将训练好的模型用于人口模拟,根据每个地理单元的全局和局部空间特征预测相应位置的人口数值。将100m
×
100m的栅格图层(包括坡度、夜间灯光遥感亮度值、植被指数、地理单元与每个兴趣点类别的最短距离、地理单元与每个路网类别的最短距离、草地、耕地和不透水面的比例等)聚合在一起,并与worldpop标签数据关联起来,以训练cnn模型。然后使用非线性关系将乡级人口普查数值分解为像素,用可视化的方式展示出来,最后为了保证实验结果的可靠性,进行三次实验,并取三次的平均值作为人口数据空间化的最终结果。
51.本发明一实施例中,基于多模型融合的人口分布估计装置包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的基于多模型融合的人口分布估计方法。本发明基于多模型融合的人口分布估计装置相对于现有技术所具有的有益效果与上述基于多模型融合的人口分布估计方法一致,此处不赘述。
52.本发明一实施例中,计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如上所述的建筑给水系统数据库构建方法。本发明计算机可读存储介质相对于现有技术所具有的有益效果与上述建筑给水系统数据库构建方法一致,此处不赘述。
53.读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
54.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1