一种基于POIs数据的人口空间分布预测方法及系统与流程

文档序号:19157478发布日期:2019-11-16 01:00阅读:1931来源:国知局
一种基于POIs数据的人口空间分布预测方法及系统与流程

本发明涉及互联网大数据领域,特别涉及一种基于pois数据的人口空间分布预测方法及系统。



背景技术:

掌握人口信息可以为区域可持续发展研究、规划等工作提供科学支撑。空间化的人口能够更好的接近人口的实际空间分布,同时打破传统行政区边界,实现人口、资源与环境等信息的融合,因此,人口空间化成为一个重要的研究热点。

目前,人口空间化主要是利用与人口分布相关的辅助变量进行区域插值,进而指导人口的重新分布。通常,所用辅助变量的质量和适当性会影响人口空间分布结果的准确性与精细尺度。因此,应用有效的辅助变量对于精细、准确的人口空间化具有重要意义。

人口空间化最常用的辅助变量是遥感数据和地理空间大数据。遥感数据中土地利用/覆盖数据和夜间灯光数据在人口空间化的应用中比较广泛。土地利用数据的空间格局与人口的空间分布关系紧密,基于土地利用类型与人口分布的关系,建立多元回归模型进行人口空间分布模拟的方法应用最为广泛。例如:基于dasymetric映射原理,yuany应用多元回归分析方法,分析了普查人口数量与土地覆盖类型的相关性。之后根据发现的相关性和gis技术将人口普查数据换算成gis栅格数据。然而仅利用土地利用/覆盖数据难以反映同一土地利用类型人口分布特征的差异,因此有些学者开始引入夜间灯光数据对土地利用数据进行重分类或者特征提取,从而提高人口空间预测的结果精度。由美国军事气象卫星defensemeteorologicalsatelliteprogram(dmsp)搭载的operationallinescansystem(ols)传感器获取的夜间灯光数据分辨率为1km,多被应用于大、中尺度的人口空间化处理。夜间灯光数据用于人口数据空间化建模时,融合了土地利用、居民地等信息,具有综合性强,所需建模因子少的特点。xiaomal将辐射校正后的dmsp夜间光(rcntl)与城市土地相结合,提出了城市夜间光(untl)指数,并以此为权重对县级城市人口进行空间化。以北京市城镇人口为参考进行验证,结果表明,该方法具有较好的准确性,平均相对误差为38%,相对误差为68%。

随着新一代传感器viirs(visibleinfraredimagingradiometersuite)的发射,人口空间化的研究又多了新的数据源。但夜间灯光数据的空间分辨率为500m或1km,使得研究结果停留在大、中尺度,难以实现精细空间尺度的人口空间化研究。

因此,利用遥感数据(土地利用数据、夜间灯光数据等)进行的人口空间化研究结果难以体现精细尺度的人口分布特征。



技术实现要素:

为了克服上述人口空间化精细尺度较低的技术问题,本发明实施例提供一种基于pois数据的人口空间分布预测方法及系统,pois作为单独的辅助变量开展人口空间分布预测,以期人口空间化的空间尺度更加精细,应用更具普适性。

本发明实施例提供一种基于pois数据的人口空间分布预测方法,包括:

将待预测地区划分为q个格网,每个格网为预设面积的区域;

统计所述q个格网内pois的个数;

将所述pois的个数,作为输入变量,输入预设的bpnn模型;

输出每个格网内人口分布预测结果。

在一个实施例中,所述预设的bpnn模型通过如下步骤生成:

统计所述待预测地区n个行政区内各类pois的个数,生成n个样本;

获取所述n个行政区内官方人口数据;

将所述n个样本随机划分为n1个训练集和n2个测试集;

将所述n1个训练集作为输入变量、所述n1个训练集对应的官方人口数据作为输出目标,训练并构建bpnn模型。

在一个实施例中,还包括:

通过所述n2个测试集检验bpnn模型的预测精度。

在一个实施例中,将待预测地区划分为q个格网,每个格网为预设面积的区域,包括:

通过arcgis的渔网工具,将待预测地区划分为q个150m×150m分辨率的格网。

在一个实施例中,统计所述q个格网内pois的个数,包括:

通过第三方api接口获取所述q个格网内pois的个数、位置坐标、类别和名称。

第二方面,本发明实施例还提供一种基于pois数据的人口空间分布预测系统,包括:

划分模块,用于将待预测地区划分为q个格网,每个格网为预设面积的区域;

统计模块,用于统计所述q个格网内pois的个数;

输入模块,用于将所述pois的个数,作为输入变量,输入预设的bpnn模型;

输出模块,用于输出每个格网内人口分布预测结果。

在一个实施例中,所述划分模块,具体用于通过arcgis的渔网工具,将待预测地区划分为q个150m×150m分辨率的格网。

在一个实施例中,所述统计模块,具体用于通过第三方api接口获取所述q个格网内pois的个数、位置坐标、类别和名称。

本发明实施例提供的一种基于pois数据的人口空间分布预测方法,包括:将待预测地区划分为q个格网,每个格网为预设面积的区域;统计所述q个格网内pois的个数;将所述pois的个数,作为输入变量,输入预设的bpnn模型;输出每个格网内人口分布预测结果。该方法采用pois相比利用夜间灯光以及土地利用数据作为辅助数据的人口空间化研究空间精度大大提升;有助于实现快速、高空间分辨率的人口密度空间预测;并利用机器学习bpnn模型实现了人口的空间分布预测,预测结果精度较高。即:通过引入pois作为单一的辅助数据,并利用bpnn模型实现人口的空间分布预测,可实现精细尺度的人口空间化预测。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例提供的基于pois数据的人口空间分布预测方法的流程图。

图2为本发明实施例提供的设的bpnn模型生成步骤的流程图。

图3为本发明实施例提供的bpnn网络结构示意图。

图4为本发明实施例提供的预测广州市人口空间化的技术路线图。

图5为本发明实施例提供的广州市真实人口与估计的人口之间的线性关系图。

图6为本发明实施例提供的基于bpnn模型的人口密度空间预测结果示意图。

图7为本发明实施例提供的基于pois数据的人口空间分布预测系统框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1所示,为本发明实施例提供的基于pois数据的人口空间分布预测方法,包括:

s11、将待预测地区划分为q个格网,每个格网为预设面积的区域;

s12、统计q个格网内pois的个数;

s13、将pois的个数,作为输入变量,输入预设的bpnn模型;

s14、输出每个格网内人口分布预测结果。

本实施例中,pois作为一种新的、可靠的人口空间化辅助数据。pois(pointsofinterest)是地理空间大数据的一种,也可以表述为用户通过带有gps的智能终端记录某一时刻所处位置而产生的具有空间性、时间性和社会化属性的数据。它可以代表餐饮、工厂、商业甚至是占有一定面积的地理存在。pois数据具有易获取、现势性强、数据量丰富、定位精度高、更能反映微观细节信息等特点,能够弥补传统辅助数据难以反映精细尺度人口分布以及难获取等缺点。

利用pois作为单独的辅助变量开展人口空间分布预测,以期人口空间化的空间尺度更加精细,应用更具普适性。

其中:pois是指:购物,餐饮,教育医疗,文化体育,交通设施,旅游景点,商业,公司企业,政府机构和工厂等。

该方法采用pois相比利用夜间灯光以及土地利用数据作为辅助数据的人口空间化研究空间精度大大提升;有助于实现快速、高空间分辨率的人口密度空间预测;并利用机器学习bpnn模型实现了人口的空间分布预测,预测结果精度较高。即:通过引入pois作为单一的辅助数据,并利用bpnn模型实现人口的空间分布预测,可实现精细尺度的人口空间化预测。

在一个实施例中,参照图2所示,上述步骤s14中预设的bpnn模型通过如下步骤生成:

s21、统计待预测地区n个行政区内各类pois的个数,生成n个样本;

s22、获取n个行政区内官方人口数据;

s23、将n个样本随机划分为n1个训练集和n2个测试集;

s24、将n1个训练集作为输入变量、n1个训练集对应的官方人口数据作为输出目标,训练并构建bpnn模型。

本实施例中,可以利用arcgis的渔网工具,将待预测地区划分q个150m×150m分辨率的格网,并统计各个格网内各类pois的个数。将q个栅格的各类pois统计个数作为bpnn模型的输入变量,预测每个格网内人口的数量。上述步骤s22中,官方人口数据,是指具有户籍的人口数据。户籍人口是指公民依《中华人民共和国户口登记条例》已在其经常居住地的公安户籍管理机关登记了常住户口的人。通常可以通过查阅当地统计年鉴获取。

本实施例中,利用pois作为辅助数据,可以通过第三方api接口获取pois的个数、位置坐标、类别和名称等。

具体的比如pois由百度地图api提供,通过调用百度地图的placeapi快速获取百度地图中包括餐饮、工厂、商业等10类poi数据。这10种类型的poi与百度地图划分的poi行业类型保持一致。获取的pois包括位置坐标、类别、名称等属性信息。整理获取的数据,筛选出位置坐标重复,或者位置坐标属性缺失的部分数据,得到有效数据。

模型构建如下:

统计待预测镇(n个镇)内各类的pois个数并整理各个镇的户籍人口,构成n个样点。每个样点有两类属性,第一类属性表示该镇各类pois的个数,第二类属性是该镇的户籍人口数量。可以利用arcgis10.3软件中的统计分析模块的创建子集功能,将n个样点随机划分为n1个训练集(比如总数据的70%),和n2个测试集(比如总数据的30%),其中测试集作为独立验证集将不参与模型的训练。

利用n1个训练集构建bpnn模型(其中,各镇中各类pois的个数为输入变量,各镇中户籍人口的数据为输出目标),利用n2个测试集检验bpnn模型的预测精度。预测精度的计算需要根据预测值与真实值,分别计算平均绝对误差mae(meanabsoluteerror,公式1),均方根误差rmse(rootmeansquareerror,公式2),以及r2(公式3),检验bpnn模型是否适合进行人口空间分布预测。

其中,是bpnn模型的估计值,的平均值,z(uα)是官方获取的户籍人口数据。

可根据上述mae、rmse、以及r2这三个值,判定模型的精度。比如:bpnn模型对人口的预测精度为r2的正常取值范围为[01],越接近1,表明pois对人口的解释能力越强;且mae以及rmse值足够小,说明该模型适合进行人口空间分布预测。

其中,bpnn(back-propagationneuraletwork)是在ann中算法最成熟、应用最广泛的一种。参照图3所示,为bpnn网络结构示意图,为了充分探索人口与pois之间的非线性特性,本实施例建立了具有两层隐层的bpnn模型,以保证模型的稳定性;该bpnn模型在matlab2013b中执行。

进一步地,上述参照图2所示,还包括:

s25、通过n2个测试集检验bpnn模型的预测精度。

比如,可以将150m×150m的人口空间化结果反算至乡镇水平,与乡镇真实户籍人口作对比,检验人口空间化结果的精度。为反映最终人口密度空间预测的精度水平,可以选取n个镇的人口普查数据作为真实数据,同时采用平均绝对误差(mae)、均方根误差(rmse)来衡量对比人口普查数据与worldpop数据集(https://www.worldpop.org/)、ghs数据集(250m)(https://ghslsys.jrc.ec.europa.eu/)、landscan数据集(https://landscan.ornl.gov/)、中国公里格网人口分布数据集(http://www.resdc.cn/default.aspx)以及本bpnn模型预测结果数据集的精度。具体的的精度衡量,可参照下述具体实施例内容。

其中,worldpop数据集分辨率为3弧(赤道约100米),投影是地理坐标系为wgs84,单位是每个像素的人数,映射方法是基于随机森林的二次分布。ghs-pop空间栅格数据集描绘了人口的分布和密度,表示为每个栅格的人数,坐标系为worldmollweide(epsg:54009),分辨率为30弧(赤道约250米)。landscan全球人口动态统计分析数据库由美国能源部橡树岭国家实验室(ornl)开发,eastviewcartographic提供,landscan运用gis和遥感等创新方法,是全球人口数据发布的社会标准,是全球最为准确、可靠,基于地理位置的,具有分布模型和最佳分辨率的全球人口动态统计分析数据库,是gis格栅格式的高分辨率人口分布数据(30弧秒,或赤道1公里)。

中国人口空间分布公里网格数据集是在全国分县人口统计数据的基础上,综合考虑了与人口密切相关的土地利用类型、夜间灯光亮度、居民点密度等多因素,利用多因子权重分配法将以行政区为基本统计单元的人口数据展布到空间格网上,从而实现人口的空间化。该数据为栅格数据类型,每个栅格代表该网格范围(1平方公里)内的人口数,单位为人/平方公里,数据格式为gird,数据以krassovsky椭球为基准,投影方式为albers投影。

下面选用广州市作为待预测区域,参照图4所示,进行详细说明本发明的技术方案。

step1:获取广州市pois数据以及户籍人口数据

广州市是广东省的政治、经济、文化、教育和科技中心,是华南地区和珠三角地区重要的区域性中心城市,位于112°57′~114°03′e,22°26′~23°56′n。为了更好的理解本发明的技术方案:需要指出是广州的行政区划由三个层次组成。第一个等级是广州市,属于中国的地级市。第二个等级是县级部门(county-level),指的是在广州11区。第三个是乡镇级别划分(township-level),是指广州170个乡镇。

广州人口规模大,2015年常住人口达到1350.11万,其中户籍人口854.19万,非户籍常住人口超过495万。统计并计算11个区的户籍人口密度,发现越秀区的人口密度(34757.22人/平方公里)最大,从化区的人口密度最小(311.41人/平方公里)。高密度的人口对广州市今后的发展提出了挑战,而研究广州市的人口空间分布可以为广州市的经济决策、城市规划、犯罪管理等提供研究基础。

通过查阅2015年广州市11个行政区的统计年鉴,从而获取广州市170个镇的人口户籍数据。

研究通过调用百度地图的placeapi快速获取百度地图中包括餐饮、工厂、商业等10类poi数据。这10种类型的poi与百度地图划分的poi行业类型保持一致。获取的pois包括经纬网坐标、类别、名称等属性信息,如表1所示。

表1poi属性概览(举例)

整理获取的数据,筛选出重复或者属性缺失的部分数据,得到有效数据。共344492个(其中包括:购物5217个,餐饮72961个,教育医疗11701个,文化体育16598个,交通设施61245个,旅游景点5592个,商业5085个,公司企业126000个,政府机构29750个,工厂10343个)。

step2:模型构建

统计广州市170个镇内各类的pois个数,利用arcgis软件中地统计分析模块的创建子集功能,将170个样点随机划分为119个训练集(总数据的70%),和51个测试集(总数据的30%),其中测试集作为独立验证集将不参与模型的训练。

将119个训练集的各类pois个数作为bpnn模型的输入变量,整理对应119个样点的户籍人口,作为bpnn模型的输出目标,从而构建基于bpnn模型人口空间分布预测模型。根据公式(1)-(3)检验bpnn模型是否适合进行人口空间分布预测,模拟精度如表2以及图5所示。

表2人口空间化模型的预测精度

根据表2所示,bpnn模型对人口的预测精度为r2=90.3%。双层隐含层结构的bpnn模型具有更好的稳定性及泛化性。事实上,通过增加隐含层神经元个数,能够将预测精度无限逼近1,但是同时造成过拟合现象。本研究中,当神经元个数超过30,bpnn模型容易出现过拟合。图5显示了基于bpnn模型得到的估计人口和真实人口之间的线性关系(包括训练集与测试集)。可以看出,基于bpnn模型的人口散点图有好的紧凑性和少的离群值。综上,bpnn模型能够在一定程度上较好的解释人口与pois之间的非线性关系。bpnn模型适合用来进行人口的空间分布预测。

step3:人口空间分布预测

利用arcgis10.2的渔网工具,将研究区划分150m×150m分辨率的格网(q=322202),并统计各个格网内各类poi的个数。将322202个栅格的各类pois统计个数作为bpnn模型的输入变量,从而进行广州市的人口空间分布预测。预测结果如图6所示。图6为150m×150m分辨率的广州市人口空间分布数据,每个栅格代表该网格范围(22500平方米)内的人口数。

从图6可以看出,人口主要分布在城市、农村居民点上。统计170个镇的预测结果,发现人口最多的镇为新华街道,有195543人(实际统计人口为180000人)。人口最少的镇为龙穴街道(实际统计人口为3151人)有4240人,均与实际情况相符。

step4:人口空间化结果精度检验

为反映最终人口密度空间预测的精度水平,选取170个镇的人口普查数据作为真实数据,同时采用平均绝对误差(mae)、均方根误差(rmse)来衡量对比人口普查数据与worldpop数据集(https://www.worldpop.org/)、ghs数据集(250m)(https://ghslsys.jrc.ec.europa.eu/)、landscan数据集(https://landscan.ornl.gov/)、中国公里格网人口分布数据集(http://www.resdc.cn/default.aspx)以及本研究预测结果数据集的精度。

根据表3可以看出,利用pois作为辅助数据,基于bpnn模型进行的人口空间分布预测结果的精度相对较高(rmse=143105.08,mae=380625.91)。worldpopdata在本研究区的精度最低(rmse=466592.73,mae=43775.11)。这说明,本研究所使用的的方法可以进一步应用于人口密度空间预测中。

表3本研究与其他研究中的精度对比

本发明实施例提供的基于pois数据的人口空间分布预测方法,利用pois数据作为辅助:

1)利用pois预测人口空间分布

利用pois数据作为辅助数据可以实现空间尺度更加精细的人口空间化研究。相比利用夜间灯光以及土地利用数据作为辅助数据的人口空间化研究,空间精度大大提升。总之,pois的应用有助于实现快速、高空间分辨率的人口密度空间预测。

2)利用机器学习模型预测人口空间分布

利用机器学习bpnn模型实现了人口的空间分布预测。其结果精度比landscan数据集、worldpop数据集以及资源环境云平台人口数据集高。

基于同一发明构思,本发明实施例还提供了一种基于pois数据的人口空间分布预测系统,由于该系统所解决问题的原理与前述方法相似,因此该系统的实施可以参见前述方法的实施,重复之处不再赘述。

第二方面,本发明实施例还提供一种基于pois数据的人口空间分布预测系统,参照图7所示,包括:

划分模块71,用于将待预测地区划分为q个格网,每个格网为预设面积的区域;

统计模块72,用于统计q个格网内pois的个数;

输入模块73,用于将pois的个数,作为输入变量,输入预设的bpnn模型;

输出模块74,用于输出每个格网内人口分布预测结果。

在一个实施例中,划分模块71,具体用于通过arcgis的渔网工具,将待预测地区划分为q个150m×150m分辨率的格网。

在一个实施例中,统计模块72,具体用于通过第三方api接口获取q个格网内pois的个数、位置坐标、类别和名称。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1