本发明涉及人口数据信息分析技术领域,尤其涉及一种活跃人口数量的预测方法。具体来讲涉及利用包括手机信令数据、气象数据、以及其他人口活动相关数据等的多源异构大数据进行建模,对特定统计单元出现的活跃人口数量进行模拟与预测的方法。
背景技术:
本发明提出了一种基于多源大数据的活跃人口数量预测方案。实现对预定空间单元精确到天、小时甚至更细时间粒度的活跃人口数量的预测,为城市日常管理、交通拥堵、大规模人口集聚等现实情况提供预警。
随着城镇化进程的加快,人口活动的空间范围增大,人口流动的数量与速度均在迅速扩张,人口的迅速集聚、无序蔓延同时带来了交通拥堵、城市安全等一系列问题,为城市管理增加了难度。掌握区域活跃人口数据,动态监测人流分布能够实现问题区域的提前预警,同时为城市设施供给提供量化依据,有效的辅助城市精细化管理。
当前的人口预测模型均高度依赖统计调查数据,人工成本高,多采用抽样数据,数据覆盖率小,时间与空间粒度均较粗糙。现有大部分人口抽样调查时间尺度以年为单位,空间尺度仅到县级市,导致人口预测模型选取局限性极高,预测结果受数据时效性影响,所以与现实情况偏差较大,更无法掌握精确到日和小尺度空间人口的变化趋势,不仅无法对城市管理进行辅助,而且预测结果对各行业的应用性均较差。
随着大数据获取与处理技术的逐渐发展,通过移动互联网设备采集用户活动信息成为可能。手机作为普及率最高的移动设备,捕捉其信号出现的位置可以反映用户全出行链信息,信号收集的时间尺度可精确到秒级,而空间尺度则可精确到移动信号基站布设的百米级,为精确时空单元出现的活跃人口数量预测提供了全新的数据源与技术方法。
本发明提供了一种利用包括手机信令数据、气象数据等的多源异构大数据进行建模,对特定统计单元的出现的活跃人口数量进行模拟与预测的方法。通过该方法,能够实现百米级空间单元的人口数量预测,预测精度高。
技术实现要素:
为实现本发明之目的,采用以下技术方案予以实现:
一种人口数量预测方法,包括以下步骤:
(1)获取预定空间单元内的预定时间段的与人口出现数量相关的数据,所述数据包括手机信令数据,气象数据;
(2)对步骤(1)中获取的手机信令数据进行清洗,获得精细数据;
(3)对多源异构大数据进行空间匹配融合,将影响人口数量与空间分布影响因素数据与步骤(2)中清洗后的手机信令数据进行空间单元匹配;
(4)利用数据导入模型进行人口预测;
(5)输出人口数量与空间分布结果。
所述的人口数量预测方法,其中:步骤(2)中对手机信令数据进行清洗包括:(2.1)总量稳定性检测和(2.2)空间稳定性检测。
所述的人口数量预测方法,其中:总量稳定性检测按如下方式进行:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元进行汇总统计;然后对每一时间单元内的各基站的手机信令数据进行总量异常检测,检测方式是将所述连续时间段内所有具有同样属性的手机信令数据所反映的用户数量求和后取平均值,将具有该属性的每一时间单元的用户数量与该平均值进行比较,如果与该平均值相差幅度等于或大于设定的阈值,则判定该时长内的手机信令数据为总量异常数据,将该数据剔除;否则认定该数据为正常数据保留,将该数据进行空间稳定性检测。
所述的人口数量预测方法,其中:总量稳定性检测公式如下:
其中,
x为预定空间范围内的手机信号基站;a为时间单元的类型属性变量;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内基站进行数据收集到的所有时刻的数量;m为连续时间段内属性为a的时间单元数量;xsat为预定基站s在具有相同时间属性a的时刻为t的用户数量;xi为逐一基站;rat为根据需要设定的阈值比。
所述的人口数量预测方法,其中:空间稳定性检测按如下方式进行:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元进行汇总统计;然后对每一时间单元内的各基站手机信令数据进行空间异常检测,检测方式是将预定空间单元内的每一个基站的用户数量与预定空间单元内所有基站用户数量均值进行比较,如果与该均值相差幅度等于或大于设定的阈值,则判定该时长内的手机信令数据为异常数据,将该数据剔除;否则认定该数据为正常数据保留。
所述的人口数量预测方法,其中:空间稳定性检测公式如下:
其中,
x为预定空间范围内的手机信号基站;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内进行数据收集到的所有时刻数量;r为预定空间范围内全部基站的数量;xst为预定空间单元内基站s在时刻t的用户数量;xi为预定空间范围内某基站;rat为根据需要设定的阈值比。
所述的人口数量预测方法,其中:重复步骤(2.1)-步骤(2.2),对预定空间单元内某一时间段的全部基站的手机信令数据进行异常检测,将异常数据剔除,获得精细数据。
所述的人口数量预测方法,其中:
步骤(3)中,对多源异构数据进行空间匹配按如下方式进行:
(3.1)对手机信号数据进行空间汇总:
判断需要统计的预定时间内、预定空间范围内的手机信号基站,将属于预定空间范围的手机信号基站收集的用户数量按如下公式进行汇总计算:
其中,pi特定空间范围为预定空间范围内所有手机基站用户汇总的测算结果,pi为每个基站记录的手机用户数量;δi空间范围表示信号基站是否在需要统计的空间范围内;
对预定区域内所有空间单元进行测算,得到各空间单元的手机用户数量;
(3.2)对气象数据进行空间汇总:将手机信号基站替换为气象站的空间位置进行区域平均水平的测算:
其中,pj特定空间范围为预定空间范围内所有气象站汇总的气象数据结果,pj为每个气象站记录的情况;δj空间范围表示气象站是否在需要统计的空间范围内,n是特定空间范围内气象站的数量。
所述的人口数量预测方法,其中:步骤
(4)中利用数据导入模型进行人口预测包括:
(4.1)将预定空间单元内的预定时间段的手机信令统计人口数据及影响人口数量变化的气象数据及当前时间段对应特征组合成当前时刻输入数据xt,通过以下公式计算在迭代计算过程中的遗忘门矩阵ft:
ft=σ(wf·[ht-1,xt]+bf)
其中,ht-1表示模型上一时刻t-1的输出,wf表示遗忘门权重矩阵,bf表示遗忘门偏置项,σ为激活函数;
(4.2)模型结构中输入门通过以下公式计算当前输入xt哪些信息保存到当前状态ct:
it=σ(wi·[ht-1,xt]+bi)
其中,
wc表示输入信息的权重矩阵,bc表示偏置项;it表示输入门矩阵,wi表示输入门权重矩阵,bi表示输入门偏置项;ct-1表示上一时刻t-1的信息,tanh为激活函数;
(4.3)模型结构中输出门通过以下公式计算当前信息输出:
ot=σ(wo·[ht-1,xt]+bo)
ht=ot*tanh(ct)
其中,ot表示输出门矩阵,wo表示输出门权重矩阵,bo表示输出门偏置项,ht表示当前时刻t的输出,即当前时刻t的人数。
所述的人口数量预测方法,其中步骤(5)中将输出数据ht根据成果测算输出人口数量与空间分布结果。
一种人口数量超限报警方法,该方法使用如上之一所述的人口数量预测方法对预定时间、预定空间范围内的人口数量进行预测;进一步的,在预测出未来某一时间段内在某一空间范围内的人口数量后,如果该数量超出了设定阈值,则发出人口数量超限预警信号。
附图说明
图1为本发明的人口数量预测方法流程图;
图2为利用数据导入模型进行人口预测的计算过程示意图;
图3为预测值和真实值进行比较验证模型计算的准确度示意图。
具体实施方式
如图1所示,人口数量预测方法包括:
(1)获取预定空间单元内的预定时间段的与人口数量相关的数据,所述数据包括手机信令数据。优选的,还可包括其他可获得的与人口活动相关的数据,例如气象数据、由网约车平台获得的人口出行数据、共享单车投放数据、交通流量数据等;
(2)对步骤1中获取的手机信令数据进行清洗,获得精细数据;
(3)对多源大数据进行空间匹配融合,将影响人口数量与空间分布的其他影响因素数据与步骤(2)中清洗后的手机信令数据进行空间单元匹配,统一数据口径;
(4)利用数据导入模型进行人口预测;
(5)输出人口数量与空间分布结果。
步骤(1)中,手机信令数据可从移动运营商处获得;气象数据可从气象台获得,进一步的,根据实际需要可补充其他可获得的人口活动相关数据。
手机信令数据与基站信号强弱有关,当基站信号较弱或不稳定时时,基站可能无法与其正常工作时所覆盖范围内的全部手机进行信令交互,有可能导致移动运营商收集到的手机信令信号不全,会使得由移动运营商处获取的手机信令数据异常,因此有必要通过步骤(2)的方式对异常手机信令数据进行剔除,确保预测结果的准确性。
步骤(2)中,对手机信令数据进行清洗按如下方式进行:
2.1总量稳定性检测:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元(如一天或一小时)进行汇总统计,对每一时间单元内的各基站的手机信令数据进行总量异常检测。由于人口活动在不同类型日或24小时均具有规律的聚散差异,因此需将连续时间段内每天的数据赋予不同属性,如果需要预测的时长单元为天,则在每周的同一天则为同样属性,例如所有的周一;如果需要预测的时长单元为小时,则每天的同一小时为同样属性,例如所有的九点-十点;检测方式是将总时长内(即所述连续时间段内)所有具有同样属性(如周一或九点-十点)的手机信令数据所反映的用户数量求和后取平均值,将具有该属性的每一时间单元的用户数量与该平均值进行比较,如果与该平均值相差幅度等于或大于设定的阈值,如30%,则初步判定该时长内的手机信令数据为总量异常数据,将该数据剔除。否则认定该数据为正常数据保留。总量稳定性检测公式如下:
其中,
●x为预定空间范围内的手机信号基站;a为时间单元的类型属性变量;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内基站进行数据收集到的所有时刻的数量;m为连续时间段内属性为a的时间单元数量;如共有30天的连续数据,需预测的时间单元为天,则a为天类型:例如当a的类型是周一、周二…周日之一时,则在该30天内的m=4;如共有30天的连续数据,需预测的时间单元为时,则a为时类型:0点-1点、1点-2点…23点-0点之一,则m=30,以此类推。
●xsat为预定基站s在具有相同时间属性a的时刻为t的用户数量;
xi为逐一基站。
●rat为根据需要设定的阈值比。
2.2空间稳定性检测:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元(如一天或一小时)进行汇总统计,对每一时间单元内的各基站手机信令数据进行空间异常检测。检测方式是将预定空间单元内的每一个基站的用户数量与预定空间单元内所有基站用户数量均值进行比较,如果与该均值相差幅度等于或大于设定的阈值,如30%,则初步判定该时长内的手机信令数据为异常数据,将该数据剔除。否则认定该数据为正常数据保留。空间稳定性检测公式如下:
其中,
●x为预定空间范围内的手机信号基站;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内进行数据收集到的所有时刻数量;r为预定空间范围内全部基站的数量;
●xst为预定空间单元内基站s在时刻t的用户数量;xi为预定空间范围内某基站。
●rat为根据需要设定的阈值比。
重复步骤2.1-2.2,对预定空间单元内某一时间段的全部基站的手机信令数据进行异常检测,将异常数据剔除,获得精细数据。
步骤(3)中,对多源异构数据进行空间匹配按如下方式进行:
对手机信号数据进行空间汇总:判断需要统计的某时间内某空间范围内的手机信号基站,将属于特定空间范围的手机信号基站收集的用户数量进行汇总计算。
其中,pi特定空间范围为特定空间范围内所有手机基站用户汇总的测算结果,pi为每个基站记录的手机用户数量;δi空间范围用以判断信号基站是否在需要统计的空间范围内。对研究区域内所有空间单元进行测算,得到各空间单元的手机用户数量,在进行累加时,根据手机用户的唯一id如手机号码,对统计数据进行去重,即将预定时间预定空间范围内不同基站的相同id的用户只统计一遍。
同时,气象数据的空间汇总则将手机信号基站替换为气象站的空间位置进行区域平均水平的测算:
其中,pj特定空间范围为特定空间范围内所有气象站汇总的测算结果,包括温度、湿度、pm2.5等指标,pj为每个气象站记录的情况;δj空间范围用以判断气象站是否在需要统计的空间范围内。对研究区域内所有空间单元进行测算,得到各空间单元的气象情况。n是特定空间范围内气象站的数量。
步骤(4)中,利用数据导入模型进行人口预测,模型计算过程如下:
rnn(循环神经网络)是一种用来处理序列数据的神经网络模型,是包含循环的网络,允许信息持久化,可以将过去的信息连接到当前任务,利用过去的信息推测未来的信息,理论上只要数据足够多,就可以得到过去信息和未来信息之间的概率分布函数,从而基于时间序列对未来数据变化做出预测。lstm(长短期记忆神经网络模型)是一种特殊类型的rnn(循环神经网络),是一种增加了记忆功能的rnn,在rnn的基础上增加了三层神经网络(输入门、输出门、遗忘门),以此控制多少先前网络内的信息被保留,多少新的信息进入,通过刻意的设计避免长期依赖问题,能够学习长期的依赖关系,记住长期的信息,从过去的时序数据的变化及其他影响因素中学习到变化趋势。如图3所示:
(1)将预定空间单元内的预定时间段的手机信令统计人口数据及影响人口数量变化的气象数据(优选的还可包括其他相关因子数据,例如共享单车投放数据等)及当前时间段对应特征(例如是否工作日、节假日等)组合成输入数据xt,预测模型结构中的遗忘门根据当前时刻输入数据xt对上一时刻信息ct-1通过以下公式计算在迭代计算过程中的遗忘门矩阵ft。
ft=σ(wf·[ht-1,xt]+bf)
其中,ht-1表示模型上一时刻t-1的输出,wf表示遗忘门权重矩阵,bf表示遗忘门偏置项,σ为激活函数。
上述xt的输入数据样例如下示例所示出:
(2)模型结构中输入门通过以下公式在迭代计算过程中计算当前输入xt哪些信息保存到当前状态ct,
it=σ(wi·[ht-1,xt]+bi)
其中,wc表示输入信息的权重矩阵,bc表示偏置项;it表示输入门矩阵,wi表示输入门权重矩阵,bi表示输入门偏置项;ct-1表示上一时刻t-1的信息,tanh为激活函数。
(3)模型结构中输出门通过以下公式在迭代计算过程中计算当前有多少信息输出。
ot=σ(wo·[ht-1,xt]+bo)
ht=ot*tanh(ct)
其中,ot表示输出门矩阵,wo表示输出门权重矩阵,bo表示输出门偏置项,ht表示当前时刻t的输出,即当前时刻t的人数。
模型通过以上计算过程不停的迭代计算,在保证模型预测值与真实值误差足够小的情况下保存计算参数,并使用一定时间段内的数据通过结果参数计算预测值,将预测值和真实值进行比较验证模型计算的准确度,如图3所示,实线曲线代表模型计算参数过程中使用的数据,虚线曲线代表模型预测的值,用于和同时间段蓝色曲线真实值的对比,红色曲线代表预测未来一段时间内数值的变化。该模型训练数据集的预测结果与实际结果误差率小于5%。
步骤(5),将输出数据ht根据成果测算,输出人口数量与空间分布结果。
进一步的,在预测出未来某一时间段内在某一空间范围内的人口数量后,如果该数量较高,超出了设定阈值,则向该空间范围内的管理者发出人口数量超限预警,管理者可据此提前作出人员疏散、导流等措施,避免出现人口数量过多而产生塞车、拥挤、踩踏等危险情况的发生。