基于手机信令数据的城市访客识别方法、装置、存储介质与流程

文档序号:23506428发布日期:2021-01-01 18:16阅读:231来源:国知局
基于手机信令数据的城市访客识别方法、装置、存储介质与流程

本发明涉及一种手机信令大数据挖掘技术领域,尤其是涉及一种基于手机信令数据的城市访客识别方法、装置、存储介质。



背景技术:

随着中国的城市化步入城镇群发展的新阶段,城市间的联系更加频繁。访客作为特大城市中不可忽视的群体,对城市服务水平、交通需求管理等方面提出了更高要求。本发明访客是指短时期停留在某个城市,以旅游、商务、公务、医疗、探亲访友为目的的个体,有别于在城市居住的居民(包括本地常住居民和外地常住居民)。

在传统的交通和旅游规划中,通常采用问卷调查的方式获取访客需求信息,这种方法样本量小、时效性差、而且采集成本高。手机信令数据作为一种新型的数据资源,具有数据量大、覆盖范围广、时效性强和采集成本低的特点,能实现长期的轨迹追踪,因此可以为城市交通和旅游规划与管理提供定量参考。手机信令数据是以位置区码(locationareacode,简称lac)和小区标识(cellidentity,简称ci)确定的基站(basestation,简称bs)为定点检测器,采集匿名手机用户(mobilesubscriber,简称ms)在发生通信事件(包括收发短信、主被叫等)、漫游事件(包括开关机、位置更新等事件)以及切换事件时的经纬度位置与时刻信息,从而刻画手机用户个体在时空间维度上的连续出行轨迹。原始手机信令数据和基站位置信息表如表1、表2所示:

表1手机信令数据表

表2基站位置信息表

基于手机信令数据的城市访客或游客识别,国内外研究主要是根据此领域内专业人士的知识,建立识别规则来进行筛选。识别规则的基础指标是在城市中逗留的时间,但是不同学者的定义各有不同。通勤访客(只在白天来访的访客)与多次来访的访客没有相关的指标来识别。另外,还忽视了访客在空间方面的特征,如多次来访的访客由于出行目的不同而存在很多夜间休憩点。现有方法的访客识别率相对较低,对于城市服务水平评价、交通需求管理和旅游产品设计等方面应用价值不能很好体现。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于手机信令数据的城市访客识别方法、装置、存储介质。

本发明的目的可以通过以下技术方案来实现:

一种基于手机信令数据的城市访客识别方法,该方法包括如表步骤:

s1、基于城市手机信令数据,根据用户标识进行分组,并对各用户的手机信令数据进行时空间重构与标记;

s2、基于时空间重构与标记后的数据提取用户的特征指标,包括活跃天数、信令分段数、有无夜间停留点、夜间休憩点信息熵;

s3、基于用户的特征指标建立识别规则,判定用户是否为城市访客。

优选地,步骤s1具体包括:

s11、根据手机信令数据中的lac、ci字段匹配经纬度坐标,筛选无重复的有效信令数据得到表t1,t1中字段包括<msid,datetime,lon,lat>,其中lac为位置区域编码,ci为小区id,msid为用户唯一识别号,datetime为时刻,lon为基站经度,lat为基站纬度,datetime为时间戳格式;

s12、对有效信令数据表t1按用户msid进行分组,对各个用户的有效信令数据进行分箱处理:各条有效信令数据按照分箱时长进行分组,每组生成加权时刻为time、加权经纬度坐标为(lon1,lat1)的加权时空间信令数据,由此得到加权时空间信令数据表t2,t2中字段包括<msid,time,lon1,lat1>;

s13、对空间坐标进行栅格划分,将加权时空间信令数据表t2中各加权时空间信令数据中的经纬度坐标(lon1,lat1)匹配至相应栅格,得到栅格标号为(lonid,latid),由此得到栅格时空间信令数据表t3,t3中字段包括<msid,time,lonid,latid>;

s14、基于栅格时空间信令数据表t3进行出行生成算法处理,生成用户移动/活动信息表t4,并标记包括缺失记录的信令分段,t4中字段包括<msid,start_time,start_lonid,start_latid,end_time,end_lonid,end_latid,dura,stop,visit>,其中start_time表示用户离开栅格(start_lonid,start_latid)的时刻,end_time表示用户进入栅格(end_lonid,end_latid)的时刻,(start_lonid,start_latid)、(end_lonid,end_latid)均为栅格标号,dura为end_time和start_time的时间差,stop=1表示前后栅格编号一致,用户在此栅格中活动,stop=0表示前后栅格编号不同,用户产生了移动,stop=-1表示此时段内信令存在缺失;如果dura大于1800分钟的缺失间隔阈值,则visit标记为loss,表示此条信息的时间范围内用户不在城市内;如果dura小于等于1800分钟,则visit标记为数字,表示此条信息属于用户第visit次在城市内;

s15、根据用户移动/活动信息表t4中的start_time和end_time,进行日间标记处理,生成用户日间标记移动/活动信息表t5,t5中字段包括<msid,start_time,start_lonid,start_latid,end_time,end_lonid,end_latid,dura,stop,visit,daytime>,daytime=1表示此条信息在白天,daytime=0表示此条信息在夜间。

优选地,步骤s12中分箱处理具体为:

s121:将不同用户的有效信令数据按照datetime排序,按照设定的时间间隔确定连续的箱,将各用户的有效信令数据按照datetime分配至各个箱中,加权时刻time为各个箱的中间时刻;

s122:确定加权坐标权重:

若当前箱中的前一个相邻箱中无信令,则当前箱中各信令的加权坐标权重的分母为所在箱结束时刻与所在箱中第一条信令时刻之差,加权坐标权重的分子确定为:

若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;

若当前箱中的前一个相邻箱中有信令,则将前一个相邻箱中的最后一条信令复制到当前箱的开始时刻,当前箱中各信令的加权坐标权重的分母为箱所设定的时间间隔,加权坐标权重的分子确定为:

若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;

s123:对各个箱中的信令数据的经纬度进行加权求和,得到每个箱的加权经纬度坐标为(lon1,lat1)。

优选地,步骤s13具体为:

对于加权时空间信令数据表t2中各加权时空间信令数据中的经纬度坐标(lon1,lat1)按照下式计算得到栅格标号(lonid,latid),

dlon=raster_length*180/(π*rearth*cos((lat1+lat2)*π/360))

dlat=raster_length*180/(π*rearth)

其中,raster_length为栅格边长,rearth为地球半径,lat1为城市最低纬度,lat2为城市最高纬度,lon1为城市最小经度,表示向下取整。

优选地,步骤s14具体为:

s141:将栅格时空间信令数据表t3中的栅格时空间信令数据按照time排序;

s142:依次获取相邻两条数据,用户移动/活动信息的开始时刻和坐标start_time、start_lonid、start_latid为前一条数据的time、lonid、latid,结束时刻和坐标end_time、end_lonid、end_latid为后一条记录的time、lonid、latid,计算时间间隔dura,dura为end_time和start_time之差;

s143:如果间隔dura大于1800分钟,则visit标记为loss,stop标记为-1,否则visit从1开始累加标记;

s144:如果前后lonid与latid均一致,则stop标记为1,否则stop标记为0;

s145:重新遍历新生成的记录<msid,start_time,start_lonid,start_latid,end_time,end_lonid,end_latid,dura,stop,visit>,如果相邻记录stop均为1,visit一致且不为loss,且前一条记录坐标end_lonid、end_latid与后一条记录坐标start_lon、start_lat一致,则新的记录的start_time为前一条记录的start_time,end_time为后一条记录的end_time,新的记录的dura为两条记录dura之和,stop=1,visit不变;否则保留原来两条记录,由此得到用户移动/活动信息表t4。

优选地,步骤s15中daytime通过下式得到:

其中,lower为日间时段下限,upper为日间时段上限。

优选地,步骤s2各特征指标通过如下方式获得:

根据栅格时空间信令数据表t3中的time字段,计算每个用户在城市出现的不同天数,得到活跃天数d;

根据用户日间标记移动/活动信息表t5中的visit字段统计每个用户visit不为loss的不同次数,得到信令分段数v;

根据用户日间标记移动/活动信息表t5中的daytime和stop字段判断是否有夜间停留点,若daytime=0且stop=1,则存在夜间停留点,r=1,否则r=0;

统计每个用户每天不同夜间停留点的总停留时长,筛选每个用户每天停留时长最长的夜间停留点为夜间休憩点,根据下式计算每个用户观测时段内夜间休憩点的信息熵:

ci为用户第i个休憩点在观测时间段内出现的天数,d为活跃天数,n表示不同夜间休憩点的个数。

优选地,步骤s3根据下表判定用户是否为城市访客:

其中,dll为活跃天数下限,dul为活跃天数上限,vl为信令分段数阈值,cl为夜间休憩点信息熵阈值。

一种基于手机信令数据的城市访客识别装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现上述所述的方法。

一种存储介质,其上存储有程序,该程序被处理器执行时实现上述所述的方法。

与现有技术相比,本发明具有如下优点:

本发明除了使用活跃天数这一特征指标外,通过增加信令分段数、是否有夜间停留点、夜间休憩点信息熵3个时空间特征指标,能识别出多次来访访客、通勤访客、过夜访客,有效提高了访客的总体识别率,为访客时空间规律挖掘提供坚实的数据基础。

附图说明

图1为本发明一种基于手机信令数据的城市访客识别方法的流程框图;

图2为本发明实施例中得到的特征指标分布图;

图3为本发明实施例中访客每天占总人数的比例。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。

实施例

如图1所示,一种基于手机信令数据的城市访客识别方法,该方法包括如表步骤:

s1、基于城市手机信令数据,根据用户标识进行分组,并对各用户的手机信令数据进行时空间重构与标记;

s2、基于时空间重构与标记后的数据提取用户的特征指标,包括活跃天数、信令分段数、有无夜间停留点、夜间休憩点信息熵;

s3、基于用户的特征指标建立识别规则,判定用户是否为城市访客。

步骤s1具体包括:

s11、根据手机信令数据中的lac、ci字段匹配经纬度坐标,筛选无重复的有效信令数据得到表t1,t1中字段包括<msid,datetime,lon,lat>,其中lac为位置区域编码,ci为小区id,msid为用户唯一识别号,datetime为时刻,lon为基站经度,lat为基站纬度,datetime为时间戳格式;

s12、对有效信令数据表t1按用户msid进行分组,对各个用户的有效信令数据进行分箱处理:各条有效信令数据按照分箱时长进行分组,每组生成加权时刻为time,加权经纬度坐标为(lon1,lat1)的加权时空间信令数据,进而构成加权时空间信令数据表t2,t2中字段包括<msid,time,lon1,lat1>;

s13、对空间坐标进行栅格划分,将加权时空间信令数据表t2中各加权时空间信令数据中的经纬度坐标(lon1,lat1)匹配至相应栅格,得到栅格标号为(lonid,latid),由此得到栅格时空间信令数据表t3,t3中字段包括<msid,time,lonid,latid>;

s14、基于栅格时空间信令数据表t3进行出行生成算法处理,生成用户移动/活动信息表t4,并标记包括缺失记录的信令分段,t4中字段包括<msid,start_time,start_lonid,start_latid,end_time,end_lonid,end_latid,dura,stop,visit>,其中start_time表示用户离开栅格(start_lonid,start_latid)的时刻,end_time表示用户进入栅格(end_lonid,end_latid)的时刻,(start_lonid,start_latid)、(end_lonid,end_latid)均为栅格标号,dura为end_time和start_time的时间差,stop=1表示前后栅格编号一致,用户在此栅格中活动,stop=0表示前后栅格编号不同,用户产生了移动,stop=-1表示此时段内信令存在缺失;如果dura大于1800分钟的缺失间隔阈值,则visit标记为loss,表示此条信息的时间范围内用户不在城市内;如果dura小于等于1800分钟,则visit标记为数字,表示此条信息属于用户第visit次在城市内;

s15、根据用户移动/活动信息表t4中的start_time和end_time,进行日间标记处理,生成用户日间标记移动/活动信息表t5,t5中字段包括<msid,start_time,start_lonid,start_latid,end_time,end_lonid,end_latid,dura,stop,visit,daytime>,daytime=1表示此条信息在白天,daytime=0表示此条信息在夜间。

步骤s12中分箱处理具体为:

s121:将不同用户的有效信令数据按照datetime排序,按照设定的时间间隔(本实施例中时间间隔设置为10分钟)确定连续的箱,将各用户的有效信令数据按照datetime分配至各个箱中,加权时刻time为各个箱的中间时刻;

s122:确定加权坐标权重:

若当前箱中的前一个相邻箱中无信令,则当前箱中各信令的加权坐标权重的分母为所在箱结束时刻与所在箱中第一条信令时刻之差,加权坐标权重的分子确定为:

若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;

若当前箱中的前一个相邻箱中有信令,则将前一个相邻箱中的最后一条信令复制到当前箱的开始时刻,当前箱中各信令的加权坐标权重的分母为箱所设定的时间间隔,,加权坐标权重的分子确定为:

若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;

s123:对各个箱中的信令数据的经纬度进行加权求和,得到每个箱的加权经纬度坐标为(lon1,lat1)。

步骤s13具体为:

对于加权时空间信令数据表t2中各加权时空间信令数据中的经纬度坐标(lon1,lat1)按照下式计算得到栅格标号(lonid,latid),

dlon=raster_length*180/(π*rearth*cos((lat1+lat2)*π/360))

dlat=raster_length*180/(π*rearth)

其中,raster_length为栅格边长,rearth为地球半径,lat1为城市最低纬度,lat2为城市最高纬度,lon1为城市最小经度,表示向下取整。本实施例中栅格边长raster_length取500米,地球半径rearth取6371004米,上海市西至lon1=120.850,南至lat1=30.688,北至lat2=31.866。

步骤s14具体为:

s141:将栅格时空间信令数据表t3中的栅格时空间信令数据按照time排序;

s142:依次获取相邻两条数据,用户移动/活动信息的开始时刻和坐标start_time、start_lonid、start_latid为前一条数据的time、lonid、latid,结束时刻和坐标end_time、end_lonid、end_latid为后一条记录的time、lonid、latid,计算时间间隔dura,dura为end_time和start_time之差;

s143:如果间隔dura大于1800分钟,则visit标记为loss,stop标记为-1,否则visit从1开始累加标记;

s144:如果前后lonid与latid均一致,则stop标记为1,否则stop标记为0;

s145:重新遍历新生成的记录<msid,start_time,start_lonid,start_latid,end_time,end_lonid,end_latid,dura,stop,visit>,如果相邻记录stop均为1,visit一致且不为loss,且前一条记录坐标end_lonid、end_latid与后一条记录坐标start_lon、start_lat一致,则新的记录的start_time为前一条记录的start_time,end_time为后一条记录的end_time,新的记录的dura为两条记录dura之和,stop=1,visit不变;否则保留原来两条记录,由此得到用户移动/活动信息表t4。

步骤s15中daytime通过下式得到:

其中,lower为日间时段下限,upper为日间时段上限。本实施例中确定每天的9点至当日21点为日间,因此,lower=9,upper=21。

步骤s2各特征指标通过如下方式获得:

根据栅格时空间信令数据表t3中的time字段,计算每个用户在城市出现的不同天数,得到活跃天数d;

根据用户日间标记移动/活动信息表t5中的visit字段统计每个用户visit不为loss的不同次数,得到信令分段数v;

根据用户日间标记移动/活动信息表t5中的daytime和stop字段判断是否有夜间停留点,若daytime=0且stop=1,则存在夜间停留点,r=1,否则r=0;

统计每个用户每天不同夜间停留点的总停留时长,筛选每个用户每天停留时长最长的夜间停留点为夜间休憩点,根据下式计算每个用户观测时段内夜间休憩点的信息熵:

ci为用户第i个休憩点在观测时间段内出现的天数,d为活跃天数,n表示不同夜间休憩点的个数。

步骤s3根据下表判定用户是否为城市访客:

其中,dll为活跃天数下限,dul为活跃天数上限,vl为信令分段数阈值,cl为夜间休憩点信息熵阈值。

一种基于手机信令数据的城市访客识别装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现上述所述的方法。

一种存储介质,其上存储有程序,该程序被处理器执行时实现上述所述的方法。

本实施例采用上述方法,使用上海市2011年10月1日至2011年10月31日一个月的手机信令数据进行访客识别,得到的特征指标分布图如图2所述,其中图2中(a)为不同活跃天数的人数比例分布图,图2中(b)为不同信令分段数的人数比例分布图,图2中(c)为不同夜间休憩点信息熵的人数比例分布图,根据不同活跃天数的人数比例小于1.5%确定dll=7、dul=21,根据不同信令分段数的人数比例小于5%确定vl=4,根据不同夜间休憩点信息熵的人数比例小于8%确定cl=1。识别结果如表3所示,最终识别出访客16301266人(占比56.2%),居民11915596人(占比41.1%),未知766682人(占比2.7%)。

表3访客识别结果

图3为访客每天占总人数的比例,排除国庆长假,日均访客比例为26.1%。根据2011年上海年鉴,上海市2011年常住人口为2347万人,共有来自外省市和境外(含港澳台)1.17亿人次旅客,因此平均每月来访旅客占总人口比重为29.3%。误差可能是由于手机信令数据不包含境外游客数据以及在沪天数大于1个月的访客未计入而造成的。因此本发明提出的城市访客识别方法是有效的。

上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1