一种基于手机大数据的流动人口分类识别分析方法

文档序号:10725728阅读:355来源:国知局
一种基于手机大数据的流动人口分类识别分析方法
【专利摘要】本发明提供了一种基于手机大数据的流动人口分类识别分析方法。本发明突破传统调查的限制,利用大数据从行为轨迹中提取客观时空信息进行分析挖掘,突破低采样率的限制并可进行不同口径多次、充分信息提取,从空间及时间维度,对人口流动进行观察及识别,区分流动人口群体,并基于该群体行为特征及逗留时长,并从数据使用者的角度考量流动人口不同分类,将其区分为长期流动人口、短期流动人口及短时入境人口,以便该数据的应用能够在不同的领域发挥价值。
【专利说明】
一种基于手机大数据的流动人口分类识别分析方法
技术领域
[0001] 本发明涉及一种以海量匿名并加密的移动终端个体(例如手机、平板、上网卡等独 立移动终端,以下简称个体)数据为基础,开展大数据环境下的流动人口分类识别挖掘分析 方法。该方法基于人员流动所产生的空间位移及其持续时间来衡量不同类型的流动人群分 类及识别,并以此为基础进一步获得此类人群分布及出行特征,为城市人口管理、城市规 划、旅游景区规划及管理、商业策划等工作提供客观数据服务及决策支撑,属于城市运营管 理与城市规划、区域规划的技术领域。
【背景技术】
[0002] 流动人口是在中国户籍制度条件下的一个概念,指离开了户籍所在地到其他地方 居住的人口,但目前尚无明确、准确和统一的定义。故本次在讨论流动人口分类识别分析方 法的前置条件,是要界定流动人口的口径,对流动人口进行明确的定义。
[0003] 国际上通常为"人口迀移"、"迀移人口"概念,而非"人口流动"、"流动人口",将人 口迀移定义为人口在空间上的位置变动。根据国际人口科学联盟主持编写的《多种语言人 口学辞典》,人口迀移是"在一个地区单位同另一个地区单位之间进行的地区移动或者空间 移动的一种形式,通常它包括了从原住地或迀出地迀到目的地或迀入地的永久性住地变 动"(IUSSP,1982)。发生人口迀移活动的人则是迀移人口。这个概念强调了"时间"及"永久 性"因素,并非指一旦一次人口迀移发生以后就不能够有第二次人口迀移,而是指人口迀移 活动应该有"足够长"的时间;二是"空间"因素,即人们要在两个相距"足够远"的空间位置 之间发生位置移动。我国由于户籍制度的存在,通常将人们的地区移动或者空间移动区分 为人口迀移和人口流动两种,发生迀移和流动行为的人则分别称为迀移人口和流动人口。 人口迀移和迀移人口伴随有户口的相应变动;人口流动和流动人口则没有户口的相应变 动。
[0004] 流动人口相关数据的传统获取方式为入户调查。一方面,由于中国城镇化的进程 迅速,流动人口的规模和流动频率与过去相比大幅增加。同时,流动人口住所相对不稳定, 通过入户调查的方式进行访问非常困难。另一方面,由于入户调查为一次性调查,随着入户 调查调查内容的调整及统计口径的变化,如1982、1990年人口普查:"跨县"、"一年以上"的 流动人口; 1995年进一步识别"县内"、"半年以上"流动人口;2000年人口普查:"市内人户分 离"人口的甄别;2005年增加了离开户籍地半年以下流入人口的调查,见导致流动人口在数 量和规模上均产生巨大差异,无法持续跟踪及纵深对比。

【发明内容】

[0005] 本发明的目的是利用大数据从行为轨迹中提取客观时空信息进行分析挖掘,提供 一种流动人口识别与分类分析方法,用此方法提供各个城市流动人口总量、空间分布与活 动行为特征规律。
[0006] 为了达到上述目的,本发明的技术方案是提供了一种基于手机大数据的流动人口 分类识别分析方法,其特征在于,包括以下步骤:
[0007] 步骤1、从通信运营商获取目标分析城市空间范围内一段时期内持续的匿名加密 手机定位数据,每条匿名加密手机定位数据包括EPID、??ΜΕ及定位数据,其中,不同的手机 终端用户对应不同的EPID,I1ME表示当前一条匿名加密手机定位数据所涉及的手机网络动 作发生时刻;
[0008] 步骤2、构建每个EPID的时间序列分段模型:
[0009]将当前EPID对应的所有定位数据按??ΜΕ升序或降序排序,获得当前EPID基于时间 序列的位置信息,从而建立当前EPID的时间序列模型,将时间序列模型按照不同的位置信 息进行分段,得到当前EPID的时间序列分段模型;
[0010]步骤3、对每个EPID计算其在目标分析城市的每日累计逗留时长与天数频率情况, 根据每个EPID在目标分析城市每日停留时长长短与天数频率,将人口分为常住人口及流动 人口;
[0011]步骤4、基于空间位置属性对步骤3中判定为流动人口的每个EPID的流动目的进行 判别,其中,空间位置属性的获取依赖于,包括以下步骤:
[0012] 步骤4.1、基于GIS基础地图空间地理数据获得空间位置属性,包括以下步骤:
[0013] 步骤4.1.1、对在空间地理数据库中的各人员的时间序列进行空间/时间插值,保 证人口空间分布SDP之间的时间间隔相等,为空间聚类做准备;
[0014] 步骤4.1.2、对区域进行基于密度的空间聚类,该聚类所获得成果为得到基于空间 的空间位置属性,包括以下步骤:
[0015]步骤A、将空间地理数据库中的办个兴趣点Ρ0Ι位置属性进行遍历,设置半径Eps及 最少数目MinPts;
[0016] 步骤B、从办个兴趣点Ρ0Ι中任意选取一个点p;
[0017] 步骤C、对当前点p其进行地域查询,若点p是核心点,则寻找从点p密度可达的点, 最终形成一个包含点P的位置簇,否则点P被标识为噪音点;
[0018] 步骤D、将办个兴趣点Ρ0Ι中的下一个点作为当前点P,返回步骤4.3.3,直至nP个兴 趣点Ρ0Ι都被处理;
[0019] 步骤E、将所形成的位置簇进行聚合,聚合后的每一个类为一个位置区,每个位置 区具有一个位置属性,最终对应至运营商基站位置数据,使每一个基站位置数据对应一个 位置属性;
[0020] 步骤4.2、对步骤3中判定为流动人口的每个EPID进行基于位置区的多属性差异识 另|J,对于当前Ero而言,根据其位置信息获得其所处的不同位置区,将每个位置区的停留时 长作为当前位置区所对应的位置属性的时间权重,并对各个位置属性的时间权重进行权重 判定,将最突出的时间权重对应的位置属性赋予当前EPID,以标识当前EPID的最终分类;
[0021] 步骤4.3、对所有可识别位置属性数据进行分类,关联其位置属性与人群定义,获 得不同流动人口分类下的流动目的识别;
[0022]步骤5、分析各类流动人口出行特征。
[0023]优选地,在所述步骤2中,为了保证每个EPID轨迹识别的完整性与可信性,将各时 间序列中无法追踪的时段标识出来,具体规则为:当时间序列中某条记录之后时长为MaxT 的时段范围内无记录,则认为当前EPID在当前记录之后的轨迹无法追踪。
[0024]优选地,在所述步骤3中,将所述流动人口进一步划分为长期流动人口、短期流动 人口及过境流动人口。
[0025]优选地,所述步骤3包括:
[0026]步骤3.1、判断并统计各EPID的时间序列分段模型中在目标分析城市所涉及的时 间序列的总时长,记为累计停留时长;
[0027] 步骤3.2、设置时长阈值MaxD、Classify-L及Classify-S,若当前EPID的累计停留 时长大于时长阈值MaxD,则认为当前EPID为常住人口;
[0028] 若当前EPID的累计停留时长小于时长阈值MaxD,且大于时长阈值Classify-L,则 认为当前EPID为长期流动人口;
[0029] 若当前EPID的累计停留时长小于时长阈值Class if y-L,且大于时长阈值 Classify-S,则认为当前EPID为短期流动人口;
[0030] 若当前EPID的累计停留时小于时长阈值Classify-S,则认为当前EPID为短时过境 人口。
[0031] 优选地,在所述步骤5中,所述流动人口出行特征包括流动人口活动空间统计、流 动人口夜间分布统计、流动人口白天分布统计、流动人口出行0D统计、流动人口出行距离统 计、流动人口出行耗时统计、流动人口出行频次统计。
[0032] 本发明突破传统调查的限制,利用大数据从行为轨迹中提取客观时空信息进行分 析挖掘,突破低采样率的限制并可进行不同口径多次、充分信息提取,从空间及时间维度, 对人口流动进行观察及识别,区分流动人口群体,并基于该群体行为特征及逗留时长,并从 数据使用者的角度考量流动人口不同分类,将其区分为长期流动人口、短期流动人口及短 时入境人口,以便该数据的应用能够在不同的领域发挥价值。
【附图说明】
[0033] 图1是本发明所提出的基于海量匿名加密移动终端个体定位数据的流动人口识别 训练方法图;
[0034] 图2是本发明步骤4.2中多属性差异识别用户分类方法示意图。
【具体实施方式】
[0035] 为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
[0036] 步骤1:从通信运营商获取目标分析城市空间范围内一段时期(数据时长取决于训 练分析需求,一般7个月以上)内持续的匿名加密手机定位数据,对每个手机终端用户构建 时间序列分段模型。根据申请号为201610273693.0的中国专利,手机定位数据的内容包括 EPID、TYPE、HME、X、Y、SR。
[0037] EPID(匿名单向加密全球唯一移动用户标识码,Encryption international mobile subscriber IDentity),是手机通信运营商对每个手机用户进行单向不可逆加密, 从而唯一标识每个手机用户,且不暴露用户号码隐私信息,要求每个手机用户加密后的 EPID保持唯一性,即任意时刻各手机用户的EPID保持不变且不与其它手机用户重复。
[0038] TYPE,是当前记录所涉及的手机网络动作类型,如上网、通话、主被叫、收发短信、 小区切换、开关机等。
[0039] ??ΜΕ指的是当前记录所涉及的手机网络动作发生时刻,单位为毫秒。
[0040] X、Y、SR是当前记录所涉及的手机网络动作发生的空间加密位置范围信息。Χ、Υ由 运营商利用专用坐标加密方法对手机用户的真实坐标位置进行加密计算后得到,SR(空间 范围,Spatial Range)是当前记录空间定位的误差范围,单位为米,即当前手机用户出现在 以X、Y为中心点,SR为半径的空间范围内。定位算法与定位精度由手机通信运营负责,随着 4G、5G、WIFI等无线通信技术的发展,误差范围将越来越小。
[0041 ]表1:初级数据库数据列表
[0043]步骤2:构建每个EPID的时间序列分段模型。将每个EPID的数据按??ΜΕ升序排序, 获得每个EPID时间序列的位置信息,建立时间序列模型{L0C(p,time)},式中,p为位置, time为时间。再将EPID的时间序列位置进行分段,分段后的时间序列更新为{L0C(l,p, time),L0C(2,p,time),···,L0C(num,p,time)},式中,1,2,···,num为分段的序号。
[0044]为了保证每个EPID轨迹识别的完整性与可信性,需要将各序列中无法追踪的时段 标识出来。具体规则为:当序列中某条记录Record (p,time)之后MaxT (MaxT为可持续追踪 EPID的最长间隔时长,MaxT的取值由通信运营商数据采集机制决定,即通信运营商最长定 询时长,例如,某城市某通信运营商周期性位置更新时长为0.5小时,则MaxT = 0.5h)时段范 围内无记录,贝认为该EPID在Record(p,time)这条记录之后的轨迹无法追踪。
[0045]步骤3、对每个EPID计算其在目标分析城市的每日累计逗留时长与天数频率情况, 根据每个EPID在目标分析城市每日停留时长长短与天数频率,将人口分为常住人口及流动 人口,并进一步将流动人口区分为长期流动人口、短期流动人口及过境流动人口,以便于开 展不同类型群体活动特征研究及应用。具体如下:
[0046]步骤3.1、判断并统计各EPID的时间序列分段模型中在目标分析城市所涉及的时 间序列的总时长,记为累计停留时长;
[0047] 步骤3.2、设置时长阈值MaxD、Classify-L及Classify-S,若当前EPID的累计停留 时长大于时长阈值MaxD,则认为当前EPID为常住人口,不包含在本次研究对象范畴内; [0048] 若当前EPID的累计停留时长小于时长阈值MaxD,且大于时长阈值Classify-L,则 认为当前EPID为长期流动人口,包含在本次研究对象范畴内;
[0049] 若当前EPID的累计停留时长小于时长阈值Class if y-L,且大于时长阈值 Classify-S,则认为当前EPID为短期流动人口,包含在本次研究对象范畴内;
[0050] 若当前EPID的累计停留时小于时长阈值Classify-S,则认为当前EPID为短时过境 人口,包含在本次研究对象范畴内。
[0051 ]步骤4:基于空间位置属性的流动人口流动目的判别。
[0052]基于空间位置属性,进一步将流动人员划分为商务、旅游等流动目的分类。其中位 置区属性特征依赖于GIS基础地图空间地理数据,由于位置数据之间的时间间隔不相等,因 此首先需要将时空数据进行插值处理,获得在时间上等间隔的时空数据序列,然后将其通 过基于密度的空间聚类获得位置区域的属性特征,如交通枢纽、购物、景区、会展、商务、综 合等,对位置区进行属性标识并将其映射至运营商基站位置数据。
[0053]步骤4具体包括以下步骤:
[0054]步骤4.1、基于GIS基础地图空间地理数据获得空间位置属性,包括以下步骤:
[0055]步骤4.1.1、时空序列数据插值处理,对人员在空间地理数据库中具体的时间序列 进行空间/时间插值,保证人口空间分布SDP(Spatial Distribution of Population)之间 的时间间隔相等,为空间聚类做准备。步骤如下:
[0056] 1、提取空间地理数据库中人口空间分布SDP的时间和空间属性;
[0057] 2、计算人口空间分布SDP之间时间间隔的最小公约数,作为插值间隔时间,插入时 刻序列中;
[0058] 3、采用时空插值算法进行空间插值,得到插值点的空间坐标,具体方法可以是拉 格朗日线性插值和多项式插值、牛顿插值、样条插值、克里金插值等。本实施例以拉格朗日 线性插值为例,两个原始人口空间分布SDP--k与k+Ι之间的插值点在时间t处的X,Y坐标 (Xt、Yt)可以表不为:
[0060] 上式中,Tk+1、Tk、Tt分别为节点k,k+l和插值点t的时间。
[0061] 步骤4.1.2、对区域进行基于密度的空间聚类,该聚类所获得成果为基于空间的位 置区域属性,如交通枢纽、购物中心、旅游景区、大型会展区域、商务区、综合等等。步骤如 下:
[0062] 1、将空间地理数据库中的办个兴趣点Ρ0Ι位置属性进行遍历,设置半径Eps及最少 数目 MinPts;
[0063] 2、从办个兴趣点Ρ0Ι中任意选取一个点p;
[0064] 3、对当前点p其进行地域查询,若点p是核心点,则寻找从点p密度可达的点,最终 形成一个包含点P的位置簇,否则点P被标识为噪音点;
[0065] 4、将办个兴趣点Ρ0Ι中的下一个点作为当前点p,返回步骤4.3.3,直至办个兴趣点 Ρ0Ι都被处理;
[0066] 5、将所形成的位置簇进行聚合,聚合后的每一个类为一个位置区,每个位置区具 有一个位置属性,最终对应至运营商基站位置数据,使每一个基站位置数据对应一个位置 属性。
[0067]在对此聚类处理后,可针对大型景区、会展区、商务区进行修正,以确保其最终位 置区标识的准确性。
[0068]表2:插值后的基于基站的位置区属性值
[0070] 步骤4.2、对步骤3中判定为流动人口的每个EPID进行基于位置区的多属性差异识 另IJ,对于当前EPID而言,根据其位置信息获得其所处的不同位置区,将每个位置区的停留时 长作为当前位置区所对应的位置属性的时间权重,并对各个位置属性的时间权重进行权重 判定,将最突出的时间权重对应的位置属性赋予当前EPID,以标识当前EPID的最终分类。
[0071] 在本实施例中,对当前EPID在同一位置属性Li进行该位置区时间权重的判定,并 区分其昼夜时段,获得WLi-day/night,并对各个位置属性进行权重判定,获得权重突出值并赋 予该用户,以标识其最终分类。步骤如下:
[0072] 1、对当前EPID的数据进行基于时段的位置权重值,即在该时段内累计其特定位置 属性停留时长,获得在该位置属性区内的时间权重WU-day/night,如EPID (e 1)于交通枢纽位置 区中停留50分钟,即WE!-day赋值50,于交通商务位置区停留200分钟,即WL5- day赋值200。
[0073] 2、对各权重进行归一化处理,得到归一化后的权重值ω i;
[0074] 3、Max( ω i) >敏感值SL(SL为可调参数,可根据实际情况适当调整,本例中令SL为 0.5),则判定当前EPID的位置属性为Li,否则则表示其属性值不明显,划入综合流动人口集 合。即在本列中该人员位置属性为L 5,即商务属性。
[0075]步骤4.3、对所有可识别位置属性数据进行分类,关联其位置属性与人群定义,获 得不同流动人口分类下的流动目的识别。
[0076]步骤5 :分析各类流动人口出行特征,包括流动人口活动空间统计、流动人口夜间 分布统计、流动人口白天分布统计、流动人口出行0D统计、流动人口出行距离统计、流动人 口出行耗时统计、流动人口出行频次统计等。
[0077] 首先进行一个预处理一一时空聚类处理,就是把间距很近的X、Y、SR认为是一个 点。
[0078]表3:区域数据库预处理后的数据
[0080] 1)流动人口活动空间统计:
[0081 ]所有流动人口活动过的所有位置,反映每个城市空间对流动人口的承载或吸引力 情况。将进入区域数据库所有数据和该区域的面积相比,就算出单位面积上流动人口的数 量。
[0082] 如上海市徐汇区的面积为54.67平方公里,当天流动人口为50000人,得到单位面 积流动人口约为913人每平方公里。
[0083] 2)流动人口夜间分布统计:
[0084]夜间时间段待的时间最长的地方,反映的是流动人口夜间居住空间分布情况。将 每天的21:00至次日的4:59定义为夜间时间段(可根据不同城市作息时间不同,夏天与冬天 作息时间不同来调整,如乌鲁木齐可以调整为23:00到6: 59),从区域数据库中取出每个 EPID所对应的TYPE和X、Y、SR等数据,在该区域的地图上根据X、Y、SR标记出位置,同时可以 根据其TYPE标注成不同颜色或者形状。
[0085]在本实施例中,将每天的21:00至次日的4:59定义为夜间时间段,从徐汇区数据库 中取出每个EP ID所对应的TYPE和X、Y、SR等数据,在该区域的地图上根据X、Y、SR标记出位 置,同时可以根据其TYPE标注成不同颜色或者形状。
[0086] 3)流动人口白天分布统计:
[0087] 白天时间段待的最长的地方,反映流动人口白天游玩或工作等的空间分布情况。 将每天的5:00到20:59定义为白天时间段(可根据不同城市作息时间不同,夏天与冬天作息 时间不同来调整,如乌鲁木齐可以调整为7:00到22:59),从区域数据库中取出每个EPID所 对应的TYPE和X、Y、SR等数据,在该区域的地图上根据X、Y、SR标记处位置,同时可以根据其 TYPE标注成不同颜色或者形状。每一段时间(更具城市大小及交通情况来规定,白天的更新 时间间隔可以比夜间短,周末和工作日也可以有不同划分)在地图上更新一次。
[0088] 在本实施例中,将每天的5:00到20:59定义为白天时间段,从徐汇区数据库中取出 每个EP ID所对应的TYPE和X、Y、SR等数据,在该区域的地图上根据X、Y、SR标记处位置,同时 可以根据其TYPE标注成不同颜色或者形状,每半小时在地图上更新一次。
[0089] 4)改进基尼系数和泰尔指数:
[0090]计算不同类型的流动人口在空间分布上的聚集/离散程度。具体方法为:将区域地 理空间划分为多个栅格,将插值后的SDP点部署到地理底图上,统计每个栅格点的SDP数,根 据基尼系数和泰尔指数的计算公式计算流动人口位置分布的不平衡性,比较不同类型的流 动人口分布的不同特征。
[0091]基尼系数G:
[0093]上式中,基尼系数的计算首先需要将各栅格以内部SDP为序从小到大排列,η表示 格栅总数,Wi表示从栅格1到栅格i的累计SDP数占总SDP数的比例。
[0094] 泰尔指数T:
[0096]上式中A表示i栅格面积,S表示区域总面积,Pi表示i栅格内SDP数,P表示区域内 总SDP数。
[0097]在本实施例中,将区域地理空间划分为多个栅格,将插值后的SDP点部署到地理底 图上,统计每个栅格点的SDP数,根据基尼系数和泰尔指数的计算公式计算流动人口位置分 布的不平衡性,比较不同类型的流动人口分布的不同特征。如获得栅格24综合流动人口基 尼系数0.2,则认为综合流动人口在该栅格区域内发布均匀。
[0098] 5)流动人口出行0D统计:
[0099] 从区域数据库中提出需要的数据,以每次逗留时长<TT_DMIN_STAY(即,逗留时长 最小阈值)的空间范围作为逗留点,其它点都是途经点。连续时间序列的两两逗留点形成一 次0D出行,前一逗留点作为0点,后一逗留点作为D点。如EPID(r2)在2016年3月10日10:42: 24留下一条炜度31.1594320000,经度 121.4358650000作为逗留点1,2016年3月 10 日 11:02: 35留下一条炜度:31.141239110601024,经度:121.42567750896457作为逗留点2。逗留点1 为0点,逗留点2为D点,记为一次0D出行。
[0100] 6)流动人口出行距离统计:
[0101]两两0D点的直线距离,对不同的出行方向(比如东南西北)按5km-个区间,统计各 方向出行距离分布,并统计总体加权平均距离(按0D客流量加权)。如EPID(r2)在2016年3月 10 日 10:42:24 留下一条炜度 31.1594320000,经度 121.4358650000 作为逗留点 1,2016年 3 月 10 日 11:02:35 留下一条炜度:31 · 141239110601024,经度:121.42567750896457作为逗留点 2。逗留点1为0点,逗留点2为D点,记为一次0D出行,0D之间的直线距离为1.523公里。
[0102] 7)流动人口出行耗时统计:
[0103] 0点(出发点)出发时刻与D点(到达点)到达时刻的时间差作为一次0D出行耗费的 时间,也是统计各方向出行耗时分布与平均出行耗时。
[0104] 如EPID(r2)在2016年3月 10 日 10 :42:42留下一条炜度31. 1594320000,经度 121.4358650000作为逗留点1,2016年3月10日11:02:35留下一条炜度: 31.141239110601024,经度:121.42567750896457作为逗留点2。逗留点1为0点,逗留点2为D 点,记为一次0D出行,耗时为20分钟07秒。第二次0D出行,耗时为1小时30分38秒,第三次0D 出行,耗时为10分钟35秒……统计后得到平均出行耗时为40分钟20秒。
[0?05] 8)流动人口出行频次:
[0106] 对每个EPID,统计当日0D总次数,从而统计出行次数分布以及平均出行次数。
[0107] 如EPID(e2)2016年3月10日0D总次数5次,2016年3月11日0D总次数5次,2016年3月 12日0D总次数4次,2016年3月12日0D总次数6次并在当天离开上海,统计得到EPID(e2)平均 出行次数为5次。
【主权项】
1. 一种基于手机大数据的流动人口分类识别分析方法,其特征在于,包括以下步骤: 步骤1、从通信运营商获取目标分析城市空间范围内一段时期内持续的匿名加密手机 定位数据,每条匿名加密手机定位数据包括EPID、??ΜΕ及定位数据,其中,不同的手机终端 用户对应不同的EPID,TIME表示当前一条匿名加密手机定位数据所涉及的手机网络动作发 生时刻; 步骤2、构建每个EPID的时间序列分段模型: 将当前EPID对应的所有定位数据按??ΜΕ升序或降序排序,获得当前EPID基于时间序列 的位置信息,从而建立当前EPID的时间序列模型,将时间序列模型按照不同的位置信息进 行分段,得到当前EPID的时间序列分段模型; 步骤3、对每个EPID计算其在目标分析城市的每日累计逗留时长与天数频率情况,根据 每个EPID在目标分析城市每日停留时长长短与天数频率,将人口分为常住人口及流动人 P; 步骤4、基于空间位置属性对步骤3中判定为流动人口的每个EPID的流动目的进行判 另IJ,其中,空间位置属性的获取依赖于,包括以下步骤: 步骤4.1、基于GIS基础地图空间地理数据获得空间位置属性,包括以下步骤: 步骤4.1.1、对在空间地理数据库中的各人员的时间序列进行空间/时间插值,保证人 口空间分布SDP之间的时间间隔相等,为空间聚类做准备; 步骤4.1.2、对区域进行基于密度的空间聚类,该聚类所获得成果为得到基于空间的空 间位置属性,包括以下步骤: 步骤A、将空间地理数据库中的办个兴趣点POI位置属性进行遍历,设置半径Eps及最少 数目 MinPts; 步骤B、从办个兴趣点POI中任意选取一个点p; 步骤C、对当前点p其进行地域查询,若点p是核心点,则寻找从点p密度可达的点,最终 形成一个包含点P的位置簇,否则点P被标识为噪音点; 步骤D、将办个兴趣点POI中的下一个点作为当前点p,返回步骤4.3.3,直至如个兴趣点 POI都被处理; 步骤E、将所形成的位置簇进行聚合,聚合后的每一个类为一个位置区,每个位置区具 有一个位置属性,最终对应至运营商基站位置数据,使每一个基站位置数据对应一个位置 属性; 步骤4.2、对步骤3中判定为流动人口的每个EPID进行基于位置区的多属性差异识别, 对于当前EPID而言,根据其位置信息获得其所处的不同位置区,将每个位置区的停留时长 作为当前位置区所对应的位置属性的时间权重,并对各个位置属性的时间权重进行权重判 定,将最突出的时间权重对应的位置属性赋予当前EPID,以标识当前EPID的最终分类; 步骤4.3、对所有可识别位置属性数据进行分类,关联其位置属性与人群定义,获得不 同流动人口分类下的流动目的识别; 步骤5、分析各类流动人口出行特征。2. 如权利要求1所述的一种基于手机大数据的流动人口分类识别分析方法,其特征在 于,在所述步骤2中,为了保证每个EPID轨迹识别的完整性与可信性,将各时间序列中无法 追踪的时段标识出来,具体规则为:当时间序列中某条记录之后时长为MaxT的时段范围内 无记录,则认为当前EPID在当前记录之后的轨迹无法追踪。3. 如权利要求1所述的一种基于手机大数据的流动人口分类识别分析方法,其特征在 于,在所述步骤3中,将所述流动人口进一步划分为长期流动人口、短期流动人口及过境流 动人口。4. 如权利要求3所述的一种基于手机大数据的流动人口分类识别分析方法,其特征在 于,所述步骤3包括: 步骤3.1、判断并统计各EPID的时间序列分段模型中在目标分析城市所涉及的时间序 列的总时长,记为累计停留时长; 步骤3.2、设置时长阈值MaxD、Classify-L及Classify-S,若当前EPID的累计停留时长 大于时长阈值MaxD,则认为当前EPID为常住人口; 若当前EP ID的累计停留时长小于时长阈值MaxD,且大于时长阈值C1 as s i f y-L,则认为 当前EPID为长期流动人口; 若当前EPID的累计停留时长小于时长阈值Classify-L,且大于时长阈值Classify-S, 则认为当前EPID为短期流动人口; 若当前EPID的累计停留时小于时长阈值Classify-S,则认为当前EPID为短时过境人 □ 〇5. 如权利要求1所述的一种基于手机大数据的流动人口分类识别分析方法,其特征在 于,在所述步骤5中,所述流动人口出行特征包括流动人口活动空间统计、流动人口夜间分 布统计、流动人口白天分布统计、流动人口出行0D统计、流动人口出行距离统计、流动人口 出行耗时统计、流动人口出行频次统计。
【文档编号】G06K9/62GK106096631SQ201610386914
【公开日】2016年11月9日
【申请日】2016年6月2日 公开号201610386914.5, CN 106096631 A, CN 106096631A, CN 201610386914, CN-A-106096631, CN106096631 A, CN106096631A, CN201610386914, CN201610386914.5
【发明人】张颖
【申请人】上海世脉信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1