一种手机信令数据清洗方法与流程

文档序号:16317335发布日期:2018-12-19 05:31阅读:3712来源:国知局
一种手机信令数据清洗方法与流程
本发明涉及大数据
技术领域
,更具体地,涉及一种手机信令数据清洗方法。
背景技术
根据工业和信息化部的数据,截至2018年5月,我国移动电话用户数量已达到14.96亿,出行群体中的手机拥有率及使用率已达到较高比例。用户在使用手机进行打接电话、收发短信、切换基站时,会产生手机信令数据并被运营商所记录,由此得到用户的时间与位置数据。相比于传统居民出行调查每5~10年一次的频率,1%~5%的抽样率,手机信令数据拥有样本量大、观测时间长的优势。相比于公交ic卡、出租车gps以及卡口等交通大数据,手机信令数据拥有跟随性强的优势,即其位置数据不受交通方式变化的影响。但是手机信令数据作为移动通信运营商计费的副产物,存在着两个明显的劣势。一是位置精度低,一般情况下手机信令数据仅有基站级别的定位精度,即用户返回的位置均为手机基站的位置。在市区内基站的覆盖范围为200-500米,在郊区或农村地区基站覆盖范围为800-1000米,相比于gps定位3-10米的定位精度存在明显劣势。二是数据稀疏,因为手机并非实时与基站通信,只有用户进行相应操作或是长时间未与基站通信是才会与基站通信。因此手机信令数据可能无法反映用户的实时位置,导致用户轨迹点的缺失。此外,手机信令数据还存在乒乓切换数据、漂移数据、同时间不同位置点数据等特有的误差数据。乒乓切换数据指的是当用户处于两个及以上基站小区的交界处时,手机信号被多个基站覆盖且信号强度相近,手机在两个或多个基站间来回切换,产生多条信令记录,但实际上手机用户并没有移动或移动距离很短的情况。漂移数据是指用户突然从临近基站切换至远处基站,一段时间后又切回临近基站的情况所产生的数据。同时间不同位置数据是指同一用户的在同一时刻存在两条及以上不同位置点的信令数据。这些误差数据都手机信令所特有的,需要针对性地设计方法剔除。加上手机信令数据具有数据冗余量大、精度低、数据稀疏等特点。这就对手机信令数据的清洗提出了更高的要求,需要根据手机信令数据的特点进行针对性的清洗,使之适用于后续的数据分析。技术实现要素:本发明提供一种手机信令数据清洗方法,该方法高效处理海量手机信令数据,使之适用于地理、交通规划等领域的数据分析应用。为了达到上述技术效果,本发明的技术方案如下:一种手机信令数据清洗方法,包括以下步骤:s1:筛选研究区域经纬度范围内数据;s2:关键字段缺失数据处理;s3:稀疏数据处理;s4:同位置点数据合并;s5:同时间不同位置数据处理;s6:乒乓切换数据处理;s7:漂移数据处理;其中,所述的手机信令数据包括:1)记录编号id:唯一标识每一条信令记录;2)用户编号isdn:唯一标识每一个用户;3)经度lng:用户所在位置的经度;4)纬度lat:用户所在位置的纬度;5)时间time:信令记录产生的时间;信令数据的经纬度为用户实际位置的经纬度或基站小区的经纬度。进一步地,所述步骤s1中研究区域为矩形区域,其经度的最大值与最小值为lngmax、lngmin,纬度的最大值与最小值为latmax、latmin,则所筛选出的有效数据为:lngmin<lngid<lngmaxlatmin<latid<latmax其中lngid和latid为每条信令记录的经纬度。进一步地,所述步骤s2中关键字段缺失数据包括用户编号、时间、经纬度字段。进一步地,步骤s3的具体过程是:a)将一天24小时分为48个半小时区间;b)将每个用户的原始信令数据按时间分至各个区间;c)统计每个用户每天的信令数据所分布区间的数量ntimeslot;d)选取区间数量大于阈值的用户数据为有效数据。进一步地,步骤s4中,将所有手机信令数据按照用户编号isdn和时间time递增排序,根据每条记录的经度lng和纬度lat计算其与上一条记录的距离distance_lag,筛选出所有距离distance_lag不为0的记录。对于筛选出的手机信令数据,再次按照用户编号isdn和时间time递增排序,根据每条记录的经度lng和纬度lat计算其与下一条记录的距离distance,根据每条记录的时间time计算其与下一条记录的时间差作为其停留时间staytime,由每条信令记录的距离distance除以停留时间staytime得到该条信令记录的速度speed。进一步地,步骤s5中,对于同一用户同一时间不同位置的信令记录的位置为pm1、pm2……pmn∈pm,其前一条信令记录的位置为pf1、pf2……pfn∈pf,其后一条信令记录的位置为pr1、pr2……prn∈pr,则由同时间记录的位置pm与其前一条信令记录的位置pf组成向量由同时间记录的位置pm与其后一条信令记录的位置pr组成向量根据向量点乘的原理计算两向量的夹角对于同一用户同一时间不同位置的信令记录,取夹角θ较小的记录为有效记录,对经过处理的信令数据包括非同时间不同位置数据进行步骤s4的同位置点数据合并处理。进一步地,所述步骤s6中,对于同一用户连续时间且按时间递增排序的手机信令数据,第i条记录与第i+1条记录的位置不同,与第i+2条记录的位置相同,且第i+1条记录的停留时间小于阈值δtp,则第i至i+2条记录为乒乓切换数据。进一步地,所述乒乓切换数据的记录数量大于或等于3条,如第i至i+2条数据记录满足权利要求10所述的乒乓切换数据特征,且第i+1至i+3条数据记录亦满足权利要求10所述的乒乓切换数据特征,则第i至i+3条数据记录均为乒乓切换数据;将所有手机信令数据按照用户编号isdn和时间time递增排序,判断其中的乒乓切换数据,对于每一段连续的乒乓切换数据,仅保留一条手机信令记录;对于每一段连续的乒乓切换数据,所保留一条手机信令记录为该段连续乒乓切换数据中停留时间staytime最大的记录,但其时间time应改为该段连续乒乓切换数据中的最小值,即该段乒乓切换数据中的第一条记录的时间time。进一步地,所述步骤s7的具体过程是:a)对所有手机信令数据进行权利要求1所述步骤4)同位置点合并处理;b)剔除速度speed大于速度阈值δv的手机信令记录,保留其余数据;c)重复步骤1),并计算速度speed大于速度阈值δv的记录数量ndrift;d)若ndrift大于漂移数据数量阈值重复步骤a)、b)、c),直至其中,漂移数据数量阈值为所处理手机信令数据中用户数量的10%,如某一批手机信令数据包含1000个用户,则经过漂移数据处理后其漂移数据数量ndrift应小于100个。对于同一用户的一段连续时间的手机信令数据,其位置点即经纬度或基站编号未发生变化;时间区间数量阈值的取值为16,停留时间阈值δtp为30分钟。与现有技术相比,本发明技术方案的有益效果是:本发明方法简单易行,可以准确、可靠且高效地剔除手机信令数据中的非研究范围内数据、缺失数据、稀疏数据、同位置点数据、同时间不同位置数据、乒乓切换数据和漂移数据。降低后续对手机信令数据分析过程中的误差、提高手机信令数据分析的准确率。附图说明图1为本发明的方法流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。实施例1如图1所示,一种手机信令数据清洗的方法,包括以下步骤:步骤101:筛选研究区域经纬度范围内数据:如表1所示,假设研究区域的经度范围为109°~117°(东经为正,西经为负),纬度范围为21°~26°(北纬为正,南纬为负),则应剔除编号(id)为2、3的记录。表1筛选研究区域经纬度范围内数据示意表idisdnlnglattime10001113.320833323.19798612017-10-2715:10:3520001118.284513923.14701392017-10-2717:25:3330001113.260347220.14895832017-10-2720:15:3540001113.260347223.14895832017-10-2820:15:35步骤102:关键字段缺失数据处理:剔除关键字段如用户编号、时间、经纬度缺失的数据。如表2所示,编号为2、3、4的记录分别出现用户编号缺失、时间缺失以及经纬度缺失的情况,应予以剔除;表2关键字段缺失数据处理示意表idisdnlnglattime10001113.320833323.19798612017-10-2715:10:352null118.284513923.14701392017-10-2717:25:3330001113.260347220.1489583null40001113.2603472null2017-10-2820:15:35步骤103:稀疏数据处理:首先将一天分为48个半小时,将用户一天的原始手机信令数据分至各个半小时区间,统计用户该天信令数据所分布区间的数量ntimeslot,选取区间数量大于阈值的用户数据为有效数据。如表3所示,用户1在2017年10月27日的手机信令数据所分布区间的数量ntimeslot等于6,其中第5和第6条记录均在20:00-20:30区间,因此计作1个区间数量;同理,用户1在2017年10月28日的手机信令数据所分布区间的数量ntimeslot等于3。表3稀疏数据处理示意表idisdnlnglattime10001113.320833323.19798612017-10-2715:10:3520001118.284513923.14701392017-10-2717:25:3330001113.260347220.14895832017-10-2718:36:2340001113.260347223.14895832017-10-2719:40:0750001118.284513923.14701392017-10-2720:15:3560001113.260347220.14895832017-10-2720:25:3570001113.260347223.14895832017-10-2723:10:3680001113.260347223.14895832017-10-2810:00:2390001118.284513923.14701392017-10-2810:06:47100001113.260347220.14895832017-10-2810:15:08110001113.260347223.14895832017-10-2810:36:49120001113.260347223.14895832017-10-2816:00:57130001118.284513923.14701392017-10-2816:00:58因此假设所选阈值为4,则用户1在2017年10月27日的数据为有效数据,在2017年10月28日的数据为无效数据,应予以剔除。步骤104:同位置点数据合并:将所有手机信令数据按照用户编号isdn和时间time递增排序,根据每条记录的经度lng和纬度lat计算其与上一条记录的距离distance_lag,筛选出所有距离distance_lag不为0的记录。如表4-1所示,第2、3、5条记录的distance_lag等于0,因此予以剔除。对于筛选出的手机信令数据,再次按照用户编号isdn和时间time递增排序,根据每条记录的经度lng和纬度lat计算其与下一条记录的距离distance,根据每条记录的时间time计算其与下一条记录的时间差作为其停留时间staytime,由每条信令记录的距离distance除以停留时间staytime得到该条信令记录的速度speed。如表4-2所示,对于筛选出的第1、4条记录,重新计算二者之间的距离、停留时间及速度。表4-1同位置点数据原始示意表表4-2同位置点数据合并示意表步骤105:同时间不同位置数据处理:基于步骤104的结果,筛选出所有停留时间staytime为0的数据,即同时间不同位置的数据,以及其前一条记录与后一条记录,编号4、9为同时间不同位置记录,编号1为它们的前一条记录,编号10为它们的后一条记录,如表5-1所示;筛选出同时间不同位置数据即编号4、9的记录,增加其前一条记录的经度lng_f、纬度lat_f和后一条记录的经度lng_r和纬度lat_r字段,如表5-2所示,将lng、lat、lng_f、lat_f、lng_r、lat_r转化为三维坐标,由记录1与记录4、9组成向量和由记录4、9与记录10组成向量和计算向量与向量的夹角angle4,向量与向量的夹角angle9,根据计算结果angle4为40.1173°,angle9为52.6791°,因此剔除编号为9的记录,保留编号为4的记录,对经过处理的信令数据(包括非同时间不同位置数据)进行步骤104处理;表5-1同时间不同位置数据处理表5-2同时间不同位置数据处理idisdnlnglat……lng_flat_flng_rlat_rangle0001113.260347223.1489583……113.320833323.1979861113.249870123.148739840.11730001113.260351723.1470139……113.320833323.1979861113.249870123.148739852.6791步骤106:乒乓切换数据处理:乒乓切换数据的特点是第i条记录与第i+1条记录的位置不同,与第i+2条记录的位置相同,且第i+1条记录的停留时间小于阈值δtp,则第i至i+2条记录为乒乓切换数据。如表6所示,假设阈值δtp等于30分钟,则第1~6条记录均为符合乒乓切换数据的条件。对于该段乒乓切换数据,统计不同位置点的停留时间,分别得到在位置点(113.3208333,23.1979861)的停留时间为05:06:19,在(113.3103472,23.1989583)的停留时间为03:08:42,因此将第1条记录的经纬度设为(113.3208333,23.1979861),剔除2~6条记录,对经过处理的信令数据(包括非乒乓切换数据)进行步骤104处理。表6乒乓切换数据处理步骤107:漂移数据处理:根据每条信令记录的停留时间及与下一条记录的距离计算每条信令记录的速度,根据漂移数据的特点,即短时间发生大位移,剔除速度大于速度阈值δv的信令记录,如表7所示,假设速度阈值δv为120km/h(36m/s),则第2条信令记录的速度大于δv,应予以剔除,对经过处理的信令数据(包括非乒乓切换数据)进行步骤104处理,然后计算速度speed大于速度阈值δv的记录数量ndrift,若ndrift大于漂移数据数量阈值重复剔除漂移数据、合并同位置点记录、计算ndrift步骤,直至表7漂移数据处理相同或相似的标号对应相同或相似的部件;附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1