基于轨迹相似性的区域人口中一机多卡用户数量判定方法与流程

文档序号:20273210发布日期:2020-04-03 19:18阅读:219来源:国知局
基于轨迹相似性的区域人口中一机多卡用户数量判定方法与流程

本发明属于移动大数据统计分析应用技术领域,涉及运用移动大数据进行人口统计的方法,具体涉及一种基于轨迹相似性的区域人口中一机多卡用户数量的判定方法。



背景技术:

采用移动通信大数据对人口进行监测和统计,可以有效地估计人口规模、掌握人口流向、及时对区域人口的发展趋势进行预警。运用大数据开展人口监测和统计工作中所使用的移动通信大数据是基于移动通信终端设备进行采集和分析的,其前提是假设一个手机用户对应一个手机号码。但现实中存在较多的一机多卡现象,即一个手机用户可能同时携带多个手机号码。一机多卡问题已经严重影响了数据统计的准确性和可靠性,但目前并没有任何有效的解决手段。



技术实现要素:

本发明的目的在于针对现实中存在的一机多卡现象,提供一种基于轨迹相似性的一机多卡的判别方法,对一个用户拥有多个移动号码的情况进行有效识别,以提高基于移动通信大数据进行人口进行监测和统计的准确性。

为实现上述目的,本发明提供以下技术方案:

一种基于轨迹相似性的区域人口中一机多卡用户数量判定方法,其特征在于,包括以下步骤:

(1)基于移动运营商数据,在指定城市的常驻人口中,随机抽取一定数量的居住地在该统计区域的imsi作为抽样数据;

(2)根据抽样数据中每个imsi在统计时间段内访问过的基站数和在每个基站的驻留时间,确定每个imsi的移动轨迹;统计出所有抽样imsi访问过的基站总数,以及每个基站的imsi访问数量;

(3)数据预处理:根据每个imsi的移动轨迹,将抽样数据中在一天内只访问过一个基站的imsi删除;在上述基站总数中将每天imsi访问数量超过一定值的基站删除;

(4)对预处理后的imsi数据,将每个imsi的移动轨迹与其他imsi的移动轨迹进行逐一比对,筛选出候选一机多卡用户;筛选方法如下:

a.一个imsi与另一imsi一个月内共同访问的基站数量超过一定数量;

b.一个imsi与另一imsi每天在共同访问的基站的驻留重叠时长累计超过一定值;

满足上述条件,则将这两个imsi作为一候选imsi对;

(5)基于超几何分布对每个候选imsi对是否属于一机多卡用户进行判定:以经过数据预处理后的基站总数作为n,两个imsi分别访问的基站数作为m和n,被两个imsi共同访问的基站数目为x,在两个imsi访问每个基站概率独立相等的假设下,按以下公式计算被两个imsi共同访问的基站数目x≥k的概率p:

当计算所得结果小于预设的判定阈值时,则判定该候选imsi对为一机多卡用户;

(6)按上述方法判定出抽样数据中所有一机多卡用户的数量,并计算出其在抽样数据中的比例,并可据此推算出统计区域内常驻人口中的一机多卡用户数量。

进一步,上述基于轨迹相似性的区域人口中一机多卡用户数量判定方法,所述步骤(5)中,采用bonferroni校正法对所述的判定阈值进行校正:将所述判定阈值除以抽样数据总数,所得的值作为校正阈值;当经过超几何分布计算所得的p值小于所述校正阈值时,则判定该imsi对为一机多卡用户。

本发明通过把轨迹数据转化成imsi对数据,并统计每个imsi对每天来自相同基站的时长及每个月来自相同基站的个数,采用超几何检验方法,统计出每个imsi对是否属于同一个用户(一机多卡)的概率值,对达到设定概率阈值的imsi对,判定为一机多卡用户;进一步,还可采用多重检验使判断精度进一步提高。本发明能有效判断出两个imsi是否属于一机多卡用户,可对传统的假设一个手机用户对应一个imsi的人口统计方法进行优化,从而提高通过移动大数据进行人口统计的准确性。

附图说明

图1是本发明的流程图;

图2是以抽样imsi在一天中访问的基站数目为基准,对用户的活动范围进行统计图。

具体实施方式

本发明所采用的数据来自移动运营商的信令数据,包括:用户手机号码-imsi(国际移动用户识别码:internationalmobilesubscriberidentificationnumber);位置区识别码lac:用于标识不同的位置区;基站编号ci:与位置区识别码(lac)结合,用于识别网络中覆盖的小区;imsi进入基站的时间、离开该基站的时间。上述数据来自同一移动运营商。一机多卡属于不同运营商的情况不在本发明的研究范围内。通过上述数据,可刻画出imsi的移动轨迹。

本发明的基本思路是:基于移动信令数据,根据两个imsi在一定时间内共同访问的基站数量,及在共同访问基站的驻留时间重叠时长,判断两个imsi的轨迹相似度,若达到一定相似度,则认为两个imsi有可能是一机多卡用户,然后采用超几何分布进行检验,检验结果小于设定的阈值,则判定这两个imsi是一机多卡用户。

为提高判定结果的准确度,还可采用bonferroni校正对判定进一步结果筛选。

本发明的实现主要基于以下理论:

1、超几何分布。

超几何分布(hypergeometricdistribution)是统计学上一种离散概率分布,它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。

在统计学的假设检验分析中,先假设样本数据来自零假设的总体,假设检验方法即根据零假设下检测统计量的分布计算出零假设的拒绝域,当样本统计量落在拒绝域即认为样本拒绝零假设,即零假设不真。而来自零假设的样本统计落入拒绝域的概率被称为显著性水平,习惯上设为5%。

本发明将超几何分布理论用于对两个imsi共同访问的基站数目进行检验,零假设即为两个待分析的imsi是完全独立的,其同时访问某个基站的现象是随机产生的。以两个imsi同时访问的基站次数作为统计量,可以认为这个统计量是服从超几何分布的,基于超几何分布对imsi对共同访问的基站数目x进行检验:以全部基站数作为n,两个imsi分别访问的基站数作为m和n,在imsi访问每个基站概率独立相等的假设下,被两个imsi共同访问的基站数目为x,则两个imsi共同访问基站数目x≥k的概率为:

将计算结果所得的p值与预先设定的判定阈值比较,对两个imsi是否是一机多卡用户进行判定。该判定阈值可取超几何分布惯常的显著性水平,即5%。计算结果小于5%,即判定两个imsi是一机多卡用户。

2、bonferroni校正。

bonferroni校正是一种较为严格的多重检验校正方法,即对于同一个数据集有n次(n>=2)假设检验时,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n。

bonferroni校正后阈值会极大提高,因此可以使用bonferroni校正后的阈值来对上述判定结果进行进一步筛选。

图1是本发明的实现方法流程图。本发明的具体实施方式如下:

(1)基于移动运营商数据,在指定城市的常驻人口中,随机抽取一定数量的居住地在该统计区域的imsi作为抽样数据。

本发明要将每个imsi与其余imsi一一比对,对于人口数量较大的城市,如果将全部用户作为分析对象,计算量过大,考虑到计算时间问题,本发明对城市各个区域分别进行统计。统计区域可以是一个市辖区,也可以是一个街道,一个小区,或一个按特定要求指定的片区。采用随机抽样的方法在统计区域抽取一定数量的imsi作为分析对象,以抽样代替总体,可大大提高运算速度。在本发明的一个具体实施例中,在城市某小区随机抽取了3000个imsi作为研究对象。在具体应用时,可以考虑多次抽样以减小误差。

本发明主要应用于人口统计领域。城市人口统计中一般将常驻人口作为主要统计指标,因此本发明的统计对象由常驻人口中抽取。本发明对城市常驻人口的定义,是根据根据移动用户在指定城市中的居住时间而定,指一个月内,在该城市驻留超过15天且每天驻留时长超过10小时的移动用户。

本发明需要采集imsi用户在一定时间段内的数据,该时间段一般至少为一个月。为保证数据的连续性,需要采集居住地在统计区域的用户。本发明对移动用户的居住地如下定义:移动用户在满足城市常驻人口的前提下,其每天晚上21点至次日凌晨7点时段,在某个基站驻留时间最长,则把此基站所在的区域定义为用户该日的居住地;按月统计用户在各区域的居住天数,居住天数最多的区域为用户本月的居住地。

上述移动用户在城市及某个基站的驻留时间可通过移动运营商的轨迹数据匹配出。

(2)根据抽样数据中每个imsi在一定时间段内每天访问过的基站数和在每个基站的驻留时间,确定每个imsi的移动轨迹;统计出所有抽样imsi访问过的基站总数,以及每个基站每天的imsi访问数量。上述时间段具体实施时可限定为一个月。

(3)数据预处理:根据每个imsi的移动轨迹,将抽样数据中在一天内只访问过一个基站的imsi删除;在上述基站总数中将每天imsi访问数量超过一定值的基站删除。

不同的imsi具有不同的行动规律。imsi持有者活动范围较小,则在一天中该imsi连接的基站数也较少,而imsi持有者的活动范围较大,则其一天中该imsi访问的基站数目也会比较多。这样,imsi在一天中访问的基站数目,可以作为反应其持有者活动范围的一项指标。

图2所示,是本发明的一个具体实施例中,以抽样imsi在一天中访问的基站数目为基准,对用户的活动范围进行统计图。

图2中纵轴为imsi出现的频数,横轴为imsi访问的基站数。从图2中可以看部分imsi每天访问的基站数量较少,这种活动范围较小的用户,其轨迹数据对区分一机多卡问题意义较小,数据预处理过程中将这类一天之中只访问过一个基站的imsi数据删除。

图2显示大部分的基站每天来访问的imsi数量较小,但是少数基站每天有大量imsi访问。造成该情况的最主要原因,是所选数据来自于同一小区。由于该类基站富集大量的imsi信息,所以来自这些基站所预测为一机双卡的imsi对的准确率较低,在数据预处理过程中将此类数据删除。具体方法是按所有基站一天之中访问imsi数量从多到小排序,将imsi访问量最大的前1%的基站删除。

(4)对预处理后的imsi数据,将每个imsi的移动轨迹与其他imsi的移动轨迹进行逐一比对,筛选出候选一机多卡用户;候选一机多卡用户满足以下条件:

a.一个imsi与另一imsi一个月内共同访问的基站数量超过一定数量;该数量具体实施时设定为至少5个;

b.出一个imsi与另一imsi每天在共同访问的基站的驻留重叠时长超过一定值;具体实施时,重叠时长可设定为至少5小时。

满足上述条件,则将这两个imsi作为一候选imsi对。

(5)基于超几何分布对每个候选imsi对是否属于一机多卡用户进行判定:以经过数据预处理后的基站总数作为n,两个imsi分别访问的基站数作为m和n,被两个imsi共同访问的基站数目为x,在两个imsi访问每个基站概率独立相等的假设下,按以下公式计算被两个imsi共同访问的基站数目x≥k的概率p:

预先设定一个判定阈值,当计算所得p值小于预设的判定阈值时,则判定该候选imsi对为一机多卡用户。

上述判定阈值根据超几何分布的惯常阈值,一般设定为5%。即当计算所得p值小于5%时,则判定该候选imsi对为一机多卡用户。

本发明具体实施时,为提高判定结果的准确性,可采用bonferroni校正法对所述的判定阈值进行校正,将所述判定阈值除以抽样数据总数,所得的值作为校正阈值。

假设在上述抽样数据中找到的候选一机多卡的imsi对为n、判定阈值为5%的情况下,校正阈值为0.05/n。当经过超几何分布计算所得的p值小于0.05/n时,则判定该imsi对为一机多卡用户。

(6)按上述方法判定出抽样数据中所有一机多卡的用户数量,并计算出其在抽样数据中的比值,得出抽样数据中一机多卡用户的比例,并可据此推算出统计区域内常驻人口中的一机多卡用户数量。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1