一种手机换卡用户智能化识别方法与流程

文档序号:21362716发布日期:2020-07-04 04:36阅读:496来源:国知局

本发明涉及移动通信技术领域,具体涉及一种基于移动通信大数据的换卡用户的识别方法。



背景技术:

随着智能手机与4g网络不断普及,越来越多的移动通信大数据分析被应用到智慧城市建设中,包括根据用户的移动轨迹和活动规律进行人口统计、交通规划、服务设施布局等等。而实际生活中,由于运营商竞争激烈不断加强,用户更换手机号码比较频繁,而换号后之后的移动数据如果没有衔接,个人的数据就相当于断裂,对于分析城市人口行为轨迹,活动规律都有影响,而现有技术中还没有有效的手段对换卡用户进行有效识别。



技术实现要素:

本发明的目的在于提供一种基于移动通信大数据的换卡用户识别方法,能把用户换卡前后的手机号码关联起来,解决通信数据中的换卡用户数据衔接问题,提高大数据人口统计分析准确性。

为实现上述目的,本发明采用以下技术方案:

一种手机换卡用户智能化识别方法,其特征在于,包括以下步骤:

(1)数据采集:利用电信运营商信令数据,在一个时间段内,对一个统计区域内每个imsi识别号所在的基站位置、进出基站时间信息进行采集并存储,得到每个imsi的移动轨迹数据;

(2)数据预处理:对进出基站缺失信令进行插值补偿,如果用户在统计时间段内只有进入某基站时间而没有离开该基站时间,或者只有离开某基站时间而没有进入该基站时间,则对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间;

(3)注销用户判定:在统计时间段内,某条手机信令突然消失,且连续消失超过设定时间,则认为该卡被注销,筛选出该imsi,标记为旧卡;

(4)旧卡居住地判定:读取旧卡信令消失前一定时间段的轨迹数据,统计其在该时间段内每天21:00至次日6:00之间所访问过的所有基站,并进一步统计在每个基站停留的时长,把停留时长最长的基站所对应的地理位置判定为其居住地;

(5)旧卡工作地判定:读取旧卡信令消失前一定时间段的轨迹数据,统计其在该时间段内在9:00-18:00之间所访问过的所有基站,并进一步统计在每个基站停留的时长,把停留时长最长的基站所对应的地理位置判定为其工作地;

(6)发现新卡:找到旧卡居住地基站在旧卡信令消失后一定时间内新出现的imsi,将这些新出现的imsi作为待筛选的新卡;

(7)根据居住地筛选新卡:统计一定时间段内,每个新卡每天21:00至次日6:00之间所访问过的所有基站,并进一步统计在每个基站停留的时长,把停留时长最长的基站所对应的地理位置判定为其居住地;筛选出居住地与旧卡相同的新卡,进一步根据工作地筛选;

(8)根据工作地筛选新卡:对骤(7)根据居住地相同筛选出的新卡,统计一定时间段内,每个新卡在9:00-18:00之间所访问过的所有基站,并进一步统计在每个基站停留的时长,把停留时长最长的基站所对应的地理位置判定为其工作地;将与旧卡工作地相同的新卡作为候选新卡;

(9)行为相似度判定:对步骤(8)中得到的每个候选新卡imsi与旧卡imsi的轨迹进行行为相似度分析,行为相似度高的,判定为同一用户,反之判定为不同用户。

本发明主要从三方面对换卡用户进行识别,一是换卡用户的imsi出现的时间保持有效衔接,二是居住地和工作地一致,三是行为轨迹高度相似。如果以上都满足,可以认定为同一用户,反之不是同一用户。本发明识别率高,有助于把换卡用户的信息连接起来,保持数据的完整性,对提高城市人口分析的准确性。

具体实施方式

本发明的具体实现方式如下:

(1)数据采集:利用电信运营商信令数据,在一个时间段内,对一个统计区域内每个imsi识别号所在的基站位置、进出基站时间信息进行采集并存储,得到每个imsi的移动轨迹数据。

(2)数据预处理:对进出基站缺失信令进行插值补偿,如果用户在统计时间段内只有进入某基站时间而没有离开该基站时间,或者只有离开某基站时间而没有进入该基站时间,则对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间;

例如t用户在6月1日21:00:00进入扇区x,在6月2日7:00:00离开扇区x,且t用户进入扇区y的时间为6月2日22:00:00,而离开的时间为6月3日的7:00:00,当采集6月2日t用户的信息时将缺失进入扇区x的时间点和离开扇区y的时间点,因此需要插补进入扇区x的时间为6月2日的00:00:00,离开扇区y的时间点为6月2日23:59:59。

(3)注销用户判定:在统计时间段内,某条手机信令突然消失,且连续消失超过设定时间,则认为该卡被注销,筛选出该imsi,标记为旧卡。

例如imsi-01月5号之后一直没有出现,且连续1个月(30天)都没有在相应城市出现,则可判定imsi-0已经被注销。

(4)旧卡居住地判定:读取旧卡信令消失前一定时间段的轨迹数据,统计其在该时间段内每天21:00至次日6:00之间所访问过的所有基站,并进一步统计在每个基站停留的时长,把停留时长最长的基站所对应的地理位置判定为其居住地。

例如,用户在21:00-6:00连接的基站及在基站下停留时间分别为:基站x1连接3小时,基站x2连接4小时,基站x3连接1小时,则可判定基站x2对应的地理位置即为用户a的居住地。

为了避免临时出差等临时性居住地对居住地判定的影响,可以选取某个时间内的居住地综合判定该地点是否是居住地。如选取时间段为一个月(30天),如果t用户在a1地居住22天,在a2地居住2天,在a3地居住6天,则可认为t的居住地为a1。

(5)旧卡工作地判定:读取旧卡信令消失前一定时间段的轨迹数据,统计其在该时间段内在9:00-18:00之间所访问过的所有基站,并进一步统计在每个基站停留的时长,把停留时长最长的基站所对应的地理位置判定为其工作地;

例如,用户在晚上9点到早上6点连接的基站及停留时间分别为:基站x1连接3小时,基站x2连接4小时,基站x3连接1小时,则可判定基站x2对应的地理位置即为其工作地。

因为工作地一般为工作日,且为了避免临时出差等临时性区外出工作的影响,可以选取某个时间内的工作地综合判定该地点是否是工作地。如选取某个月(30天)中的工作日进行判定,如某个月工作日共21天,t用户在a1地工作15天,在a2地工作2天,在a3地工作4天,则可判断t的工作地为a1。

(6)发现新卡:找到旧卡居住地基站在旧卡信令消失后一定时间内新出现的imsi,将这些新出现的imsi作为待筛选的新卡;

例如,判定imsi-0是已注销的imsi,找到该imsi注销前一个月(30天)的居住地所在的基站,找到该基站在imsi-0注销后7-10内新出现的所有imsi,这些新imsi中有的可能与imsi-0是同一用户,需要进一步筛选确定。

(7)根据居住地筛选新卡:统计一定时间段内,每个新卡每天21:00至次日6:00之间所访问过的所有基站,并进一步统计在每个基站停留的时长,把停留时长最长的基站所对应的地理位置判定为其居住地;筛选出居住地与旧卡相同的新卡,进一步根据工作地筛选。

新卡居住地确定方法与旧卡相同,但选取的其移动轨迹的时间是新卡出现后一个月(30天)。

通过这一步,新卡的范围缩小,然后进一步根据工作地筛选。

(8)根据工作地筛选新卡:对根据居住地相同筛选出的新卡,统计一定时间段内,每个新卡在9:00-18:00之间所访问过的所有基站,并进一步统计在每个基站停留的时长,把停留时长最长的基站所对应的地理位置判定为其工作地;将与旧卡工作地相同的新卡作为候选新卡。

新卡工作地确定方法与旧卡相同,但选取的其移动轨迹的时间是新卡出现后一个月(30天)。

通过这一步,新卡的范围进一步缩小,筛选出的新卡作为与旧卡进行轨迹相似度判定的候选新卡。

(9)对步骤(8)中得到的每个候选新卡imsi与旧卡imsi的轨迹进行行为相似度分析,行为相似度高的,判定为同一用户,反之判定为不同用户。

行为相似度分析的具体方法如下:

(91)根据旧卡和每个新卡的移动轨迹,分别统计每个imsi在一定时间段内在每个基站中出现的次数或驻留时长,标记为pf,以及所有imsi在每个基站中出现的次数或驻留时长的均值,标记为gf,其中,pf值按天取均值,gf值按人天取均值,并将之归一化;使用归一化之后的pf值和gf值进行pf/gf计算,得到每个imsi的pf-igf值。

pf(personfrequency)意思是某个具体人(手机用户)在某个时空位置的停留时长或访问频次,gf(groupfrequency)指在对应时空位置某一群体(一批手机用户)的停留时长或访问频次的平均值,而igf(inversegroupfrequency)则是对gf的取反,pf-igf即将gf作为分母与作为分子的pf进行联合运算。pf-igf期望突出地反映某用户经常访问特定时空位置,同时群体内的其他用户并未如此热衷该区域。换言之,某人在某位置的pf-igf高,则表示该位置可以相当程度地“代表”或“刻画”该用户的行为轨迹特征。

手机用户时空轨迹可以通过向量的方式表示。对于确定的时间空间范围与背景人群,使用如下向量则可以刻画person[i]的行为特征:

pf-igf[i]=[pf-igf[i,1],pf-igf[i,2],…pf-igf[i,j],…pf-igf[i,n]]

计算旧卡和每个新卡的pf值、gf值以及pf-igf值时,根据旧卡消失前30天内访问过的所有基站,以及每个新卡出现后30天内访问过的所有基站进行计算。

(92)采用以下公式计算旧卡imsi与每个新卡imsi的pf-igf值的夹角余弦值cosθ:

其中,ai表示旧卡在第i个基站的pf-igf值,bi表示某个新卡在第i个基站的pf-igf值,i=1,2,……n;

余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间,求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似;夹角越大,余弦值越接近于0,它们越接近于正交,相似性越差。

手机用户行为的时空轨迹直接反映了手机用户的空间位置行为,通过对不同的用户在若干个区域内的pf-igf属性值,可利用夹角余弦相似度指标来分析每两个手机用户的相似度。

(93)根据上述的余弦相似度理论,通过计算所得的夹角余弦值cosθ,判定旧卡与新卡的行为相似度。

旧卡与新卡的夹角余弦值cosθ越接大,表示二者的行为轨迹越相近;夹角余弦值cosθ的值越小,表示二者的行为轨迹越不相关。夹角余弦值等于1,表示两个imsi的移动轨迹完全相同,等于0表示二者的移动轨迹完全不相关。

本发明在判断时,将与旧卡imsi夹角余弦值cosθ超过一定阈值的新卡imsi判定为与旧卡imsi是同一用户。

根据经验值,当两个imsi的夹角余弦值超过0.9时,即表示这两个imsi的移动轨迹高度相同。因此,本发明具体实施时,可将上述阈值的设定为0.9。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1