手机信令数据分析方法、装置、电子设备及存储介质与流程

文档序号:25439255发布日期:2021-06-11 21:57阅读:524来源:国知局
手机信令数据分析方法、装置、电子设备及存储介质与流程

本发明涉及大数据技术领域,具体而言,涉及一种手机信令数据分析方法、装置、电子设备及存储介质。



背景技术:

手机信令数据是手机用户与发射基站或者微站之间的通信数据,只要手机一开机,并且手机屏幕上显示出运营商(中国移动、中国联通、中国电信)字样,信令数据就开始产生了。之后当使用手机拨打接听电话、发送接受短信、上网浏览网页等所有通讯行为,都会和手机附近的基站发送通信关系,由于通信基站的位置是固定且已知的,基站的位置信息就反映了用户的位置,因此手机信令数据字段中始终带有时间和位置等信息。

目前通常采用办卡用户的身份证实名制登记注册的方式,确定一个用户对应多张卡的方式,但是这种采用静态的身份属性数据的方法,在身份证实名制登记注册缺失或者身份证被套用的情况下,很难将手机卡和真正使用者对应起来。



技术实现要素:

本发明的目的在于提供了一种手机信令数据分析方法、装置、电子设备及存储介质,其能够通过对手机信令数据的分析,准确地将手机中的手机卡和真正使用者对应起来。

为了实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明提供一种手机信令数据分析方法,所述方法包括:获取待分析的手机信令数据,其中,所述手机信令数据包括手机标识、所述手机标识表征的手机的每一驻留点及所述每一驻留点对应的驻留时间;统计相同手机标识的所述手机信令数据中每一所述驻留点出现的频次;根据任意两个手机标识的每一所述驻留点出现的频次及驻留时间,计算所述两个手机标识之间的位置相似度;若所述位置相似度大于预设阈值,则判定所述两个手机标识表征的手机归属于同一个用户。

第二方面,本发明提供一种手机信令数据分析装置,所述装置包括:获取模块,用于获取待分析的手机信令数据,其中,所述手机信令数据包括手机标识、所述手机标识表征的手机的每一驻留点及所述每一驻留点对应的驻留时间;统计模块,用于统计相同手机标识的所述手机信令数据中每一所述驻留点出现的频次;分析模块,用于根据任意两个手机标识的每一所述驻留点出现的频次及驻留时间,计算所述两个手机标识之间的位置相似度、以及用于若所述位置相似度大于预设阈值,则判定所述两个手机标识表征的手机归属于同一个用户。

第三方面,本发明提供一种包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述的手机信令数据分析方法。

第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的手机信令数据分析方法。

相对于现有技术,本发明通过对手机信令数据的分析,统计相同手机标识的手机信令数据中每一驻留点出现的频次,根据驻留点出现的频次及驻留时间,计算两个手机标识之间的位置相似度,进而根据相似度判断两个手机标识表征的手机是否归属于用一个用户,由此可以准确地将手机中的手机卡和真正使用者对应起来。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是手机信令数据分析方法的技术架构的示例图。

图2示出了本发明实施例提供的电子设备的方框示意图。

图3示出了本发明实施例提供的一种手机信令数据分析方法的流程图。

图4示出了本发明实施例提供的另一种手机信令数据分析方法的流程图。

图5示出了本发明实施例提供的用户出行轨迹的示例图。

图6示出了本发明实施例提供的另一种手机信令数据分析方法的流程图。

图7示出了本发明实施例提供的相邻驻留点的示例图。

图8示出了本发明实施例提供的另一种手机信令数据分析方法的流程图。

图9示出了本发明实施例提供的居住点和驻留点的示例图。

图10示出了本发明实施例提供的另一种手机信令数据分析方法的流程图。

图11示出了本发明实施例提供的跨运营商的分析过程示例图。

图12示出了本发明实施例提供的手机信令数据分析装置的方框示意图。

图标:10-电子设备;11-处理器;12-存储器;13-总线;14-通信接口;100-手机信令数据分析装置;110-获取模块;120-统计模块;130-分析模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。

请参考图1,图1是手机信令数据分析方法的技术架构的示例图,图1中,该技术架构主要包括两大部分:(1)用户位置指纹库;(2)用户位置指纹比对。

用户位置指纹库包括:原始信令数据、位置数据清洗、位置网格处理、位置数据加工;特征数据处理;图数据处理。

原始信令数据,可以是运营商采集的手机信令数据,例如,历史3个月的手机信令数据,该手机信令数据包括用户驻留信息表(包含用户信息,用户信令位置,时间点,逗留时长等)。

位置数据清洗,包括、但不限于校验各字段中是否存在异常值,例如校验停留时间是否合理,字段值是否有缺失。异常数据处理方式可以是:

1.剔除异常数据,或是修正异常数据;

2.剔除基站异常数据;

3.基站数据定位数据清洗,用户呆在一个地方会和多个基站交互。

位置网格处理,用户位置标识采用geohash6网格表示,全国位置数据用标准用geohash6网格代表,用户位置将会落在网格上。一个字符串数值代表一组经纬度坐标。需要说明的是,各地区运营商基站覆盖程度不一样,可以按地区采取不同网格大小进行覆盖。

位置数据加工,包括:

1.用户级日度数据汇总,例如,剔除停留时长小于120分的驻留点。

2.月度数据汇总;将日度的数据汇总生成用户级信息表(包含位置信息,驻留时间和驻留次数)。

3.周期内(例如,3个月)数据汇总;将月度的数据汇总生成用户级信息表(包含位置信息,驻留时间和驻留次数)。

4.分析位置定点属性,并给定位置定点权重;用户级指纹关键节点是用户的居住地,或是历史居住地。

特征数据处理,识别出用户闭合路线数据,即当天用户的出行行为为居住地到居住地,其他方式出行数据不考虑其中,目的是剔除数据无效噪音和降低算法复杂度。

图数据处理,将生成的用户常住驻留点转化为图数据,一个用户就有一个位置图,图数据格式由定点和边组成,本技术采用的是无向图架构;对于图二无向图,对应的顶点集合和边集合如下:顶点集合v(g)={v1,v2,v3,v4,v5,v6,v7,v8},边集合e(g)={(v1,v2),(v1,v3),(v1,v6),(v2,v5),(v2,v4),(v2,v6),(v2,v7),(v2,v8)}。

用户位置指纹比对包括:居住地位置识别,用户位置指纹和位置集合相似度。

居住地位置识别,包括:

居住地观测时段:例如,21:00到次日8:00,每天每个用户都会标记一个逗留时长最长的驻留点;

潜在居住地点:标注时间周期每天的全部居住地,并进行聚合,排除5天以下的居住地;

居住地清洗,由于基站的数据定位客观存在的原因,存在用户呆在一个地方会存在多个驻留点情况。处理方式为多个居住地网格中相邻网格只保留频率最高的驻留点。其他驻留点采用类似的处理方式。

用户位置指纹,用户位置指纹由驻留点和驻留点权重组成,核心驻留点为用户居住地,多个居住地情况进行标注居住地。驻留点权重是基于频次计算得出的,原则上保留用户全部的驻留点。基于用户id(实际上是手机信令数据中手机标识),每个都有自己唯一的唯一指纹库。

位置集合相似度,计算位置集合的相似度,进而判断出手机标识之间的相似度吗,最终判断出两个手机标识对应的手机是否为同一个用户使用。

基于图1中的架构,下面将对图1中的关键技术的实现方式做详细介绍。

请参考图2,图2示出了本发明实施例提供的电子设备10的方框示意图,电子设备10可以是主机、服务器等计算机设备,也可以是移动终端、平板电脑、手机等。

电子设备10包括处理器11、存储器12、总线13和通信接口14。处理器11、存储器12通过总线13连接,处理器11通过通信接口14与外部通信连接。

处理器11可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器12用于存储程序,例如上述的手机信令数据分析装置,该手机信令数据分析装置包括至少一个可以软件或固件(firmware)的形式存储于存储器12中的软件功能模块,处理器11在接收到执行指令后,执行所述程序以实现上述实施例揭示的手机信令数据分析方法。

存储器12可能包括高速随机存取存储器(ram:randomaccessmemory),也可能还包括非易失存储器(non-volatilememory)。可选地,存储器12可以是内置于处理器11中的存储装置,也可以是独立于处理器11的存储装置。

总线13可以是isa总线、pci总线或eisa总线等。图2仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

在图2的基础上,本发明实施例提供了应用于图2中电子设备10的手机信令数据分析方法,请参照图3,图3示出了本发明实施例提供的一种手机信令数据分析方法的流程图,该方法包括以下步骤:

步骤s100,获取待分析的手机信令数据,其中,手机信令数据包括手机标识、手机标识表征的手机的每一驻留点及每一驻留点对应的驻留时间。

在本实施例中,手机标识用于唯一标识该手机的真正使用者,可以是该手机的使用者利用身份证实名注册的手机卡的卡号,若一个用户用同一个身份证实名注册了两个手机卡,则对应两个不同的手机标识。

在本实施例中,手机信令数据中包括用户驻留信息,例如,用户驻留信息可以包括、但不限于如表1所示的信息。

表1

在本实施例中,作为一种实现方式,驻留时间可以包括驻留开始时间和驻留结束时间,利用驻留开始时间和驻留结束时间可以计算出停留时长,也可以直接将驻留开始时间、驻留结束时间及停留时长直接记录在手机信令数据中,以便于后续分析。

步骤s110,统计相同手机标识的手机信令数据中每一驻留点出现的频次。

在本实施例中,同一个手机标识在一个月内、或者一个星期内、或者一个小时内、甚至几分钟内都可能驻留在多个不同的地点。每一驻留点出现的频次可以用预设时长内的手机信令数据中该驻留点出现的次数表示,例如,在一个月内的手机信令数据中,驻留点a出现的天数。例如,在一个月内,驻留点a出现的天数为10天,则该驻留点a的频次为10。需要说明的是,根据不同场景需要,可以预设时长,例如,将驻留点的频次定义为:在三个月内的手机信令数据中,该驻留点出现的天数。

需要说明的是,为了减少数据处理量,每一驻留点可以是手机信令对应的用户的常用驻留点,常用驻留点可以是将用户驻留的所有地点中临时经过的驻留点排除后的驻留点,也可以是将用户在一段预设时期内驻留时长达到预设时长值或者驻留次数达到预设此时的驻留点。

步骤s120,根据任意两个手机标识的每一驻留点出现的频次及驻留时间,计算两个手机标识之间的位置相似度。

在本实施例中,两个手机标识之间的位置相似度用于表征两个手机标识对应的手机用户的活动轨迹的相似度。

步骤s130,若位置相似度大于预设阈值,则判定两个手机标识表征的手机归属于同一个用户。

在本实施例中,位置相似度越高,则两个手机标识对应同一个用户的概率也越大,也就是说,同一个用户使用两个手机卡的概率也比较大。位置相似度越低,则两个手机标识对应不同用户的概率越大,若两个手机标识是由同一个身份证实名注册,则意味着,同一个身份证实名的两个手机卡由两个人使用,由此,可以将多个手机卡由多个人使用、或者多个手机卡由同一个人使用的情况识别出来,对于前者,可以督促、引导用户进行实名制登记。

本发明实施例提供的上述方法,通过对手机信令数据的分析,统计相同手机标识的手机信令数据中每一驻留点出现的频次,根据驻留点出现的频次及驻留时间,计算两个手机标识之间的位置相似度,进而根据相似度判断两个手机标识表征的手机是否归属于用一个用户,由此可以准确地将手机中的手机卡和真正使用者对应起来。

在图3的基础上,本发明实施例还提供了一种获取待分析的手机信令数据的具体实现方式,请参照图4,图4示出了本发明实施例提供的另一种手机信令数据分析方法的流程图,步骤s100包括以下子步骤:

子步骤s1001,获取原始手机信令数据。

在本实施例中,原始手机信令数据可以是运营商采集的手机信令数据,由于采集环境或者采集方式的影响,原始手机信令数据中可能存在异常或者缺失,例如,驻留时长不合理,出现异常,或者驻留开始时间有缺失等。

子步骤s1002,对原始手机信令数据进行清洗,得到待分析的手机信令数据。

在本实施例中,为了使最终分析结果更准确,通常需要对原始手机信令数据进行清洗,清洗方式包括、但不限于剔除异常数据、或者修正异常数据,或者剔除基站异常数据等。

在本实施例中,为了不影响分析结果,同时减少分析的数据量,除了对异常数据进行处理外,还可以将原始手机信令数据中参考价值不大的数据进行删除,只保留对于分析结果影响较大的数据,例如,对于在一条手机信令数据中驻留时长小于半个小时的,该数据对于分析结果的参考价值可以忽略,因此,可以将该数据删除。作为一种具体实现方式,对原始手机信令数据进行清洗的方法可以是:

首先,根据每条记录的驻留开始时间和驻留结束时间,计算每条记录的驻留时长。

在本实施例中,原始手机信令数据包括多条记录,记录包括驻留开始时间和驻留结束时间,利用每一条记录的驻留开始时间和驻留结束时间,可以得到该条记录的驻留时长。

其次,将驻留时长小于第一预设时长、或者驻留点的轨迹非闭合的记录从原始手机信令数据中删除,得到初选手机信令数据。

在本实施例中,对于一条记录而言,驻留时长小于第一预设时长,则认为是在该驻留点进行短暂停留,可能是临时、或者是途径该驻留点时留下的记录,该记录对于最终分析结果的参考价值可以忽略,因此,将此部分数据从原始手机信令数据中删除不但对分析结果影响不大,还会大大减少需要分析的数据量。

在本实施例中,第一预设时长可以根据具体实际应用场景进行设置,例如,第一预设时长设置为30分钟。

在本实施例中,驻留点的轨迹非闭合的记录意味着该手机标识对应的用户在该天内的出行轨迹为非闭合的,未形成闭合轨迹,有可能是用户在改天去往了其他不在分析范围内的地区,例如,用户出差去了其他城市或者其他省等。驻留点的轨迹闭合的记录意味着该手机标识对应的用户在该天内的出行轨迹为闭合的,用户在同一天内在时间点1停留在停留点a,在时间点2停留在停留点a,用户的出行轨迹在停留点a闭合了,例如,用户从家出发,去公司上班,中午外出吃午饭,下午下班后再回到家中,该出行轨迹就是闭合的。驻留点的轨迹除了闭合、非闭合还有不同的情况,请参照图5,图5示出了本发明实施例提供的用户出行轨迹的示例图,图5(a)为出行轨迹闭合的示例图,图5(a)中,用户在一天内的驻留点包括a、b、c、d、e,在驻留点a轨迹闭合;图5(b)中,用户在一天内的驻留点包括a、b、c,未形成闭合轨迹,有可能是用户在改天去往了其他不在分析范围内的地区,例如,用户出差去了其他城市或者其他省等;图5(c)中,用户在一天内的驻留点包括a,即用户在该天内未发生位置移动。

初选手机信令数据为原始手机信令数据中删除驻留时长小于第一预设时长的记录、及驻留点未形成闭合的记录后剩余的。

第三,计算初选手机信令数据中同一天内、手机标识相同的总驻留时长。

在本实施例中,总驻留时长等于在每一驻留点的驻留时长之和,例如,用户在2020-1-1日的驻留点为a、b和c,对应的驻留时长分别为8小时、2小时、3小时,则总驻留时长为:8+2+3=13小时。

第四,若总驻留时长小于第二预设时长,则将与总驻留时长相关的记录从初选手机信令数据中删除,得到待分析的手机信令数据。

在本实施例中,第二预设时长用于界定临时在待分析区域进行停留的用户,可以根据具体应用场景进行设置,例如,第二预设时长设置为120分钟。总驻留时长小于第二预设时长,则对应的用户产生的手机信令数据的参考价值可以忽略。

在本实施例中,总驻留时长相关的记录为总驻留时长对应的手机标识、在对应的当天产生的手机信令的记录。例如,手机标识为112233的用户在2020-1-2日当天共产生了10条记录,且这10条记录的总驻留时长为20分钟,第二预设时长为2小时,则这10条记录为与总驻留时长相关的记录,需要将这10条记录从初选手机信令数据中删除。

本发明实施例提供的上述方法,对原始手机信令数据进行清洗,将对于分析结果影响不大数据删除,大大地减少了需要分析的数据量,使得在不影响分析结果准确性的情况下,加快了分析的速度,提高了数据分析的效率。

在本实施例中,为了便于处理,通常会对采集手机信令数据预设区域进行网格划分,为了进一步减少分析的数据量,对于网格的位置相邻的驻留点可以进行进一步的简化,请参照图6,图6示出了本发明实施例提供的另一种手机信令数据分析方法的流程图,步骤s110之后还包括步骤:

步骤s111,将任一相同手机标识作为目标手机标识。

在本实施例中,手机信令数据中可以包括多个手机标识的数据,对于任意一个手机标识的手机信令数据可以采用步骤s111~步骤s113对其驻留点进行进一步简化。目标手机标识为当前待简化的驻留点对应的手机标识。

步骤s112,将目标手机标识的驻留点所属的网格的位置相邻的驻留点作为相邻驻留点。

在本实施例中,手机信令数据是在预设区域内采集的,预设区域预先划分为多个网格,例如,geohash网格是一种地址编码方法,其能够把二维的空间经纬度数据编码成一个字符串。geohash用一个字符串表示经度和纬度两个坐标。在数据库中可以实现在一列上应用索引(某些情况下无法在两列上同时应用索引),geohash表示的并不是一个点,而是一个矩形区域。例如,geohash6是精度在600米左右的网格,基本能抵消运营商基站定位带来的误差。各地区运营商基站覆盖程度不一样,可以按地区采取不同网格大小进行覆盖。

在本实施例中,相邻驻留点中的驻留点所属的网格的位置是相邻的。

步骤s113,将相邻驻留点中除频次最大的驻留点之外的其他驻留点从目标手机标识的驻留点中删除。

在本实施例中,为了对驻留点数据量进行简化,将相邻驻留点中频次最大的驻留点作为最终的驻留点,也就是说,最终的驻留点为交互最频繁的基站作为该用户的驻留点网格。请参照图7,图7示出了本发明实施例提供的相邻驻留点的示例图,图7中,目标手机标识的相邻驻留点包括a、b和c,其频次分别为10、8、6,分别归属于位置相邻的网格1、网格2和网格3,由于a的频次最高,因此,将驻留点a作为最终的驻留点,将驻留点b和驻留点c从目标手机标识的驻留点中删除。

本发明实施例提供的上述方法,通过对网格的位置相邻的驻留点进行进一步的简化,可以极大地减少驻留点的数量,排除了分析数据中的噪音数据,同时也提高了数据分析的效率。

在图3的基础上,本发明实施例还提供了一种具体计算两个手机标识之间的位置相似度的实现方式,请参照图8,图8示出了本发明实施例提供的另一种手机信令数据分析方法的流程图,步骤s120包括以下子步骤:

子步骤s1201,根据每一手机标识的每一驻留点的驻留时间,从每一手机标识的多个驻留点中确定每一手机标识的居住点。

在本实施例中,为了提高位置相似度的判断效率,首先从驻留点中确定居住点,居住点用于表征用户在预设区域内的驻留的稳定性,例如,居住点对应用户的家时,则可以更高概率地判定该用户属于该预设区域内稳定驻留的用户。若两个手机标识的居住点不相似,则这两个手机标识表征的手机肯定不会由同一个用户使用。

在本实施例中,作为一种具体实现方式,确定居住点的方法可以是:

首先,将任一手机标识确定为目标手机标识。

其次,根据目标手机标识的每一驻留点的驻留开始时间和驻留结束时间,计算每一驻留点的驻留时长。

第三,将目标手机标识的驻留时间在预设时段内、且驻留时长最长的驻留点作为目标手机标识的初始居住点。

在本实施例中,作为一种具体实施方式,预设时段可以设置为每天的21:00到次日8:00,将预设时段内,驻留时长最长的驻留点作为初始居住点,例如,在某天21:00到次日8:00,目标手机标识的手机信令数据中驻留点包括a、b和c,其驻留时长分别为6小时、2小时和3小时,则驻留点a为初始居住点。

第四,将频次大于预设值的初始居住点确定为目标手机标识的居住点。

在本实施例中,通过对目标手机标识的预设时长内的数据进行分析,例如对目标手机标识在3个月内的手机信令数据进行分析,可以得到所有的初始居住点,根据初始居住点在3个月内出现的天数作为初始居住点的频次,再将频次大于预设值的初始居住点确定为目标手机标识的居住点。请参照图9,图9示出了本发明实施例提供的居住点和驻留点的示例图,图9中,手机标识对应两个居住点,其频次分别为18和10。除了两个居住点,还包括另外的9个驻留点,每一驻留点都有对应的频次。

需要说明的是,居住点和驻留点也可以作为手机标识的位置指纹,用于表征对应手机的运行轨迹。也可以生成手机标识的位置指纹的指纹库,根据指纹库可以确定疑似异常用户库,例如,多驻留点下,指纹相似人数大于某个值(例如,5个,具体值可以根据各地区的基站覆盖密度确定);单一驻留点下,指纹相似人数大于某个值(例如,100个,具体值可以根据各地区的基站覆盖密度确定),驻留点跨度较大,存在位置跳动情况等异常情况。

子步骤s1202,若两个手机标识的居住点属于同一个网格,则根据每一手机标识的多个驻留点及对应的频次,生成每一手机标识的位置集合。

在本实施例中,若两个手机标识的居住点属于同一个网格,则有必要再进一步判断驻留点的相似度,进而确定两个手机标识是否对应同一个使用用户,若两个手机标识的居住点不属于同一个网格,则两个手机标识肯定不可能对应同一个使用用户,因此,无需进一步根据驻留点判断二者之间的相似度,由此,大大降低了计算复杂度,简化了处理过程,提高处理效率。

在本实施例中,每一手机标识的位置集合中包括了所有驻留点(包括居住点和除居住点之外的其他驻留点)的频次信息,例如,手机标识的位置集合表示为:s1={1,3,4,5,7,8,9},则手机标识s1包括7个驻留点,其频次分别为:1,3,4,5,7,8,9。

子步骤s1203,计算两个手机标识的位置集合的相似度,得到两个手机标识之间的位置相似度。

在本实施例中,可以采用jaccard相似系数公式计算集合a和集合b之间的相似度:

jaccard相似系数用于比较有限样本集之间的相似性和差异性j(a,b)为a与b交集的大小与a与b并集的大小的比值。

例如,手机标识s1和s2的位置集合分别为:s1={1,3,4,5,7,8,9},s2={1,2,3,5,6,8},s1∩s2=“{1,3,5,8},s1∪s2={1,2,3,4,5,6,7,8,9},s1和s2的相似度为4/9。

j(a,b)∈(0,1)。jaccard值越大说明相似度越高,jaccard值越小说明相似度越低。

需要说明的是,也可以将相似系数进行改造,引入各个节点影响因子,例如单个节点a权重为10则将影响因子也传入相似公式中,最终得到相似系数。

本发明实施例提供的上述方法,利用两个手机标识的驻留点生成两个手机标识的位置集合,再利用位置集合之间的相似度,最终计算得到两个手机标识之间的位置相似度,实现了较为准确地判定出两个手机标识是否由同一个用户使用。

在本发明实施例中,由于手机信令数据可能来自于多个运营商,为了在分析过程中保证数据的安全性,本发明实施例还提供另一种手机信令数据分析方法,请参照图10,图10示出了本发明实施例提供的另一种手机信令数据分析方法的流程图,该方法包括以下步骤:

步骤s200,对每一手机标识的驻留点按照对应的频次的高低依次进行拼接,得到每一手机标识的位置明文。

在本实施例中,驻留点可以采用位置信息进行表示,例如,位置信息可以采用驻留点的位置的网格编码表示,将每一手机标识的驻留点的网格编码按照对应频次的高低依次拼接,得到该手机标识的位置明文。

步骤s210,将每一手机标识的位置明文进行加密,得到每一手机标识的位置密文。

在本实施例中,作为一种加密方式,可以采用md5的方式,即计算每一手机标识的位置明文的md5值,将md5值作为该手机标识的位置密文。

需要说明的是,也可以使用其他的加密方式,例如sha算法等。

步骤s220,若任意两个手机标识的位置密文相同,则判定两个手机标识表征的手机归属于同一个用户。

在本实施例中,通过这种方式可以将不同运营商的手机信令数据进行统一分析,从而可以识别出跨运营商的同一个用户的情况,请参照图11,图11示出了本发明实施例提供的跨运营商的分析过程示例图,图11中,运营商1和运营商2分别有100万用户(也就是说100万个手机标识)和30万用户(也就是说30万个手机标识),运用上述方法进行分析发现,运营商1有90万用户的位置指纹,运营商2有25万用户的位置指纹,再根据位置指纹的md5值进行比对,发现有5万位置指纹一样,最终得到该地区有110万独立自然人开卡。

本发明实施例提供的上述方法,既可以对不同运营商的手机信令数据进行统一分析,识别同一用户在不同运营商的位置指纹,又能保证数据的安全性。

为了执行上述实施例及各个可能的实施方式中的相应步骤,下面给出一种手机信令数据分析装置100的实现方式。请参照图12,图12示出了本发明实施例提供的手机信令数据分析装置100的方框示意图。需要说明的是,本实施例所提供的手机信令数据分析装置100,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及指出。

手机信令数据分析装置100包括获取模块110、统计模块120、分析模块130。

获取模块110,用于获取待分析的手机信令数据,其中,手机信令数据包括手机标识、手机标识表征的手机的每一驻留点及每一驻留点对应的驻留时间。

作为一种具体实施方式,获取模块110具体用于:获取原始手机信令数据;对原始手机信令数据进行清洗,得到待分析的手机信令数据。

作为一种具体实施方式,原始手机信令数据包括多条记录,记录包括驻留开始时间和驻留结束时间;获取模块110在用于对原始手机信令数据进行清洗,得到待分析的手机信令数据时,具体用于:根据每条记录的驻留开始时间和驻留结束时间,计算每条记录的驻留时长;将驻留时长小于第一预设时长、或者驻留点的轨迹非闭合的记录从原始手机信令数据中删除,得到初选手机信令数据;计算初选手机信令数据中同一天内、手机标识相同的总驻留时长;若总驻留时长小于第二预设时长,则将与总驻留时长相关的记录从初选手机信令数据中删除,得到待分析的手机信令数据。

统计模块120,用于统计相同手机标识的手机信令数据中每一驻留点出现的频次。

作为一种具体实施方式,手机信令数据是在预设区域内采集的,预设区域预先划分为多个网格;统计模块120具体用于:将任一相同手机标识作为目标手机标识;将目标手机标识的驻留点所属的网格的位置相邻的驻留点作为相邻驻留点;将相邻驻留点中除频次最大的驻留点之外的其他驻留点从目标手机标识的驻留点中删除。

分析模块130,用于根据任意两个手机标识的每一驻留点出现的频次及驻留时间,计算两个手机标识之间的位置相似度、以及用于若位置相似度大于预设阈值,则判定两个手机标识表征的手机归属于同一个用户。

作为一种具体实施方式,手机信令数据是在预设区域内采集的,预设区域预先划分为多个网格,分析模块130具体用于:根据每一手机标识的每一驻留点的驻留时间,从每一手机标识的多个驻留点中确定每一手机标识的居住点;若两个手机标识的居住点属于同一个网格,则根据每一手机标识的多个驻留点及对应的频次,生成每一手机标识的位置集合;计算两个手机标识的位置集合的相似度,得到两个手机标识之间的位置相似度。

作为一种具体实施方式,驻留时间包括驻留开始时间和驻留结束时间;分析模块130在用于根据每一手机标识的每一驻留点的驻留时间,从每一手机标识的多个驻留点中确定每一手机标识的居住点时,具体用于:将任一手机标识确定为目标手机标识;根据目标手机标识的每一驻留点的驻留开始时间和驻留结束时间,计算每一驻留点的驻留时长;将目标手机标识的驻留时间在预设时段内、且驻留时长最长的驻留点作为目标手机标识的初始居住点;将频次大于预设值的初始居住点确定为目标手机标识的居住点。

作为一种具体实施方式,手机信令数据来自于不同的运营商,分析模块130还用于:对每一手机标识的驻留点按照对应的频次的高低依次进行拼接,得到每一手机标识的位置明文;将每一手机标识的位置明文进行加密,得到每一手机标识的位置密文;若任意两个手机标识的位置密文相同,则判定两个手机标识表征的手机归属于同一个用户。

本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的手机信令数据分析方法。

综上所述,本发明实施例提供了一种手机信令数据分析方法、装置、电子设备及存储介质,所述方法包括:获取待分析的手机信令数据,其中,所述手机信令数据包括手机标识、所述手机标识表征的手机的每一驻留点及所述每一驻留点对应的驻留时间;统计相同手机标识的所述手机信令数据中每一所述驻留点出现的频次;根据任意两个手机标识的每一所述驻留点出现的频次及驻留时间,计算所述两个手机标识之间的位置相似度;若所述位置相似度大于预设阈值,则判定所述两个手机标识表征的手机归属于同一个用户。相对于现有技术,本发明通过对手机信令数据的分析,统计相同手机标识的手机信令数据中每一驻留点出现的频次,根据驻留点出现的频次及驻留时间,计算两个手机标识之间的位置相似度,进而根据相似度判断两个手机标识表征的手机是否归属于用一个用户,由此可以准确地将手机中的手机卡和真正使用者对应起来。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1