一种基于话单数据的潜在社会关系网络的挖掘方法与流程

文档序号:13072816阅读:488来源:国知局

本发明涉及线索侦查技术领域,尤其涉及一种基于话单数据的潜在社会关系网络的挖掘方法。



背景技术:

经过几十年的移动通信技术发展,移动电话已经成为公众日常生活不可缺少的通信工具,而在手机使用过程中,就产生了手机话单,由于手机是用户的重要通信工具,所以,对应的手机话单也能够在一定程度上反应用户与外界的关系,而由于手机话单分析具有定人、定时、定位、定关系等特性,所以其在公安机关、检察院机关的线索初查、审讯突破及人员追逃等方面具有独特作用。在目前大力提倡反贪侦查信息化建设、推动侦查方式转变的背景下,手机话单分析作为一种高效、隐蔽的侦查技巧,如何在实践中灵活运用,是迫切需要深入推进的一项工作。

目前,侦查机关在利用手机话单数据进行侦查分析时,主要是基于话单数据中的通话频率、通话时长来构建机主的社会关系网络。这种方法实现简单,能够快速构建机主的社会关系拓展图谱,但是仅通过通话频率和通话时长两个指标构建的机主社会关系网络往往不够全面,对于得到机主的隐秘的、潜在的社会关系网络。

但是,当机主反侦查意识比较高时,其通话特征就变得极为隐蔽,话单数据就变得异常,而当话单数据存在异常时,通过通话频率和通话时长两个指标构建的机主社会关系网络就会存在异常,从而就会误导侦查方向。所以,开发一种基于话单数据深入挖掘社会关系网络的方法,就显得极为重要。



技术实现要素:

本发明的目的在于提供一种基于话单数据的潜在社会关系网络的挖掘方法,从而解决现有技术中存在的前述问题。

为了实现上述目的,本发明采用的技术方案如下:

一种基于话单数据的潜在社会关系网络的挖掘方法,包括如下步骤:

s1,根据预先配置好的数据抽取规则从各大运营商抽取话单数据;

s2,根据预先配置好的数据清洗规则对抽取的话单数据进行清洗;

s3,根据预先配置好的数据转换规则将清洗后的数据统一转换成系统内标准话单数据,屏蔽不同运营商多种话单数据格式带来的复杂性,得到结构化的话单数据;

s4,根据结构化的话单数据构建多层次的动态社会关系网络;

s5,统计、汇总每个号码每天的结构化话单数据总结机主的通话规律;

s6,根据得到的机主的通话规律,分析通话异常时间区间内社会关系网络的变化情况;

s7,根据通话规律和通话异常分析结果,进行一人多号情况的分析;

s8,根据通话规律、通话异常分析结果、一人多号情况的分析结果以及动态社会关系网络挖掘潜在社会关系网络;

其中,s1-s4与s5-s7两部分之间的顺序可以互换。

优选地,所述数据抽取规则包括:数据抽取周期和需要抽取的话单数据元数据,所述元数据包括:话单处理时间、呼叫类型、imsi、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、lac、cellid、对端lac、对端cellid、基站号、基站lon、基站lat和/或基站地址。

优选地,所述数据清洗规则包括:无效数据的特征规则和特殊数据的特征规则;其中,所述无效数据是指不包括如下任意一种数据的通话记录:呼叫类型、手机号码、对方号码、imsi、通话开始日期、通话开始时间、通话结束日期、通话解释时间、基站号、基站lat、基站lon以及基站地址,所述无效数据的特征规则为对于所述无效数据在数据清洗时系统自动清理掉;所述特殊数据的特征规则为在数据清洗时忽略所有特殊号码的通话记录数据。

优选地,所述数据转换规则包括原数据与系统内标准话单数据的对应关系;

其中,所述系统内标准话单数据的字段包括:话单处理时间、呼叫类型、imsi、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、lac、cellid、对端lac、对端cellid、基站号、基站lon、基站lat和基站地址。

优选地,s7中,所述一人多号情况的分析,具体为:

根据机主b的通话规律分析结果,如果在时间区间[t1,t2],mb与社会关系网络中任意一个节点都没有任何通话记录,在时间区间[t2,t3],有另外一个号码mx与nb1或nb2网络中某些节点有通信记录,然后号码mx在时间区间[t3,t4]或者[t3,∞)内再没有与nb1或nb2网络中任何节点有过通话记录,同时在时间区间[t3,∞),mb恢复正常通话规律,则可以初步判定机主b同时拥有mb和mx两个号码或者mx的机主与机主b是同伙;

通过多话单数据基站位置数据分析,绘制手机mb的移动轨迹,如果在一个时间区间,总有一个新号码mx的位置与mb轨迹类似,则可以初步认定号码mx与mb同时归机主b拥有或者mx的机主与b是同伙;

其中,

t1、t2、t3、t4为时间节点,并且t1<t2<t3<t4;

b为机主,nb1和nb2为b对应的社会关系网络;mb为b的已知手机号,节点nb1di(其中i=1、2、3、…….)属于网络nb1,节点nb2dj(其中j=1、2、3、…….)属于网络nb2。

优选地,s4具体为:

根据结构化的话单数据,以通话频率和通话时长为边,以电话号码为节点构建多层次动态社会关系网。所述社会关系网络随着时间推移动态变化更新。

优选地,s8具体为:

机主b的关系网络nb1的节点nb1di与nb2的节点nb2dj,如果在不超过六个节点的情况下,拥有一个共同的节点,则初步认定nb1di与nb2dj是认识的,由nb1di与nb2dj组成新的社会关系网络;

通过一人多号分析得到新号码,对所有的新号码形成的社会关系网络节点进行聚类分析,得到新的社会关系网络;

根据当日不同时间段的通话对象、通话时间、通话时长和通话频率,构建社会关系网络。

本发明的有益效果是:本发明实施例提供的基于话单数据的潜在社会关系网络的挖掘方法,通过通话规律、通话异常以及一人多号的多层次分析,结合动态社会关系网络,充分挖掘潜在社会关系网络,使得潜在社会关系网络的分析结果更全面、更准确,帮助侦查机关能够快速缩小侦查对象范围,提供更加合理的侦查方向;另外,本实施例中,通过正确配置数据抽取、清洗和转换规则,则在实际操作中可以无须人工参与,系统能够自动实现数据采集和数据分析,使得操作过程变得简单、准确、高效。

附图说明

图1是本发明提供的基于话单数据的潜在社会关系网络的挖掘方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明实施例提供了一种基于话单数据的潜在社会关系网络的挖掘方法,包括如下步骤:

s1,根据预先配置好的数据抽取规则从各大运营商抽取话单数据;

s2,根据预先配置好的数据清洗规则对抽取的话单数据进行清洗;

s3,根据预先配置好的数据转换规则将清洗后的数据统一转换成系统内标准话单数据,屏蔽不同运营商多种话单数据格式带来的复杂性,得到结构化的话单数据;

s4,根据结构化的话单数据构建多层次的动态社会关系网络;

s5,统计、汇总每个号码每天的结构化话单数据总结机主的通话规律;

s6,根据得到的机主的通话规律,分析通话异常时间区间内社会关系网络的变化情况;

s7,根据通话规律和通话异常分析结果,进行一人多号情况的分析;

s8,根据通话规律、通话异常分析结果、一人多号情况的分析结果以及动态社会关系网络挖掘潜在社会关系网络;

其中,s1-s4与s5-s7两部分之间的顺序可以互换。

其中,所述数据抽取规则可以包括:数据抽取周期和需要抽取的话单数据元数据,所述元数据包括:话单处理时间、呼叫类型、imsi、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、lac、cellid、对端lac、对端cellid、基站号、基站lon、基站lat和/或基站地址。

本实施例中,所述数据清洗规则包括:无效数据的特征规则和特殊数据的特征规则;其中,所述无效数据是指不包括如下任意一种数据的通话记录:呼叫类型、手机号码、对方号码、imsi、通话开始日期、通话开始时间、通话结束日期、通话解释时间、基站号、基站lat、基站lon以及基站地址,所述无效数据的特征规则为对于所述无效数据在数据清洗时系统自动清理掉;所述特殊数据的特征规则为在数据清洗时忽略所有特殊号码的通话记录数据。

本实施例中,所述数据转换规则包括原数据与系统内标准话单数据的对应关系;

其中,所述系统内标准话单数据的字段包括:话单处理时间、呼叫类型、imsi、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、lac、cellid、对端lac、对端cellid、基站号、基站lon、基站lat和基站地址。

本实施例中,s7中,所述一人多号情况的分析,具体为:

根据机主b的通话规律分析结果,如果在时间区间[t1,t2],mb与社会关系网络中任意一个节点都没有任何通话记录,在时间区间[t2,t3],有另外一个号码mx与nb1或nb2网络中某些节点有通信记录,然后号码mx在时间区间[t3,t4]或者[t3,∞)内再没有与nb1或nb2网络中任何节点有过通话记录,同时在时间区间[t3,∞),mb恢复正常通话规律,则可以初步判定机主b同时拥有mb和mx两个号码或者mx的机主与机主b是同伙;

通过多话单数据基站位置数据分析,绘制手机mb的移动轨迹,如果在一个时间区间,总有一个新号码mx的位置与mb轨迹类似,则可以初步认定号码mx与mb同时归机主b拥有或者mx的机主与b是同伙;

其中,

t1、t2、t3、t4为时间节点,并且t1<t2<t3<t4;

b为机主,nb1和nb2为b对应的社会关系网络;mb为b的已知手机号,节点nb1di(其中i=1、2、3、…….)属于网络nb1,节点nb2dj(其中j=1、2、3、…….)属于网络nb2。

本实施例中,s4具体为:

根据结构化的话单数据,以通话频率和通话时长为边,以电话号码为节点构建多层次动态社会关系网。所述社会关系网络随着时间推移动态变化更新。

本实施例中,s8具体为:

机主b的关系网络nb1的节点nb1di与nb2的节点nb2dj,如果在不超过六个节点的情况下,拥有一个共同的节点,则初步认定nb1di与nb2dj是认识的,由nb1di与nb2dj组成新的社会关系网络;

通过一人多号分析得到新号码,对所有的新号码形成的社会关系网络节点进行聚类分析,得到新的社会关系网络;

根据当日不同时间段的通话对象、通话时间、通话时长和通话频率,构建社会关系网络。

具体实施例:

本发明实施例提供了一种基于话单数据的潜在社会关系网络的挖掘方法,主要应用于侦查机关在破案过程中利用通话记录数据发现和锁定犯罪嫌疑人,该方法实施的前置条件为:

假设时间节点t1、t2、t3、t4,并且有t1<t2<t3<t4;假设机主为b,b对应的社会关系网络为nb1和nb2,b的已知手机号为mb。节点nb1di(其中i=1、2、3、…….)属于网络nb1,节点nb2dj(其中j=1、2、3、…….)属于网络nb2。

具体实施过程可以采用如下步骤进行实施:

第一步:针对不同运营商配置数据抽取规则。

1)配置抽取数据周期;

2)配置需要抽取的话单数据元数据,元数据包括:话单处理时间、呼叫类型、imsi、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、lac、cellid、对端lac、对端cellid、基站号、基站lon、基站lat、基站地址。

对于运营商缺少的数据字段,采用空值处理方式。

第二步:配置数据清洗规则。

有效通话记录是指至少包括:呼叫类型、手机号码、对方号码、imsi、通话开始日期、通话开始时间、通话结束日期、通话解释时间、基站号、基站lat、基站lon以及基站地址等数据的通话记录。

对于不符合上述规定的通话记录则认为是无效通话记录。对于无效通话记录在数据清洗时系统自动清理掉。

配置特殊号码(比如110号码)的清洗规则。这里可以配置成忽略所有特殊号码的通话记录数据。

第三步:配置数据转换规则

针对不同运营商不同数据格式,配置运营商数据字段与系统统一的话单数据格式一一映射关系。系统统一的话单数据字段包括:话单处理时间、呼叫类型、imsi、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、lac、cellid、对端lac、对端cellid、基站号、基站lon、基站lat、基站地址等。

对于运营商原始话单数据,可能缺少某些字段。例如,原始话单数据缺少“通话时长”,在配置转换规则时,需要配置由通话开始日期和时间与通话结束日期和时间进行计算后得出“通话时长”数据。另外,有些运营商把通话开始和结束时间采用“yyyymmddhh:mm:ss”,那么在数据转换时,就要对运营商原始通话时间进行分割以符合系统统一话单数据格式。

第四步:数据抽取、清洗、转换

在上述三个规则配置完成之后,系统开始从三大运营商抽取、清洗和转换话单数据,并将结构化后的数据存储在系统数据库中。

第五步:通话规律分析

通过统计、汇总每个号码每天的通话时间、通话时长、通话频率等总结机主通话规律。

第六步:通话异常分析

根据机主通话规律,分析通话异常时间区间内社会关系网络的变化情况。

第七步:一人多号分析

根据通话规律,通话异常分析结果,研判可能存在“一人多号”的情况。“一人多号”不局限于同一个身份证号下的多个电话号码,“一人多号”更多情况下是指同一个人或团伙可能同时使用多个电话号码,而这些电话号码可能登记在不同身份证号名下。

具体分析方法如下:

分析方法1:根据机主b的通话规律分析结果,如果mb在时间区间[t1,t2]之间出现异常通话,比如在此期间mb突然与社会关系网络中任意一个节点都没有任何通话记录。但是在时间区间[t2,t3]之间,突然有另外一个号码(假设这个新号码为mx)与nb1或nb2网络中某些节点有过通信记录,然后这个新号码mx在时间区间[t3,t4]或者[t3,∞)内再没有与nb1或nb2网络中任何节点有过通话记录,同时在[t3,∞),mb1恢复正常通话规律。那么可以初步判定机主b同时拥有mb和mx两个号码或者m的机主与b1是同伙。那么这新号码mx将会是侦查机关进一步重点侦查对象。

分析方法2:该方法主要是基于基站位置来判定。通过多话单数据基站位置数据分析,绘制手机mb的移动轨迹。假如在一个时间范围内,比如[t2,t3],总有一个新号码mx的位置与mb轨迹类似,那么我们可以初步认定号码mx与mb同时归b拥有或者mx的机主与b是同伙。那么这新号码mx将会成为侦查机关进一步重点侦查对象。

第八步:社会关系网络分析

根据结构化的话单数据,以通话频率和通话时长为边,以电话号码为节点来构建多层次动态社会关系网。这个社会关系网络会随着时间推移动态变化,从而能够反映机主的社交圈变化规律。

第九步:潜在社会关系网络挖掘

对于反侦查能力和意识比较高的犯罪嫌疑人,往往在日常电话通信方面采用比较隐秘的联系方式,例如单线联系,对于此种场景下需要充分利用通话规律、通话异常、一人多号、动态社会关系网来挖掘潜在社会关系网络,为侦查机关提供侦查方向。

根据以往研究结果表明,人物关系网络具有四个性质:1、小世界特性,是指两个从生下来就不认识的人只需要通过最多不超过六个人就可以认识;2、无标度特性,每个人的沟通能力不同,每个人的活跃好友数可多可少,无固定值;3、高聚类性,所以,一个人的两个不同的人物关系圈当中的好友可能也互相认识,并且,可能关系还很亲密;4、层次性,在人物关系网络中,最常见的层次性就是工作中的上下级关系,除此之外,还有人物关系的亲疏。

基于以上四点特点,同时结合通话规律、通话异常、一人多号等分析手段,潜在社会网研判方法:

方法1:假设机主b的关系网络nb1的节点nb1di与nb2的节点nb1dj,在不超过六个节点的情况下,拥有一个共同的节点,那么可以初步认定nb1di与nb1dj应该是认识的,那么由nb1di与nb1dj组成的社会关系网络也可能是侦查机关重点排查的嫌疑对象;

方法2:根据人物关系的高聚类性,针对一人多号分析出来的新号码,对这些新号码的社会关系网络节点进行聚类分析,可能会得出一个新的社会关系网络;

方法3:根据通话规律,在工作日上班期间的通话对象往往是工作关系,而在工作时间之外的通话对象往往是亲属、朋友或者还有可能是其他亲密关系。通过通话时间、时长、通话频率等因素,可以构建一个立体的新型社会关系网络。这个立体的新型社会关系网络也是侦查机关重点排查的嫌疑对象。

通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明实施例提供的基于话单数据的潜在社会关系网络的挖掘方法,通过通话规律、通话异常以及一人多号的多层次分析,结合动态社会关系网络,充分挖掘潜在社会关系网络,使得潜在社会关系网络的分析结果更全面、更准确,帮助侦查机关能够快速缩小侦查对象范围,提供更加合理的侦查方向;另外,本实施例中,通过正确配置数据抽取、清洗和转换规则,则在实际操作中可以无须人工参与,系统能够自动实现数据采集和数据分析,使得操作过程变得简单、准确、高效。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:ram、rom、磁碟、磁带、光盘、闪存、u盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1