基于聚类技术的刑事犯罪案件关联串并方法及系统与流程

文档序号:11458924阅读:327来源:国知局
基于聚类技术的刑事犯罪案件关联串并方法及系统与流程

本发明涉及侦查破案技术领域,具体涉及一种基于聚类技术的刑事犯罪案件关联串并方法及系统。



背景技术:

对团伙型、系列性犯罪案件的串并关联分析是犯罪案件执法部门侦查破案工作的重要环节。通过分析、提取多个案件之间的共同点,连接关键信息,执法部门可以拓宽侦查视野;将系列案件并案侦查,能够显著减少执法成本,提高打击犯罪的深度和广度,增强整体工作效能。

伴随整个社会的信息化发展,刑事犯罪执法机构建立了犯罪案件计算机管理系统,积累了大量犯罪案件数据。从案件并案分析的角度,每个犯罪案件包含很多特征要素,具有不同程度的确定性(可能性),主要有两类:

第一种数据的内容具有明确、唯一性特征,例如身份证件号码、公司名称、税务登记号、银行账号、电话号码等。例如,假设一个犯罪嫌疑人的身份证件号码在两个犯罪案件中出现,那么可以确定这两个犯罪案件存在明确关联,进而发起并案侦查。

第二种数据不具有唯一性特征,只能描述可能性(大小)。例如人的外在自然属性,包括身高、年龄等。例如对于两个犯罪案件,如果目击者分别描述的犯罪嫌疑人身高接近或相同,仅凭这个因素并不能确定是否有联系。但是,如果多个数据特征具有接近或者相同的内容,说明这些犯罪案件具有较高的相似程度,可以初步判断为系列犯罪案件,予以并案侦查。例如,多个街面抢劫案发生在邻近的区域、相近的时间段,作案手法、工具类似,多个受害人报称的犯罪嫌疑人身高、年龄接近,执法人员可以初步判断为系列街面抢劫案。

传统上,刑事犯罪调查人员通过查询、比对案件信息系统中案件的特征信息,判断多个刑事犯罪件的相似程度,决定是否发起并案串并侦查。此类人工操作方式的效率、准确率不高。



技术实现要素:

有鉴于此,为了解决现有技术中的上述问题,本发明提出一种基于聚类技术的刑事犯罪案件关联串并方法及系统,融合案件的异构数据类型,建立准确的案件相似度模型,描述案件的关联程度,通过高效、准确的聚类算法,完成案件的关联串并过程。

本发明通过以下技术手段解决上述问题:

一种基于聚类技术的刑事犯罪案件关联串并方法,包括如下步骤:

s1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;

s2、根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;

s3、利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;

s4、对连通子图使用聚类算法进行图切割计算,将所有案件准确分组。

进一步地,所述基于聚类技术的刑事犯罪案件关联串并方法还包括:

s5、提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。

进一步地,步骤s1中,所述案件数据变量从刑事犯罪案件信息管理系统中抽取;案件数据变量的高维度包括嫌疑人身份证号码、手机号码、银行账号、作案手法、作案时间、作案天气、作案地域、作案工具、嫌疑人身高、嫌疑人年龄;案件数据变量的异构数据类型包括数值型、字符串型、树形结构的分层代码型。

进一步地,步骤s2中,建立相似度模型具体包括:

s21、将案件数据变量分为唯一性变量和可能性变量;

s22、定义唯一性变量的相似度模型:

唯一性变量为字符串类型,将一个案件m的所有字符串构成一个集合cm,案件m,n的相似度表示为

wa(m,n)=|cm∩cn|(1)

s23、定义可能性变量的相似度模型:

案件m,n的相似度,是多个数据变量的综合贡献,定义为

wb(m,n)=∑iwifi(m,n)(2)

其中,wi为归一化权重,表示各数据变量对于整体相似度的贡献比例,∑iwi=1;fi(m,n)表示案件m,n基于一个特定数据变量的相似度。

进一步地,步骤s23具体包括:

将可能性变量分为数值型和树形结构的分层代码型;

定义数值型可能性变量的相似度模型:

犯罪嫌疑人的身高范围[ha,hb]、年龄范围[aa,ab],对于犯罪嫌疑人的身高和年龄变量,取平均值,即

对案件m,n分别涉及的两个犯罪嫌疑人pm,pn,相似度表达式为

其中,hm,hn为二人身高,am,an为年龄,σh,σa为控制参数,取经验值5cm,5岁;

与两个发案时间tm,tn有关的相似度,即犯罪案件的时间相关性为

σt为控制参数,根据案件类型选取;

发案地点表示为几何坐标空间相关性表示为

表示坐标点的几何距离,σd为控制参数;

定义树形结构的分层代码型可能性变量的相似度模型:

树形结构的分层代码型表示为一个树形结构,根节点表示代码名称,每下一层节点为对父节点的进一步细分,在树形结构中,从根节点ro到任意一个节点nk有唯一的一条路径,表示为

pk=roni1nj2…npq,npq=nk(7)

npq表示在第q层的某个节点,这条路径的长度为q,即节点nk的高度h(nk)=q,节点nk与路径pk等效,表示分层代码数据类型的一个唯一代码值,对于两个案件的两个代码值,对应代码树的两条路径pi,pj,如果从根节点开始,直到第k层,二者具有相同的节点,那么这两条路径,亦即两个代码的相似度定义为

f4(pi,pj)=k/max(h(i),h(j))(8)

所有的fi,i=1-4满足归一化条件0≤fi(a,b)≤1,值为1表示完全匹配,相似度最大;值为0表示最弱的关系,即完全无关。

进一步地,步骤s2中,计算相似度矩阵具体包括:

对任意两个案件,根据(1)或(2),计算相似度值,对所有案件,根据两两关系,生成n×n的相似度矩阵w,n是案件数量,w是一个对称矩阵,其中对角线元素表示案件与自身的相似度,不需计算,只需计算w的上三角或者下三角矩阵。

进一步地,步骤s3具体包括:

根据社会网络分析理论和图论,将w矩阵转换成一个无向图g,图的每个节点表示一个案件,边的权值表示案件之间的关联程度;

对于图g,设定一个接近于零的阈值t,若g的元素小于t,表示两个案件不可能有实际联系,直接置零,g由多个连通子图构成,图分解将一个大图分解为若干连通子图:

g=∪igi,∩igi=φ(9)

使用宽度或者深度优先算法完成图分解过程。

进一步地,步骤s4具体包括:

首先,定义以下变量:

图g(v,w),v为节点集合,节点数n=|v|;w为边集合,表示为n×n相似度矩阵w,w(i,j)=w(j,i),wii=0

任意节点i的度di=σjwij,i=1,2,…,n;

对角矩阵d,dii=di,dij=0,i≠j;

假设图g切割为k个群组每个群组ci为一个子图,包括多个存在强关联的案件,可作为系列型犯罪案件处理;

群组内部的内聚度,对于群组a,na=|a|,m(a,a)=vol(a)=∑i,j∈awij/2,为群组a内部的边权值之和;

群组与外界的关联程度,m(a,v)=∑i∈a,j∈vwij-m(a,a)=∑i∈adi-m(a,a),为a之外所有与a中节点连接的边权值之和;

相互分离的两个群组a,b的关联程度m(a,b)=∑i∈a,j∈bwij;

对于连通子图的一个特定分解,定义q值

使q值最大化的解为最优图切割,即

qmax=maxk(qk),kmax=argmaxk(qk)(11)

以下为基于聚类算法的图切割方法:

对于n×n矩阵w,定义相应的laplacian矩阵以及相应的特征方程

lw=d-1.w(12)

lwx=λx(13)

对于lw,提取由高到低特征值对应的特征向量,最大特征值λ1=1,对应特征向量j,元素全部为1,如果特征值λ1的重复度为r,意味着g包括r个连通子图,第一个特征值没有对图进一步划分切割的能力,实际上,从大到小,取从2到k的k-1个特征值对应的特征向量,构成n×(k-1)矩阵xk={x2,x3,…,xk},xi为第i个n维列向量;

对每一个xk,视为维度为k-1的n个元素组成的集合,对其进行聚类分析,生成k个群组,计算相应的q(k),k从2开始迭代到某个预设的最大值,使q(k)达到最大的分解kmax为最优分解。

进一步地,步骤s5中,关键特征参数表征该群组犯罪案件是否具有并案侦查的实际价值,对于一个犯罪案件群组g,用于并案串并主要的关键特征参数为归一化的内聚度,内聚度表示为:

该数值越高,接近于1,表明所有的案件之间关联度都很强,具有很高的参考价值。

一种基于聚类技术的刑事犯罪案件关联串并系统,包括:

数据变量获取模块,用于获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;

相似度矩阵计算模块,用于根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;

图分解模块,用于利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;

聚类分析模块,用于对连通子图使用聚类算法进行图切割计算,将所有案件准确分组;

特征提取推送模块,用于提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。

与现有技术相比,本发明的有益效果如下:

本发明不仅能处理源数据具有明确、唯一性特征的数据,也能处理仅具有可能性特征的数据,极大的提高了刑事犯罪案件关联串并的效率,并且准确性高。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明基于聚类技术的刑事犯罪案件关联串并方法的流程框图;

图2是本发明基于聚类技术的刑事犯罪案件关联串并方法的分析流程图;

图3是本发明树形结构的分层代码型数据相似度计算示意图;

图4是本发明基于聚类技术的刑事犯罪案件关联串并系统的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

如图1所示,本发明提供一种基于聚类技术的刑事犯罪案件关联串并方法,包括如下步骤:

s1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;

s2、根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;

s3、利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;

s4、对连通子图使用聚类算法进行图切割计算,将所有案件准确分组;

s5、提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。

如图2所示,本发明基于聚类技术的刑事犯罪案件关联串并方法的分析流程如下:

1、刑事犯罪案件特征描述

在刑事犯罪案件信息管理系统中,每个案件包含多个数据项,描述案件各种特征或维度,包括嫌疑人身份证号码、手机号码、银行账号、作案手法、作案时间、作案天气、作案地域、作案工具、嫌疑人身高、嫌疑人年龄等。准确的案件关联串并过程需要综合利用这些数据分析案件特点,判断案件之间的相似程度。

这些数据项具有不同的数据类型。包括1)数值型,例如发案时间、嫌疑人身高(范围),2)字符串型,例如身份证号码、手机号码,3)树形结构的代码,例如作案手法(公安部标准:刑事犯罪信息管理代码第7部分作案手段分类和代码ga240.7-2000)。这些数据体现不同的确定性(可能性)。例如电话号码等具有唯一性;相反,身高或者作案手法仅能表示可能性。

2、案件相似度模型

根据案件特征变量的确定性程度,设计两种相似度模型

1)由唯一性变量定义的相似度模型

一个案件包括身份证号码、手机号码、银行账号等,通常为字符串类型,每个值具有唯一性。一个案件m的所有这些值(字符串)构成一个集合cm。案件m,n的相似度表示为

wa(m,n)=|cm∩cn|(1)

即两个集合交集元素的数量(元素相等定义为字符串值相等)。

2)由可能性变量定义的相似度模型

一个案件包括作案手法、作案时间、作案工具、嫌疑人身高、嫌疑人年龄等特征变量,只能表示一定程度的可能性。数据类型包括数值型和树形结构的分层代码型。案件m,n的相似度,是多个特征因素的综合贡献,定义为

wb(m,n)=∑iwifi(m,n)(2)

其中,wi为归一化权重,表示各数据变量对于整体相似度的贡献比例,∑iwi=1;fi(m,n)表示案件m,n基于一个特定数据变量的相似度。

通常,受害人或者目击者会提供犯罪嫌疑人的身高范围[ha,hb]、年龄范围[aa,ab]。对于犯罪嫌疑人的身高和年龄变量,取平均值,即

对案件m,n分别涉及的两个犯罪嫌疑人pm,pn,身高、年龄差别越小,表示二人相似度越高。相似度表达式为

其中,hm,hn为二人身高,am,an为年龄,σh,σa为控制参数,可取经验值5(cm),5(岁)。

与两个发案时间tm,tn有关的相似度,即犯罪案件的时间相关性为

σt为控制参数,可根据案件类型选取。

如果发案地点可以表示为几何坐标那么空间相关性可以表示为

表示坐标点的几何距离,σd为控制参数。

分层代码型数据(图3)可以表示为一个树形结构,根节点表示代码名称,例如作案手法。每下一层节点为对父节点的进一步细分。在树形结构中,从根节点ro到任意一个节点nk有唯一的一条路径,表示为

pk=roni1nj2…npq,npq=nk(7)

npq表示在第q层的某个节点。这条路径的长度为q,即节点nk的高度h(nk)=q。节点nk与路径pk等效,表示分层代码数据类型的一个唯一代码值。对于两个案件的两个代码值,对应代码树的两条路径pi,pj,如果从根节点开始,直到第k层,二者具有相同的节点,那么这两条路径,亦即两个代码的相似度定义为

f4(pi,pj)=k/max(h(i),h(j))(8)

所有的fi,i=1-4满足归一化条件0≤fi(a,b)≤1,值为1表示完全匹配,相似度最大(关联最强);值为0表示最弱的关系,即完全无关。式(8)可以用于每种树形结构代码,例如作案手法、作案工具等。

计算相似度矩阵

对任意两个案件,根据(1)或(2),计算相似度值。对所有案件,根据两两关系,生成n×n的相似度矩阵w,n是案件数量。w是一个对称矩阵,其中对角线元素表示案件与自身的相似度,不需计算,因此,只需计算w的上三角或者下三角矩阵。

3、预处理:对w矩阵的图分解

根据社会网络分析理论和图论,将w矩阵转换为一个无向图g。图的每个节点表示一个案件,边的权值表示案件之间的关联程度(相似度)。案件关联串并过程分解为对图的分解和切割两个步骤,每个最终切割计算生成的子图作为一个案件群组,作为案件关联串并的量化依据。

在随后的聚类分析过程中,涉及稀疏矩阵特征方程求解,以及q值的迭代计算,计算量、存储量较大。为了提高计算效率,需要进行预处理-图分解。

对于图g,设定一个接近于零的阈值t,若g的元素小于t,表示两个案件不可能有实际联系,直接置零。g由多个连通子图构成,图分解将一个“大”图分解为若干连通子图。

g=∪igi,∩igi=φ(9)

可以使用常见的宽度或者深度优先算法完成图分解过程。

4、对连通子图的聚类分析

首先,定义以下变量

图g(v,w),v为节点集合,节点数n=|v|;w为边(权值)集合,表示为n×n相似度矩阵w,w(i,j)=w(j,i),wii=0;

任意节点i的度di=σjwij,i=1,2,…,n;

对角矩阵d,dii=di,djj=0,i≠j;

假设图g切割为k个群组每个群组ci为一个子图,包括多个存在强关联的案件,可以作为系列型犯罪案件处理。

群组内部的内聚度,对于群组(子图)a,na=|a|,m(a,a)=vol(a)=∑i,j∈awij/2,为群组a内部的边权值之和。

群组与外界的关联程度,m(a,v)=∑i∈a,j∈vwij-m(a,a)=∑i∈adi-m(a,a),为a之外所有与a中节点连接的边权值之和。

相互分离的两个群组a,b的关联程度m(a,b)=σi∈a,j∈bwij;

对于连通子图的一个特定分解,定义q值

使q值最大化的解为最优图切割,即

qmax=maxk(qk),kmax=argmaxk(qk)(11)

以下为基于聚类算法的图切割方法。

对于n×n矩阵w,定义相应的laplacian矩阵以及相应的特征方程

lw=d-1.w(12)

lwx=λx(13)

对于lw,提取由高到低特征值对应的特征向量。最大特征值λ1=1,对应特征向量j,元素全部为1。如果特征值λ1的重复度为r,意味着g包括r个连通子图。第一个特征值(特征向量)没有对图进一步“划分切割”的能力。实际上,从大到小,取从2到k的k-1个特征值对应的特征向量,构成n×(k-1)矩阵xk={x2,x3,…,xk},xi为第i个n维列向量。

对每一个xk,可以视为维度为k-1的n个元素组成的集合,对其进行聚类分析,生成k个群组,计算相应的q(k)。k从2开始迭代到某个预设的最大值,使q(k)达到最大的分解kmax为最优分解。基本流程的伪代码为

通过以上步骤,最终将所有刑事犯罪案件分为若干群组,群组之间联系弱,群组内部的案件关联强,每个群组初步视为系列性案件,提交人工审核。

5、案件群组关键特征提取及向用户推送分析结果

完成聚类分析后,进一步提取每个犯罪案件群组的关键特征参数,这些参数表征该组犯罪案件是否具有并案侦查的实际价值,系统把特征参数按照优先级高低推送给用户。

对于一个犯罪案件群组g,用于并案串并主要参数为归一化的内聚度,该数值越高,接近于1,表明所有的案件之间关联度都很强,具有很高的参考价值。内聚度表示为:

当然其它参数也有一定参考意义,例如一个高关联案件群组的破案率低、甚至为零,表明并案侦查时应予以高度关注。

实施例2

如图4所示,本发明还提供一种基于聚类技术的刑事犯罪案件关联串并系统,包括:

数据变量获取模块,用于获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;

相似度矩阵计算模块,用于根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;

图分解模块,用于利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;

聚类分析模块,用于对连通子图使用聚类算法进行图切割计算,将所有案件准确分组;

特征提取推送模块,用于提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。

本发明不仅能处理源数据具有明确、唯一性特征的数据,也能处理仅具有可能性特征的数据,极大的提高了刑事犯罪案件关联串并的效率,并且准确性高。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1