一种基于聚类分析的串并案方法与流程

文档序号:33738992发布日期:2023-04-06 09:09阅读:209来源:国知局
一种基于聚类分析的串并案方法与流程

本发明涉及案件串并分析,具体涉及一种基于聚类分析的串并案方法。


背景技术:

1、当前,刑事犯罪斗争的形势十分严峻,刑事案件发案不断上升,流窜作案与系列团伙案件尤为明显。

2、犯罪分子往往采用跨区域、跳跃式的大范围流窜作案,犯罪手段日趋狡猾,呈现智能化、技术化、时空跨大等特点。常规方式往往需要花费大量人力、物力,对案件逐一分析、研判,串并分析效率较低,且不利于快速的集中警力,达到事半功倍的效果。


技术实现思路

1、本发明需要解决的技术问题是提供一种基于聚类分析的串并案方法,可解决目前侦查办案民警,需要从海量案件中,对案件进行逐一筛查、分析、研判的人工串并过程,从而提升案件串并分析效率。

2、为解决上述技术问题,本发明所采取的技术方案如下。

3、一种基于聚类分析的串并案方法,包括以下步骤:

4、s1、构建案件词汇库;

5、s2、构建案件语料库;

6、s3、基于案件语料库提取案件特征;

7、所述步骤s3具体包括:

8、s31、基于案件语料库得到词汇字典;

9、s32、根据已得到的案件词汇字典,依次计算每个案件的特征向量并对案件特征向量进行压缩,得到压缩后的案件特征向量矩阵;

10、s4、案件特征进行聚类;

11、所述步骤s4为:获取已压缩后的案件特征向量矩阵,以案件的小案类别数k,作为初始化分类个数,对案件特征向量进行初始化硬分类,得到分类结果集;对于每个结果集,随机抽取两个案件特征向量作为质心向量,计算其它案件特征向量到质心向量的余弦相似度,将余弦相似度值较大的向量划分一簇;对于每个簇,计算簇内的误差平方和sse,找出sse值较大的簇,同时,计算其轮廓系数,如果其轮廓系数值大于设定轮廓系数阀值:0.5,则将其标识为可继续聚类分析簇,重复对其进行聚类处理操作,直至所有簇不可再分为止时,将所有簇集进行合并,得到最终聚类分析结果集;

12、s5、案件串并结果推荐。

13、优选的,所述步骤s1中,案件词汇库以侦查名词为基础,结合人工录入的各类方言、暗语和网络词汇构建案件词汇库。

14、优选的,所述步骤s2具体包括:

15、s21、以案件侦查信息结构为标准,在案件管理系统中补充案件侦查信息并进行保存;

16、s22、读取所有案件信息,将每个案件的基本信息与侦查信息使用“空格”进行拼接,得到案件信息文本;结合案件词汇库,使用分词工具,对案件信息文本进行分词、停用词处理,得到案件的词汇数组:n=[n1,n2,n3,...nx],全部案件处理完成,形成案件语料库:a={n1,n2,n3,...nm},nm∈a。

17、优选的,所述步骤s31具体为:加载案件语料库a,依次循环处理每个案件nm(nm∈a)的词汇数组,将词频大于1次且未在词汇字典中出现的词汇,加入到词汇字典中,并按词汇字符进行排序,得到完整的案件词汇字典。

18、优选的,所述步骤s32的具体步骤如下:

19、s321、以案件词汇字典为词汇对照表,统计案件nm(nm∈a)词汇数组n中的每个词汇n,在案件词汇数组中的出现情况,得到该案件词频向量tf=[tf1,tf2,tf3,...tfj];

20、s322、以案件词汇字典t为词汇对照表,计算案件nm(nm∈a)词汇数组n中的每个词汇n,在案件语料库中的逆向文档率向量idf=[idf1,idf2,idf3,...idfj];

21、s323、将案件nm(nm∈a)的词频向量tfj与逆向文档率向量idfj相乘得到tf-idf,即案件的特征向量;同时,结合主成分析方法(pca)对案件特征向量进行压缩,得到压缩后的案件特征向量矩阵;

22、s324、在进行案件特征向量处理时,同时生成案件信息矩阵,案件信息包括:案件编号、案件名称、案件类别、小案类别、简要案情、案发时间、案发地点。

23、优选的,所述步骤s4具体包括:

24、s41、获取已压缩后的案件特征向量矩阵,以案件的小案类别个数k,作为簇的初始化数量,将案件特征向量进行初始化硬分类,得到k个案件特征向量结果集:c={c1,c2,c3,c4,c5,...ck};

25、s42、获取k个案件特征向量结果集中的子集ck(ck∈c),将其标记作为父簇:pk(pk=ck);

26、s43、获取簇pk内的所有案件特征向量vm(vm∈pk),在簇pk中随机抽取两个案件特征向量作为质心向量:u={u1,u2};计算簇pk内其余案件特征向量vm与质心向量的余弦相似度;将案件特征向量vi与质心向量ui余弦相似度值较大的划分为一个簇,此时得到新聚类结果子集:s={s1,s2};

27、s44、对新聚类结果子集si进行处理,获取簇si的所有案件特征向量vm∈pk,在vm∈si中随机抽取两个案件特征向量作为作为质心向量:nu={nu1,nu2};计算簇si内其余案件特征向量vm与质心向量的余弦相似度;将案件特征向量vm与质心向量nui余弦相似度值较大的划分为一个簇,得到si的子集结果集:ns={ns1,ns2};

28、s45、计算簇si的误差平方和sse,得到簇si的sse值,标记为:ei;计算簇si下的子结果集ns的误差平方和得到sse值,标记为:ensi;求出簇si的sse与si的子结果集sse的差值,并求出最大差值maxdvi与对应的簇si;

29、s46、得到具有sse最大差值的簇si,计算簇si的轮廓系数;如果簇si的轮廓系数大于设定轮廓系数阀值为:0.5,则将簇si作为可继续聚类分析簇,并将其标记为簇pk(pk=si);同时,将最小的sse差值的簇si或轮廓系数小于0.5的簇si作为不可聚类分析簇,添加至聚类分析结果集:nc;

30、s47、重复步骤s43、s44、s45和s46,直至不会产生新的聚类分析簇为止,此时得到ck下面的所有聚类分析结果集:nc={nc1,nc2,nc3,...ncn};

31、s48、重复步骤s42、s43、s44、s45、s46和s47,直至k个案件特征向量结果集全部完成,将ck下面的聚类分析结果集nc全部合并至gc中,得到完整的聚类分析结果集gc={nc1,nc2,nc3,...ncn},并将其进行保存。

32、优选的,所述步骤s5具体包括:

33、s51、根据用户选择案件,找到案件对应的所属簇:nc,获取簇下面的所有案件,并根据案件编号获取其压缩后的案件特征向量:vm∈nc;

34、s52、以用户选择案件对应的案件特征向量,作为为中心向量,计算同簇下的其它案件与用户选择案件特征向量的余弦相似度,并将其进行归一化处理,得到同簇下的每个案件与用户选择的案件的相似度;

35、s53、按照相似度值从大到小进行排序,得到用户选择案件的相关串并案,并推荐给用户,推荐的案件信息包括:相似度、案件编号、案件名称、案件类别、小案类别、简要案情、案发时间、案发地点。

36、由于采用了以上技术方案,本发明所取得技术进步如下。

37、本发明使用无监督分析方法,对案件信息进行特征信息提取,通过特征信息进行智能串并,将相似案件中并到一起,实现海量案件的快速串并分析,从而替换了原有的手工串并方式,提升案件串并效率与质量,解决了人工方式需要大量的重复性工作。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1