一种基于聚类分析的串并案方法与流程

文档序号：33738992发布日期：2023-04-06 09:09阅读：209来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及案件串并分析，具体涉及一种基于聚类分析的串并案方法。

背景技术：

1、当前，刑事犯罪斗争的形势十分严峻，刑事案件发案不断上升，流窜作案与系列团伙案件尤为明显。

2、犯罪分子往往采用跨区域、跳跃式的大范围流窜作案，犯罪手段日趋狡猾，呈现智能化、技术化、时空跨大等特点。常规方式往往需要花费大量人力、物力，对案件逐一分析、研判，串并分析效率较低，且不利于快速的集中警力，达到事半功倍的效果。

技术实现思路

1、本发明需要解决的技术问题是提供一种基于聚类分析的串并案方法，可解决目前侦查办案民警，需要从海量案件中，对案件进行逐一筛查、分析、研判的人工串并过程，从而提升案件串并分析效率。

2、为解决上述技术问题，本发明所采取的技术方案如下。

3、一种基于聚类分析的串并案方法，包括以下步骤：

4、s1、构建案件词汇库；

5、s2、构建案件语料库；

6、s3、基于案件语料库提取案件特征；

7、所述步骤s3具体包括：

8、s31、基于案件语料库得到词汇字典；

9、s32、根据已得到的案件词汇字典，依次计算每个案件的特征向量并对案件特征向量进行压缩，得到压缩后的案件特征向量矩阵；

10、s4、案件特征进行聚类；

11、所述步骤s4为：获取已压缩后的案件特征向量矩阵，以案件的小案类别数k，作为初始化分类个数，对案件特征向量进行初始化硬分类，得到分类结果集；对于每个结果集，随机抽取两个案件特征向量作为质心向量，计算其它案件特征向量到质心向量的余弦相似度，将余弦相似度值较大的向量划分一簇；对于每个簇，计算簇内的误差平方和sse，找出sse值较大的簇，同时，计算其轮廓系数，如果其轮廓系数值大于设定轮廓系数阀值：0.5，则将其标识为可继续聚类分析簇，重复对其进行聚类处理操作，直至所有簇不可再分为止时，将所有簇集进行合并，得到最终聚类分析结果集；

12、s5、案件串并结果推荐。

13、优选的，所述步骤s1中，案件词汇库以侦查名词为基础，结合人工录入的各类方言、暗语和网络词汇构建案件词汇库。

14、优选的，所述步骤s2具体包括：

15、s21、以案件侦查信息结构为标准，在案件管理系统中补充案件侦查信息并进行保存；

16、s22、读取所有案件信息，将每个案件的基本信息与侦查信息使用“空格”进行拼接，得到案件信息文本；结合案件词汇库，使用分词工具，对案件信息文本进行分词、停用词处理，得到案件的词汇数组：n＝[n1,n2,n3,...nx]，全部案件处理完成，形成案件语料库：a＝{n1,n2,n3,...nm}，nm∈a。

17、优选的，所述步骤s31具体为：加载案件语料库a，依次循环处理每个案件nm(nm∈a)的词汇数组，将词频大于1次且未在词汇字典中出现的词汇，加入到词汇字典中，并按词汇字符进行排序，得到完整的案件词汇字典。

18、优选的，所述步骤s32的具体步骤如下：

19、s321、以案件词汇字典为词汇对照表，统计案件nm(nm∈a)词汇数组n中的每个词汇n，在案件词汇数组中的出现情况，得到该案件词频向量tf＝[tf1,tf2,tf3,...tfj]；

20、s322、以案件词汇字典t为词汇对照表，计算案件nm(nm∈a)词汇数组n中的每个词汇n，在案件语料库中的逆向文档率向量idf＝[idf1,idf2,idf3,...idfj]；

21、s323、将案件nm(nm∈a)的词频向量tfj与逆向文档率向量idfj相乘得到tf-idf，即案件的特征向量；同时，结合主成分析方法(pca)对案件特征向量进行压缩，得到压缩后的案件特征向量矩阵；

22、s324、在进行案件特征向量处理时，同时生成案件信息矩阵，案件信息包括：案件编号、案件名称、案件类别、小案类别、简要案情、案发时间、案发地点。

23、优选的，所述步骤s4具体包括：

24、s41、获取已压缩后的案件特征向量矩阵，以案件的小案类别个数k，作为簇的初始化数量，将案件特征向量进行初始化硬分类，得到k个案件特征向量结果集：c＝{c1,c2,c3,c4,c5,...ck}；

25、s42、获取k个案件特征向量结果集中的子集ck(ck∈c)，将其标记作为父簇：pk(pk＝ck)；

26、s43、获取簇pk内的所有案件特征向量vm(vm∈pk)，在簇pk中随机抽取两个案件特征向量作为质心向量：u＝{u1,u2}；计算簇pk内其余案件特征向量vm与质心向量的余弦相似度；将案件特征向量vi与质心向量ui余弦相似度值较大的划分为一个簇，此时得到新聚类结果子集：s＝{s1,s2}；

27、s44、对新聚类结果子集si进行处理，获取簇si的所有案件特征向量vm∈pk，在vm∈si中随机抽取两个案件特征向量作为作为质心向量：nu＝{nu1,nu2}；计算簇si内其余案件特征向量vm与质心向量的余弦相似度；将案件特征向量vm与质心向量nui余弦相似度值较大的划分为一个簇，得到si的子集结果集：ns＝{ns1,ns2}；

28、s45、计算簇si的误差平方和sse，得到簇si的sse值，标记为：ei；计算簇si下的子结果集ns的误差平方和得到sse值，标记为：ensi；求出簇si的sse与si的子结果集sse的差值，并求出最大差值maxdvi与对应的簇si；

29、s46、得到具有sse最大差值的簇si，计算簇si的轮廓系数；如果簇si的轮廓系数大于设定轮廓系数阀值为：0.5，则将簇si作为可继续聚类分析簇，并将其标记为簇pk(pk＝si)；同时，将最小的sse差值的簇si或轮廓系数小于0.5的簇si作为不可聚类分析簇，添加至聚类分析结果集：nc；

30、s47、重复步骤s43、s44、s45和s46，直至不会产生新的聚类分析簇为止，此时得到ck下面的所有聚类分析结果集：nc＝{nc1,nc2,nc3,...ncn}；

31、s48、重复步骤s42、s43、s44、s45、s46和s47，直至k个案件特征向量结果集全部完成，将ck下面的聚类分析结果集nc全部合并至gc中，得到完整的聚类分析结果集gc＝{nc1,nc2,nc3,...ncn}，并将其进行保存。

32、优选的，所述步骤s5具体包括：

33、s51、根据用户选择案件，找到案件对应的所属簇：nc，获取簇下面的所有案件，并根据案件编号获取其压缩后的案件特征向量：vm∈nc；

34、s52、以用户选择案件对应的案件特征向量，作为为中心向量，计算同簇下的其它案件与用户选择案件特征向量的余弦相似度，并将其进行归一化处理，得到同簇下的每个案件与用户选择的案件的相似度；

35、s53、按照相似度值从大到小进行排序，得到用户选择案件的相关串并案，并推荐给用户，推荐的案件信息包括：相似度、案件编号、案件名称、案件类别、小案类别、简要案情、案发时间、案发地点。

36、由于采用了以上技术方案，本发明所取得技术进步如下。

37、本发明使用无监督分析方法，对案件信息进行特征信息提取，通过特征信息进行智能串并，将相似案件中并到一起，实现海量案件的快速串并分析，从而替换了原有的手工串并方式，提升案件串并效率与质量，解决了人工方式需要大量的重复性工作。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘怀春何晓伟杨力彪夏欢龚波苏学武水军孙全忠陈武黄国华
技术所有人：珠海市新德汇信息技术有限公司
我是此专利的发明人

上一篇：测定虾与蟹中原肌球蛋白的相色谱串联质谱法的制作方法
上一篇：一种用于逆作法肥槽提前回填的构造及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。