一种面向涉毒案件的犯罪行为序列可视化方法及系统

文档序号:32661024发布日期:2022-12-23 23:32阅读:25来源:国知局
一种面向涉毒案件的犯罪行为序列可视化方法及系统

1.本发明属于序列可视化技术领域,具体地,涉及一种面向涉毒案件的犯罪行为序列可视化方法及系统。


背景技术:

2.2022年,随着智慧法院的不断发展、完善,不断将人工智能、大数据、数据挖掘、可视化分析等技术与司法相结合帮助法院提升工作效率。数据挖掘技术给能够对案件案情提供新的分析视角并提高分析效率,而可视化将为司法人员提供更加直观便捷的了解案件中规律。
3.目前司法案件中毒品犯罪是社会危害性最为严重的犯罪之一。它不仅对人们的身心健康造成极大损害,而且往往引发抢劫、盗窃等其他严重刑事犯罪,形成一系列社会问题,给经济发展和社会和谐稳定构成巨大威胁。从而引发越来越来多的人对涉毒案件进行研究。对涉毒案件中的犯罪行为序列研究能够发现犯罪人员行为中存在的特点并且能够帮助公安人员预测犯罪人员行为。犯罪行为序列是对涉毒类案件案情中的重要行为提取构建而成的序列,每个案件提取成为一个序列。针对犯罪人员行为进行可视化,能够帮助司法人员更加直观的了解案件案情规律,能够展现出每个案件的行为特点,使得司法人员对于案件内容更加容易的理解。


技术实现要素:

4.本发明提出了一种面向涉毒案件的犯罪行为序列可视化方法及系统,以序列中语义相似的节点构建成相似节点树的为基础,将序列中相似的节点进行合并,以最小描述长度作为优化目标挖掘序列中存在的序列模式,并进行序列可视化布局;发现序列模式中存在的焦点,对序列中焦点进行可视化布局;本发明能够充分的发掘犯罪行为中存在的规律和焦点;为司法人员提供高效、直观的序列可视化方法。
5.本发明通过以下技术方案实现:
6.一种面向涉毒案件的犯罪行为序列可视化方法:
7.所述方法具体包括以下步骤:
8.步骤一:数据预处理,使用分词工具提取涉毒案件案情文本中行为词,根据行为词的语义相似性,将犯罪行为序列中的相似行为词构建成相似节点树;
9.步骤二:从步骤一构建的相似节点树中选择节点,对犯罪行为序列中的行为词进行合并;
10.步骤三:将步骤二合并节点之后产生的序列进行挖掘,挖掘出序列模式,根据序列模式将所有序列划分成簇,将序列表示成序列模式、序列补充和原始序列,进行初步可视化;
11.步骤四:采用问答系统提取出步骤三序列模式中的焦点进行重点可视化;最终将大量序列可视化为序列模式、焦点、序列补充和原始序列。
12.进一步地,在步骤一中,
13.使用涉毒案件案情部分通过word2vec生成预训练词向量,通过查找预训练词向量获取犯罪行为序列中行为词对应的词向量;
14.根据行为词的词向量之间的相似度分层,将行为词构建成相似节点树。
15.进一步地,在步骤二中,
16.所述相似节点树中每个节点生成一个向量vector_a(s1,s2,

,sm),
17.其中m为案件个数,vector_a向量表示每个案件的行为序列中是否发生该行为或者发生相似节点树中该行为的子行为;
18.每个法条生成一个向量vector_b(s1,s2,

,sm),向量表示每个案件中是否使用该法条;
19.通过卡方校验计算两个向量之间的相关度x2,综合各个法条获取到相似节点树中节点信息度量为x2/l,其中l为法条个数;
20.根据相似节点树中每个节点的信息度量x2/l进行节点合并,将犯罪行为序列中被选择节点的所有子节点替换成该节点,从而减少相似节点。
21.进一步地,在步骤三中,
22.将合并节点之后产生的序列进行序列模式提取,根据两个序列之间的描述长度作为优化目标,提取描述长度最小的两个序列的序列模式并将两个序列归并到同一簇内,不断迭代直至所有序列都被归类成簇;将同一簇内的序列可视化成以序列模式、序列补充和原始序列的形式。
23.进一步地,在步骤四中,
24.将案情相关的法条作为问题,作为问答系统qa的输入,寻找与法条最相关的案情句子,从而找到与案情句子所对应的序列模式节点,将识别的序列模式节点进行重点可视化。
25.一种面向涉毒案件的序列可视化系统:
26.所述系统包括数据预处理模块、行为词合并模块、序列挖掘模块和焦点可视化模块;
27.数据预处理模块,使用分词工具提取涉毒案件案情文本中行为词,根据行为词的语义相似性,将犯罪行为序列中的相似行为词构建成相似节点树;
28.行为词合并模块,用于从数据预处理模块构建的相似节点树中选择节点,对犯罪行为序列中的行为词进行合并;
29.序列挖掘模块,用于将合并节点之后产生的序列进行挖掘,挖掘出序列模式,根据序列模式将所有序列划分成簇,将序列表示成序列模式和序列补充,进行初步可视化;
30.焦点可视化模块,用于采用问答系统提取出序列模式中的焦点进行重点可视化;最终将大量序列可视化为序列模式、焦点、序列补充和原始序列。
31.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
32.一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现上述方法的步骤。
33.本发明有益效果
34.本发明在利用句子涉毒案件案情的语义信息的基础上,采用相似节点数形式对节点进行合并,引入序列模式挖掘技术挖掘出序列中的模式,采用问答系统来发现序列模式中的焦点,将大量序列进行可视化为序列模式、焦点、序列补充、原始序列,使得序列可视化能够在小的范围里尽可能多的表示更多的信息,并且能够降低相似节点对于序列分析的干扰,发现序列中存在的模式,对重要信息进行重点可视化展示,这将带来更好的序列可视化效果。这将给司法领域的案件分析提供帮助,为司法人员决策提供参考,推动司法领域可视化分析发展。
35.本发明以序列中语义相似的节点构建成相似节点树为基础,对序列中相似的节点进行合并,减少视觉上的干扰,为序列的模式挖掘和序列可视化提供良好的基础;使用序列模式挖掘,将高维大量序列进行可视化表示,可以对于犯罪案件中案件属性每一维的值进行分类、排序、组合和显示,进行看到表示对象或事件的数据的多个属性或变量,能够使用少量的布局显示尽可能多的序列数据,并能够发现案件中存在的规律;引入问答系统,发现序列中的重点信息,有效识别焦点,可视化布局能够减少视觉负担,同时也能够帮助司法人员拓展工作时记忆的信息量,便于司法人员对犯罪行为序列进行分析,减少认知的负担,拓展认知能力。
附图说明
36.图1为本发明总体流程图;
37.图2为本发明的相似节点合并示意图;
38.图3为本发明是模式识别示意图。
具体实施方式
39.下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.结合图1至图3。
41.一种面向涉毒案件的犯罪行为序列可视化方法:
42.所述方法具体包括以下步骤:
43.步骤一:数据预处理,使用分词工具提取涉毒案件案情文本中行为词,根据行为词的语义相似性,将犯罪行为序列中的相似行为词构建成相似节点树;
44.步骤二:从步骤一构建的相似节点树中选择节点,对犯罪行为序列中的行为词进行合并;
45.步骤三:将步骤二合并节点之后产生的序列进行挖掘,挖掘出序列模式,根据序列模式将所有序列划分成簇,将序列表示成序列模式、序列补充和原始序列,进行初步可视化;
46.步骤四:采用问答系统提取出步骤三序列模式中的焦点进行重点可视化;最终将大量序列可视化为序列模式、焦点、序列补充和原始序列。
47.在步骤一中,
48.使用涉毒案件案情部分通过word2vec生成预训练词向量,通过查找预训练词向量获取犯罪行为序列中行为词对应的词向量;
49.根据行为词的词向量之间的相似度分层,将行为词构建成相似节点树。
50.在步骤二中,
51.所述相似节点树中每个节点生成一个向量vector_a(s1,s2,

,sm),
52.其中m为案件个数,vector_a向量表示每个案件的行为序列中是否发生该行为或者发生相似节点树中该行为的子行为;
53.每个法条生成一个向量vector_b(s1,s2,

,sm),向量表示每个案件中是否使用该法条;
54.通过卡方校验计算两个向量之间的相关度x2,综合各个法条获取到相似节点树中节点信息度量为x2/l,其中l为法条个数;
55.根据相似节点树中每个节点的信息度量x2/l进行节点合并,将犯罪行为序列中被选择节点的所有子节点替换成该节点,从而达到减少相似节点效果,减少视觉负担。
56.在步骤三中,
57.将合并节点之后产生的序列进行序列模式提取,根据两个序列之间的距离,提取距离最近的两个序列之间的序列模式并将两个序列归并到同一簇内,不断迭代直至所有序列都被归类成簇;将同一簇内的序列可视化成以序列模式和序列补充的形式。能够在较小的范围里尽可能多的显示更多的内容并尽量保存原始信息。给用户提供更加直观的视觉显示。
58.在步骤四中,
59.将案情相关的法条作为问题,作为问答系统qa的输入,寻找与法条最相关的案情句子,从而找到与案情句子所对应的序列模式节点,将识别的序列模式节点进行重点可视化。
60.一种面向涉毒案件的序列可视化系统:
61.所述系统包括数据预处理模块、行为词合并模块、序列挖掘模块和焦点可视化模块;
62.数据预处理模块,使用分词工具提取涉毒案件案情文本中行为词,根据行为词的语义相似性,将犯罪行为序列中的相似行为词构建成相似节点树;
63.行为词合并模块,用于从数据预处理模块构建的相似节点树中选择节点,对犯罪行为序列中的行为词进行合并;
64.序列挖掘模块,用于将合并节点之后产生的序列进行挖掘,挖掘出序列模式,根据序列模式将所有序列划分成簇,将序列表示成序列模式和序列补充,进行初步可视化;
65.焦点可视化模块,用于采用问答系统提取出序列模式中的焦点进行重点可视化;最终将大量序列可视化为序列模式、焦点、序列补充和原始序列。
66.实施例:
67.首先执行步骤一,使用原始案件案情部分通过word2vec生成预训练词向量,通过查找预训练词向量获取犯罪行为序列中行为词对应的词向量。根据行为词的词向量之间的相似度将行为词构建成相似节点树。
68.然后执行步骤二,选取相似树结构中的行为词,合并犯罪行为序列中的行为词。例
如犯罪行为序列中存在相似的行为词,“行车”、“行驶至”、“行驶到”,这些行为词的含义高度相似将给序列可视化带来困难。因此将行为词构建成树的形式,通过为每个行为词节点向量vector_a表示每个案件中是否存在给节点和每个法条向量vector_b表示每个案件涉及法条是否包含该法条。通过卡方校验计算出相似节点树中每个行为词节点的度量,根据每个行为词的度量对树中节点进行选择。在所有犯罪行为序列中被选择的节点的子节点(“行驶至”、“行驶到”)将替换成该节点(“行车”)。
69.步骤三是根据序列之间的相似性将多个序列归类到同一个簇中并通过序列模式挖掘出模式,多个序列将通过序列模式和序列补充进行可视化表示。步骤四序列模式中每个节点对应的案情句子作为答案,案件所对应的法条作为问题,输入到问答系统中。
70.找到与法条句子相匹配的案情句子,从而找到案情句子对应的行为节点词,对找到的行为节点词进行重点可视化。
71.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
72.一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现上述方法的步骤。
73.本技术实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double datarate sdram,ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synchlink dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,dr ram)。应注意,本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
74.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,dvd))、或者半导体介质(例如,固态硬盘(solid state disc,
ssd))等。
75.在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
76.应注意,本技术实施例中的处理器可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
77.以上对本发明所提出的一种面向涉毒案件的犯罪行为序列可视化方法及系统,进行了详细介绍,对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1