基于刑事案件电子卷宗的自动编目的方法、计算机可以读取的存储装置与流程

文档序号:26139809发布日期:2021-08-03 14:23阅读:125来源:国知局

本发明涉及的是数据整理的技术领域,具体来说,涉及的是基于刑事案件电子卷宗的自动编目的方法、计算机可以读取的存储装置。



背景技术:

在司法行业里,电子卷宗是指法院审批一个案件涉及的所有材料的汇总,包括封皮、封底、卷宗目录、判决书、传票、询问笔录等。一般以一个案件为单位形成一个卷宗,每个案件包含很多材料。

为了方便管理,通常需要将各种材料进行归类,作为刑事案件,刑事电子卷宗是用于刑事判决书最为重要的电子物证数据。现有的电子卷宗的材料类型自动识别系统,是预先建立好电子卷宗的信息标签类型数据库,将待识别的材料与材料类型规则库中的规则进行比对,从而将电子卷宗的材料根据比对结果进行分类。

然而现有技术的信息标签分类标准较为零散,导致不同的刑事案件电子卷宗的录入会出现录入信息不一致、录入内容发生条目偏差、录入的电子卷宗不能以更加清晰的条目进行归类等问题,这会导致电子卷宗的录入效率变低,录入后调取电子卷宗的效率也变低,不利于刑事诉讼的审理以及最终判决的裁定。

在专利号cn109472424b中,公开了犯罪实际刑期的预测方法、装置、存储介质及服务器,对于人机互动方面进行了说明,但公开的技术方案都属于案件本身基于已有的基础信息,实现裁决前的刑期预估并给出预期的裁决文书,但对于裁决后的实际裁决文书的录入以及整理方面,并未给出对应的解决手段,而现有技术的提取方式也不能很好适应上述技术方案。



技术实现要素:

针对背景技术中存在的技术缺陷,本发明提出了基于刑事案件电子卷宗的自动编目的方法、计算机可以读取的存储装置,解决了上述技术问题以及满足了实际需求,具体的技术方案如下所示:

基于刑事案件电子卷宗的自动编目的方法,包括如下步骤:

a)基于用户的输入界面,由用户手动录入后,获取刑事案件的电子卷宗文件由临时存储空间先行存储,所述电子卷宗应当包括若干条基础信息,若缺失基础信息中任意一条,导致不能被判定为电子卷宗,将缺失内容反馈至用户输入界面进行提示,且该电子卷宗文件继续存放于临时存储空间作为待用,否则,执行下一步提取基础信息操作;

b)提取电子卷宗中的标题、页码以及制作日期,并判定是否有不属于同一电子卷宗的标题、页码以及制作日期,如果存在任一条件不吻合,则识别为新的一份电子卷宗,按照识别的先后顺序,放置于临时存储空间中的临时队列待用,并执行下一步精准提取操作,否则,直接执行下一步的精准提取操作;

c)对位于临时队列中最前的电子卷宗执行精准提取操作,提取电子卷宗中的取证对象、询问次数、取证时间、询问场合、参与人员、笔录内容信息,并同步识别与取证对象同名的笔录内容,生成信息种类的电子索引信息,并同步生成信息目录,执行下一步的证据归类操作;

d)对上一步中执行完精准提取操作的电子卷宗执行证据归类操作,将证据按照种类自动划分并且排序,形成单一电子卷宗内的证据种类电子索引信息,并同步生成证据目录,将信息种类的电子索引信息与信息目录、证据种类的电子索引信息与证据目录录入永久存储数据库中,同时将电子卷宗移动到永久存储数据库内,形成结构化的电子卷宗数据;

e)若此时临时队列中还存在未执行步骤c的电子卷宗,则依次执行步骤c至步骤d的操作后进入本步骤,否则,完成电子卷宗的编目操作,并将编目结果信息反馈至用户操作界面。

作为本发明进一步的技术方案,所述证据的种类划分为8种,并依照以下具体类别区分:

(一)物证;(二)书证;(三)证人证言;(四)被害人陈述;(五)犯罪嫌疑人、被告人供述和辩解;(六)鉴定意见;(七)勘验、检查、辨认、侦查实验等笔录;(八)视听资料、电子数据。

作为本发明进一步的技术方案,所述用户的输入界面包括:通过直接连接或者无线连接从移动存储媒介或者是智能设备读取的录入端口,以及间接从扫描录入设备中读取电子文件的录入端口。

作为本发明进一步的技术方案,对步骤c和步骤d中建立的目录信息进行标签化,将标签化后的目录信息进行文本分析,去除掉非名词成分后仅保留名词成分。

作为本发明进一步的技术方案,所述目录信息转换为仅有名词成分的标签后,按照《现代汉语词典》中同义词或近义词的定义归类为单一词条集,并以该词条集中使用频度最高的词、以及使用频度处于中位与末位的名词作为词条集名。

作为本发明进一步的技术方案,所述永久存储数据库按照5分钟至3个月范围内自定义的时间间隔,对目录信息按照时间顺序重新进行排列,并将所述自定义时间间隔内被调用最多的所述目录信息的频度进行统计,反馈至用户输入界面。

本发明还公开了一种存储器,其包括:一个或多个处理器以及一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行基于刑事案件电子卷宗的自动编目的方法。

本发明具有的有益效果在于:为刑事案件电子卷宗的录入提供了一种更加具有条理化、清晰化以及高效化的录入流程方式,并且精确提取电子卷宗内的基础信息和案件信息,尤其起到很大作用的证据信息,全部针对性地建立准确的电子索引并将其目录化,方便存储器内的数据库系统对电子卷宗进行更有条目的分类以及存储,让电子卷宗的调取可以从更多的维度切入,使得更多的关键词信息都能成为指向性的向量值,方便办案人员在最短时间内将电子卷宗转化为数据库资料,以及在需要调取的时候也能以最短的时间获得需要的电子卷宗内的需要信息,同时,在针对智能量刑系统的整个案件处理流程方面,可以更加顺畅地完整进行,使得案件在立案到结案都能基于智能系统进行处理,从而让刑事案件的审理能够以最为效率的方式开展,为司法水平的提高提供有效助力。

具体实施方式

下面结合相关实施例对本发明的实施方式进行说明,需要指出的是,以下相关实施例仅是为了更好说明本发明本身而举的优选实施例,而本发明的实施方式不局限于如下的实施例中,并且本发明涉及本技术领域的相关必要部件,应当视为本技术领域内的公知技术,是本技术领域所属的技术人员所能知道并掌握的。

基于刑事案件电子卷宗的自动编目的方法,包括如下步骤:

a)基于用户的输入界面,由用户手动录入后,获取刑事案件的电子卷宗文件由临时存储空间先行存储,所述电子卷宗应当包括若干条基础信息,若缺失基础信息中任意一条,导致不能被判定为电子卷宗,将缺失内容反馈至用户输入界面进行提示,且该电子卷宗文件继续存放于临时存储空间作为待用,否则,执行下一步提取基础信息操作;

b)提取电子卷宗中的标题、页码以及制作日期,并判定是否有不属于同一电子卷宗的标题、页码以及制作日期,如果存在任一条件不吻合,则识别为新的一份电子卷宗,按照识别的先后顺序,放置于临时存储空间中的临时队列待用,并执行下一步精准提取操作,否则,直接执行下一步的精准提取操作;

c)对位于临时队列中最前的电子卷宗执行精准提取操作,提取电子卷宗中的取证对象、询问次数、取证时间、询问场合、参与人员、笔录内容信息,并同步识别与取证对象同名的笔录内容,生成信息种类的电子索引信息,并同步生成信息目录,执行下一步的证据归类操作;

d)对上一步中执行完精准提取操作的电子卷宗执行证据归类操作,将证据按照种类自动划分并且排序,形成单一电子卷宗内的证据种类电子索引信息,并同步生成证据目录,将信息种类的电子索引信息与信息目录、证据种类的电子索引信息与证据目录录入永久存储数据库中,同时将电子卷宗移动到永久存储数据库内,形成结构化的电子卷宗数据;

e)若此时临时队列中还存在未执行步骤c的电子卷宗,则依次执行步骤c至步骤d的操作后进入本步骤,否则,完成电子卷宗的编目操作,并将编目结果信息反馈至用户操作界面。

在本申请中,刑事案件的电子卷宗本身可以是电子化的数据文本,也可以是通过手动录入非电子载体的卷宗或扫描等方式将非电子载体的卷宗转化而成的电子化的数据文本,需要说明的是,本发明中所指的电子卷宗的汇编,是针对刑事案件的电子卷宗汇编,而众所周知,案件类型依照法律方面的定义可以区分为3类:刑事案件、民事按键、行政案件,与其他2类案件不同的地方在于,刑事案件当中,对于嫌疑人或者证人的调查取证以及各种证据的收集是格外重视,因此,刑事案件的电子卷宗如果采用和另外2种案件一样的编目方式,很可能会遗漏掉很多关键信息,降低编目的效率,不利于后期的卷宗调取,对刑事案件的审理和侦办带来了一定的不便性。

在本申请中,针对刑事案件的电子卷宗汇编,要与其他案件卷宗的识别采取区别化的处理对待,首先要将与其他案件一致的信息优先提取归类,而这部分信息主要集中在例如卷宗标题、汇编者、汇编机关等信息,其中,标题当中,可以根据nlp技术——bert,做与案情相关的信息分类,以获得更好的情节要素描述表示,为模型提供了要素信息优先级的解释,这样,能够从众多关键词中,提取出“案”、“案件”、“伤人”、“盗窃”等等与形式案件相关的内容,直接识别电子卷宗是否为刑事案件的卷宗。

可以尝试根据知识图谱中不同案件实体的相互关系,通过nlp(自然语言处理技术)自动实时、明确地对海量司法文本信息进行分析推导和提取融合,结合模式匹配的方法,运用正则表达式,抽取判决文书中的特定表述及要素,并运用命名实体识别技术为抽取出的实体进行类型标注。信息抽取技术是数据挖掘领域对半结构化、非结构化的文本数据进行预处理的关键技术,抽取的过程是指从文本中抽取指定的事件、事实等信息,并形成结构化存储的过程。

在法律情景之下,自然语言处理技术的实质是让机器模型能够从法律文书尤其是刑事案件电子卷宗的法律语言中准确提取相应情节。具体而言,就是基于设计好的刑事案件本体框架,将批量的裁判文书中半结构化、非结构化的数据进行语义标注与特征抽取,形成结构化程度较好且富含语义信息的标签存储于案例库,实现从“沉睡的”海量数据向支持模型运行的“有价值的”信息转化。

假设m为某个刑事案件电子卷宗对应的事实要素集合中的一个事实要素,其同义转写后得到m1...mn共n种表达,这n种表达中包含事实要素m以及事实要素m的同义词,对于每种表达,可基于bm25f、tf_idf等检索算法,从预先收集了案件相关词汇条目的永久存放数据库中进行检索,得到该表达对应的候选刑事案件关键词集合,最终得到m的候选刑事案件关键词集合wi,具体如下:

wi=wi1∪wi2∪...∪win,i∈[1,t],n∈[1,n]

而电子卷宗相关的刑事案件关键词集合w’,具体如下:

w'=w1∪w2∪...∪wt,t∈[1,t]

其中,w’为案由a相关的刑事案件关键词集合,m为案由a对应的事实要素集合中包含的事实要素的数量,wi为第i个事实要素的刑事案件关键词集合,n为第i个事实要素同义转写后得到的表达的数量,最终确定电子卷宗是否属于刑事案件以及属于哪类刑事案件。

自动识别系统应当预先录入已知、常见的标签名称,在录入电子卷宗时,识别对应的电子卷宗的标题,再将系统已有标签名称与电子卷宗标题利用短文本相似算法进行比对,比对结果大于设定的阈值时,判定初步标签名称和电子卷宗材料的标题相似度高,形成正确的标签匹配规则;比对结果不大于设定的阈值时,判定初步标签名称和电子卷宗材料标题相似度低,不形成标签匹配规则。

在识别完电子卷宗属于刑事案件的以后,就需要精准提取电子卷宗中文书的标题、页码、制作日期,自动识别及分析多份证据文书,精准提取笔录类文书中的取证对象、询问次数等,自动识别同名笔录;构建证据归类模型,自动实现八大证据的划分、排序,并生成证据目录,上述流程的执行,均基于存储器内的案由知识库中的知识对应的法律法规关系,用以辅助识别电子卷宗内与案件相关的信息。

案件在立案并且审理完成后,其基础信息可以通过量刑系统进行识别并且分析处理,而分析处理完后的数据与实际判决下来的裁决文书会存在一定的差异,在本发明公开的技术方案下,裁决文书里面涉及到案件本身的信息都会被精准提取并归纳整理,使之可以与案件卷宗进行挂钩,让整个案件可以通过智能系统的处理,案件信息全程都可以在信息电子化的便捷性下进行,更加方便快捷、且不易因人为失误而出错。

作为本发明进一步的技术方案,所述证据的种类划分为8种,并依照以下具体类别区分:

(一)物证;(二)书证;(三)证人证言;(四)被害人陈述;(五)犯罪嫌疑人、被告人供述和辩解;(六)鉴定意见;(七)勘验、检查、辨认、侦查实验等笔录;(八)视听资料、电子数据。

证据种类的划分,与标签的识别原理一致,自动识别系统应当预先录入已知、常见的证据种类名称,识别对应的电子卷宗内的证据名词,再将系统已有证据种类名称与电子卷宗内的证据名词利用短文本相似算法进行比对,判定初步标签名称和电子卷宗材料的标题相似度高,形成正确的标签匹配规则,反则反之,最终完成不同证据类型的分类整理工作,方便后续数据库直接根据相关标签直接定位调取对应的证据以及证据所在的电子卷宗。

本发明优选的实施例之一,所述用户的输入界面包括:通过直接连接或者无线连接从移动存储媒介或者是智能设备读取的录入端口,以及间接从扫描录入设备中读取电子文件的录入端口,由于卷宗在转变为电子卷宗以前,很有可能还是纸质卷宗,如果要录入这部分的卷宗资料,需要将纸质版转化为电子版,这就需要扫描录入设备,通过将印刷文字逐一识别,通过大数据比对分辨生僻字,做到精准识别文字,并且处理好文字之间的格式排版问题,使之与电子卷宗无异。

本发明优选的实施例之一,对步骤c和步骤d中建立的目录信息进行标签化,将标签化后的目录信息进行文本分析,去除掉非名词成分后仅保留名词成分,名词成分更容易被nlp分析算法进行分析处理,从而获得最为高效准确的电子标签,有利于数据库对电子卷宗的不同信息进行分类归纳。

本发明优选的实施例之一,所述目录信息转换为仅有名词成分的标签后,按照《现代汉语词典》中同义词或近义词的定义归类为单一词条集,并以该词条集中使用频度最高的词、以及使用频度处于中位与末位的名词作为词条集名,首先,频度最高的词肯定是平时应用中最为常见的词,也是最容易让办案人员进行摘取的有效用词,可以最快速度从数据库中找到相关电子卷宗,其次,频度高的词也是最容易进行归类的词,因此可以有效降低系统的执行程序的负担;而中位与末位的词则存在偶尔被人提及的可能,如果不能标签化,则需要选用的时候会极大拖慢电子卷宗的归档和调取速度,故而也有必要单独列出。

本发明优选的实施例之一,所述永久存储数据库按照5分钟至3个月范围内自定义的时间间隔,对目录信息按照时间顺序重新进行排列,并将所述自定义时间间隔内被调用最多的所述目录信息的频度进行统计,反馈至用户输入界面。

具体的,采用nlp分析算法对相互匹配的电子卷宗内信息类型进行分析处理,从而获得该电子卷宗中的各种类型信息诸如立案时间、案由、证据清单等等的所在位置;然后通过数字提取算法提取不同字段上对应的数据;将电子卷宗内所有的数据进行统计排序,可以从大到小排序,也可以从小大排序,并且需要将不同的电子卷宗转换成统一的格式,统一的单位格式,年或者月;然后对所有的同类数据,诸如案值、涉案人员数量等进行累加求平均值,获得最终的大数据平均值;根据排序结果中的最大值、最小值和计算得到的平均值来获取综合性的刑事案件资讯总结。

本发明还公开了一种存储器,其包括:一个或多个处理器以及一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行基于刑事案件电子卷宗的自动编目的方法。

其中,所述存储器包括但不限于硬盘和光盘。存储器可用于存储应用程序以及各功能模块,处理器运行存储在存储器的应用程序,从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括但不限于硬盘。外存储器可以包括但不限于光盘。本发明所公开的存储器只作为例子而非作为限定。

处理器是终端设备的控制中心,利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。

本发明具有的有益效果在于:为刑事案件电子卷宗的录入提供了一种更加具有条理化、清晰化以及高效化的录入流程方式,并且精确提取电子卷宗内的基础信息和案件信息,尤其起到很大作用的证据信息,全部针对性地建立准确的电子索引并将其目录化,方便存储器内的数据库系统对电子卷宗进行更有条目的分类以及存储,让电子卷宗的调取可以从更多的维度切入,使得更多的关键词信息都能成为指向性的向量值,方便办案人员在最短时间内将电子卷宗转化为数据库资料,以及在需要调取的时候也能以最短的时间获得需要的电子卷宗内的需要信息,同时,在针对智能量刑系统的整个案件处理流程方面,可以更加顺畅地完整进行,使得案件在立案到结案都能基于智能系统进行处理,让刑事案件的审理能够以最为效率的方式开展,为司法水平的提高提供有效助力。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1