文书间案情匹配方法、装置、设备及存储介质与流程

文档序号:24306792发布日期:2021-03-17 00:59阅读:105来源:国知局
文书间案情匹配方法、装置、设备及存储介质与流程

本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文书间案情匹配方法、装置、设备及存储介质。



背景技术:

检察院办案人员在对卷宗文书进行案情梳理过程中,需要从卷宗内大量的文书(一般包括起诉意见书、讯问笔录和询问笔录)中去检索案情描述片段,并对检索到的案情描述片段进行匹配,确定描述同一案情的案情描述片段。一般情况下,需要将询问/讯问笔录中的案情描述片段,与起诉意见书中的案情描述片段进行匹配。

通常情况下,一份卷宗内包含了数起、甚至是数十起作案,卷宗内笔录文书数量通常也有数十份之多。所以抽取并关联卷宗内所有相关的案情描述片段,需要耗费办案人员大量的时间和精力。



技术实现要素:

鉴于上述问题,提出了本申请以便提供一种文书间案情匹配方法、装置、设备及存储介质,以实现对文书间案情的自动匹配目的。具体方案如下:

一种文书间案情匹配方法,包括:

获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;

获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;

针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;

基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。

优选地,所述获取待匹配的两个案情片段及两个案情片段各自的案情特征,包括:

针对待匹配的两个目标文书,获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征;

对待匹配的两个目标文书间的案情片段进行两两组合,得到若干案情片段对,每一案情片段对作为一对待匹配的案情片段。

优选地,所述获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征,包括:

将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签;

所述多标签抽取模型为利用标注有案情标签及其各类型案情特征标签的训练文书训练得到。

优选地,所述各类型案情特征标签包括:

案情要素标签、实体标签、地点槽标签中的至少一种,其中所述案情要素标签和所述实体标签嵌套于所述案情片段标签中,所述地点槽标签嵌套于所述案情要素标签和所述实体标签中。

优选地,所述将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签,包括:

利用所述多标签抽取模型对所述目标文书进行编码,以及对设定的各标签进行编码;

基于目标文书的编码结果,以及各标签的编码结果,分别采用阅读理解的解码方式以及序列标注的解码方式进行解码,得到阅读理解解码结果以及序列标注解码结果;

结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,最终解码结果包括所述目标文书中包含的案情片段标签以及各类型案情特征标签。

优选地,所述结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,包括:

若确定阅读理解解码结果中一目标标签对应的答案个数少于序列标注解码结果中同一目标标签对应的答案个数,则基于所述序列标注解码结果对阅读理解解码中所述目标标签对应的答案进行修正,得到所述目标标签的修正后答案;

对于阅读理解解码结果与序列标注解码结果中,答案数量相同的标签,以阅读理解解码结果中标签对应的答案为最终答案。

优选地,所述将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签,包括:

采用滑窗的方式对所述目标文书进行拆分,并将拆分后的每一子目标文书片段输入预训练的多标签抽取模型,得到每一子目标文书片段的各标签抽取结果,所述各标签抽取结果包括案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签;

按照各子目标文书片段在所述目标文书中的先后顺序,将各子目标文书片段的相同标签的抽取结果进行合并,合并结果作为所述目标文书的各标签抽取结果。

优选地,获取案情片段的目标类型案情特征的匹配权重的过程,包括:

确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性;

按照差异性与匹配权重正相关的关系,确定所述案情片段的目标类型案情特征的匹配权重。

优选地,所述确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性,包括:

将所述案情片段所属文书中各不同案情片段进行两两组合,并确定每一案情片段组合的所述目标类型案情特征是否匹配;

基于不匹配的案情片段组合的个数,确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性。

优选地,所述针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果,包括:

针对待匹配的两个案情片段,分别计算每一类型案情特征的匹配度;

针对每一类型案情特征的匹配度:

利用两个案情片段各自的所述类型案情特征的匹配权重,对所述匹配度进行依次加权处理,得到所述类型案情特征的加权匹配结果。

一种文书间案情匹配装置,包括:

案情获取单元,用于获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;

匹配权重获取单元,用于获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;

加权匹配单元,用于针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;

匹配结果确定单元,用于基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。

一种文书间案情匹配设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现如上所述的文书间案情匹配方法的各个步骤。

一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的文书间案情匹配方法的各个步骤。

借由上述技术方案,本申请的文书间案情匹配方法,获取待匹配的两个案情片段及两个案情片段各自的案情特征,其中两个案情片段属于不同文书,进一步获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关,也即,若文书内各案情片段的目标类型案情特征的差异不大,则代表该目标类型案情特征对于文书内不同案情间的区分性不高,为此可以将目标类型案情特征的匹配权重设置小一些,反之,若文书内各案情片段的目标类型案情特征的差异很大,则代表该目标类型案情特征对于文书内不同案情间的区分性很高,为此可以将目标类型案情特征的匹配权重设置大一些,进一步针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果,基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。本案在进行文书间案情匹配的匹配时,考虑了文书内部不同案情片段间各类型案情特征的差异性,基于此设置各类型案情特征的匹配权重,通过该匹配权重可以提高文书内可区分性高的案情特征在最终匹配结果中所占的比重,以及降低文书内可区分性低的案情特征在最终匹配结果中所占的比重,很好的解决了由于不同案情片段的信息不均衡所导致的匹配结果不准确的问题。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本申请实施例提供的文书间案情匹配方法的一流程示意图;

图2示例了一种从目标文书中抽取案情标签、案情要素标签、实体标签、地点槽标签的过程示意图;

图3示例了一种多标签抽取模型对目标文书进行标签抽取的过程示意图;

图4示例了一种序列标注及阅读理解的解码结果对比图;

图5为本申请实施例提供的一种文书间案情匹配装置结构示意图;

图6为本申请实施例提供的文书间案情匹配设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供了一种文书间案情匹配方案,可以适用于司法卷宗文书间案情关联、匹配的任务。

一种示例的应用场景如,询问/询问笔录文书中包含有一个或多个案情片段,不同案情片段可能是描述同一案情也可能是描述不同案情。同理,起诉意见书中也可能包含一个或多个案情片段。检察院办案人员在进行案情梳理过程中,需要将询问/询问笔录文书中包含的案情片段抽取出来,并与起诉意见书中的案情片段进行匹配关联,也即确定出描述同一案情的不同案情片段。

本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。

接下来,结合图1所述,本申请的文本处理方法可以包括如下步骤:

步骤s100、获取待匹配的两个案情片段及两个案情片段各自的案情特征。

具体的,为了实现司法卷宗中跨文书间的案情匹配,本步骤中获取的待匹配的两个案情片段可以是属于不同的文书,示例如其中一个案情片段来源于询问/询问笔录,另一个案情片段来源于起诉意见书。

案情片段是用于描述案情的内容,以询问/询问笔录中的案情片段为例:“大概是8月中旬左右的一天下午,我和张三在朝阳路网吧上网,后来充的钱用完了,张三提议偷点东西去卖了换钱。看到一辆电动车,我俩就骑着跑了”

待匹配的两个案情片段可以是从文书中抽取出来的。案情片段的案情特征可以是基于案情片段的描述内容所确定的,案情特征的类型可以有多种,如案情要素、实体特征等,其中案情要素又可以包括多种不同的案情要素,如作案时间、作案工具等等。

步骤s110、获取每一案情片段的每一类型案情特征的匹配权重。

其中,案情特征的类型可以有多种,这里所述的每一类型案情特征即为每一种类型的案情特征。

在实际案情匹配过程中,申请人发现经常会出现待匹配的案情片段间案情信息不平衡的问题,影响匹配效果。以下述例子来说明案情信息不平衡的问题:

卷宗a内包含了文书a1,其包含案情片段a1_1,a1_2,a1_3,文书a2,其包含了案情片段a2_1,a2_2。

一般进行文书间案情匹配的方式,都是将其定义为两个案情文本片段之间的匹配,例如将a1_1与a2_2进行匹配,等等。具体匹配方式是确定案情片段的各类型的案情特征,然后根据案情片段对之间各自的案情特征进行相同类型案情特征的匹配,示例如,案情片段a1_1与a2_2的案情特征共有两种类型,分别为作案时间和作案工具这两种类型案情特征。则a1_1与a2_2之间进行匹配时,分别对作案时间这一类型的案情特征进行匹配,以及对作案工具这一类型的案情特征进行匹配。进一步的,基于各类型案情特征的匹配情况,确定最终匹配得分,当得分大于设定阈值则说明两个案情是匹配的,若低于设定阈值则说明是不匹配的。

申请人实际研究发现,这种匹配方式有一个非常严重的问题,即这种方法无法解决两个案情相似度高,却不是同案情的情况。假设文书a2中,a2_1,a2_2两个不同案情中包含的“作案时间”,“作案地点”,“嫌疑人名称”,均相同,只是“赃物”这一类型的案情特征不相同,因为存在三种类型的案情特征完全匹配,仅有一种类型的案情特征不匹配,按照上述匹配计算方式,可能会得到一个较高的匹配得分,进而错误的认为两个案情片段描述同一案情。

为了解决上述待匹配的案情片段间案情信息不平衡的问题,本步骤中获取每一案情片段的每一类型案情特征的匹配权重,其中,分别以每一类型案情特征作为目标类型案情特征,则目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关。示例如,案情片段的案情特征共有作案时间和作案工具这两种类型,则可以分别将作案时间和作案工具作为目标类型案情特征。

可以理解的是,若文书内各案情片段的目标类型案情特征的差异不大,则代表该目标类型案情特征对于文书内不同案情间的区分性不高,为此可以将目标类型案情特征的匹配权重设置小一些,反之,若文书内各案情片段的目标类型案情特征的差异很大,则代表该目标类型案情特征对于文书内不同案情间的区分性很高,为此可以将目标类型案情特征的匹配权重设置大一些。

按照本实施例的方式,针对上述示例中的案情片段a2_1,和a2_2,由于该两个案情片段对应的“作案时间”,“作案地点”,“嫌疑人名称”均相同,则表明“作案时间”,“作案地点”,“嫌疑人名称”这三个类型的案情特征对文书a2内不同案情片段的区分性较低,因此可以将三个类型的案情特征的匹配权重设置小一些。同理,由于“赃物”这一类型的案情特征不相同,则表明“赃物”这一类型的案情特征对文书a2内不同案情片段的区分性较高,因此可以将该类型案情特征的匹配权重设置大一些。

一目标类型的案情特征的匹配权重表示,目标类型的案情特征的匹配情况对两个案情片段的最终匹配结果的影响大小。

步骤s120、针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果。

具体的,本步骤中将两个案情片段进行同类型案情特征的匹配计算,并且每一类型案情特征的匹配计算过程使用两个案情片段各自该类型案情特征的匹配权重进行加权处理,进而得到每一类型案情特征的加权匹配结果。

一种可选的实施方式中,针对待匹配的两个案情片段,分别计算每一类型案情特征的匹配度。进一步,针对每一类型案情特征的匹配度:利用两个案情片段各自的所述类型案情特征的匹配权重,对所述匹配度进行依次加权处理,得到所述类型案情特征的加权匹配结果。

示例说明如下,定义待匹配的两个案情片段分别为案情片段1和案情片段2,以第i类型案情特征匹配过程为例进行说明:

计算案情片段1的第i类型案情特征与,案情片段2的第i类型案情特征的匹配度x,并使用案情片段1和案情片段2各自的第i类型案情特征的匹配权重q1和q2对匹配度x进行加权,得到第i类型案情特征的加权匹配结果:x*q1*q2。

步骤s130、基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。

具体的,可以基于各类型案情特征的加权匹配结果,确定两个案情片段的最终匹配结果。示例如,将各类型案情特征的加权匹配结果相加,结果作为最终匹配结果。

在确定了两个案情片段的最终匹配结果后,可以基于该最终匹配结果确定两个案情片段是否匹配,也即是否描述同一案情。

一种可选的方式下,可以预先设置匹配阈值,则基于最终匹配结果与匹配阈值的大小关系,确定两个案情片段是否匹配。

另一种可选的方式下,定义待匹配的两个案情片段分别为第一案情片段和第二案情片段,第一案情片段来源于第一目标文书,第二案情片段来源于第二目标文书。匹配场景是针对第一目标文书中的每一案情片段,在第二目标文书中确定与其匹配的案情片段。则本实施例中,将第二目标文书中的每一案情片段分别作为第二案情片段,与第一案情片段进行匹配计算,得到不同第二案情片段与第一案情片段的最终匹配结果。

在此基础上,可以筛选出最终匹配结果最高的topn个第二案情片段,作为与第一案情片段匹配的案情片段。

本申请实施例提供的文书间案情匹配方法,获取待匹配的两个案情片段及两个案情片段各自的案情特征,其中两个案情片段属于不同文书,进一步获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关,也即,若文书内各案情片段的目标类型案情特征的差异不大,则代表该目标类型案情特征对于文书内不同案情间的区分性不高,为此可以将目标类型案情特征的匹配权重设置小一些,反之,若文书内各案情片段的目标类型案情特征的差异很大,则代表该目标类型案情特征对于文书内不同案情间的区分性很高,为此可以将目标类型案情特征的匹配权重设置大一些,进一步针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果,基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。本案在进行文书间案情匹配的匹配时,考虑了文书内部不同案情片段间各类型案情特征的差异性,基于此设置各类型案情特征的匹配权重,通过该匹配权重可以提高文书内可区分性高的案情特征在最终匹配结果中所占的比重,以及降低文书内可区分性低的案情特征在最终匹配结果中所占的比重,很好的解决了由于不同案情片段的信息不均衡所导致的匹配结果不准确的问题。

在本申请的一些实施例中,介绍上述步骤s100,获取待匹配的两个案情片段及两个案情片段各自的案情特征的可选实施方式。

为了实现跨文书间案情片段的匹配,本实施例中针对待匹配的两个目标文书,获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征。进一步的,对待匹配的两个目标文书间的案情片段进行两两组合,得到若干案情片段对,每一案情片段对作为一对待匹配的案情片段。

接下来,以任意一个目标文书中案情片段及对应的案情特征的获取过程为例进行说明。

本实施例中将案情片段及案情特征的获取过程,通过标签抽取方式实现。也即,本申请可以预先训练多标签抽取模型,该多标签抽取模型利用训练文书训练得到,训练文书标注有案情标签及其各类型案情特征标签。

基于此,可以将目标文书输入多标签抽取模型,得到模型从目标文书中抽取的案情片段标签,以及从案情片段标签中抽取的各类型案情特征标签。

可以理解的是,案情片段标签以及不同类型的案情特征标签可以通过多个独立的标签抽取模型分别进行抽取。除此之外,本实施例中将多个标签抽取模型合并为一个端到端的多标签联合抽取模型。通过将多个独立的标签抽取模型合并为一个多标签联合抽取模型,使得模型调用效率极大提高,同时,多标签联合抽取模型能够学习到不同类型标签间的关联关系,从而进一步提高了各类型标签的抽取准确性。

多标签抽取模型所抽取的标签包括案情标签、各类型案情特征标签。其中,各类型案情标签包括但不限于以下任意一项或多项:

案情要素标签、实体标签、地点槽标签。

其中所述案情要素标签和所述实体标签嵌套于所述案情片段标签中,所述地点槽标签嵌套于所述案情要素标签和所述实体标签中。

其中,案情要素标签指案情片段中能够反映该案情描述的主要信息点的标签。

不同案由定义的案情要素标签不完全一致。不同案由中案情涉及的信息不同,所以能够利用来进行同案情判断的信息自然有所不同。案情要素标签的定义可以由专家根据真实场景下的数据进行分析,人工进行定义。以盗窃罪案由为例,可定义“作案时间”,“作案地点”,“赃物”,“嫌疑人名称”,“赃物价值”等多类案情要素标签。

实体标签可以是与具体案由无关,主要包括:”时间”,”地点“,“物品”,“人名”四类标签。其中案情要素标签和实体标签可以出现重合,例如“电动车”,即可以作为“赃物”案情要素标签,也可以作为“物品”这一实体标签。

地点槽标签是指对地点进行解析时所定义的标签,其包括“省”,“市”,“县/区”,“乡镇”,“相对位置”,“地点名”等9类标签,该类标签是对地点描述的解析,以案情片段内如下地址信息为例:“xx市xx区xx镇xx路xx弄xx号楼楼下”,其中“xx市”就是地点槽标签中的“市”标签,“xx区”是地点槽标签中的“县/区”标签,以此类推。该地点槽标签主要是对地点描述进行解析,形成可匹配的地点槽标签,然后实现地点的精确匹配。

本实施例中,多种标签构成了三层的嵌套关系。

图2示例了一种从目标文书中抽取案情标签、案情要素标签、实体标签、地点槽标签的过程。

目标文书可以是询问/讯问笔录,将目标文书输入抽取模型,也即上文的多标签抽取模型,即可得到模型输出的各类型标签。

图2示例的模型输出的各类型标签可以按照嵌套关系分为三层。

第一层即案情标签。

第二层嵌套于案情标签内,第二层为案情要素标签和实体标签。

需要说明的是,图2中为了方便表达,第二层不同的案情要素标签及实体标签均使用下划线标注,实际使用时可以通过不同的标记方式对不同标签进行标注。例如,使用不同颜色对不同标签进行标注。

第二层的案情要素标签及实体标签包括:“作案时间”:2016年8月10日左右,“嫌疑人名称”:我、李xx,“作案地点”:xx镇xx路xx弄xx网吧,“赃物”:一辆深红色电瓶车。

第三层嵌套于案情要素标签和实体标签内,第三层为地点槽标签。

需要说明的是,图2中为了方便表达,第三层示例的地点槽中不同的槽标签均使用加粗及倾斜标注,实际使用时可以通过不同的标记方式对不同槽标签进行标注。例如,使用不同颜色对不同槽标签进行标注。

进一步,结合图3,对多标签抽取模型对目标文书进行标签抽取的过程进行介绍。

s1,利用多标签抽取模型对目标文书进行编码,以及对设定的各标签进行编码。

本实施例中,可以使用预训练的bert模型对目标文书及标签进行编码。

bert模型要求输入的文本长度不能过长。而目标文书的长度并不固定,有的可能会达到上千或数千个字符,因此在使用bert模型进行编码时,需要将目标文书进行拆分。

本实施例中,提供了一种采用滑窗的方式对目标文书进行拆分,如图3所示。对于拆分后的每一子目标文书片段分别输入bert模型,得到每一子目标文书的各标签抽取结果,各标签抽取结果包括案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签。

在此基础上,多标签抽取模型分别对每一子目标文书片段进行多标签抽取,并按照各子目标文书片段在所述目标文书中的先后顺序,将各子目标文书片段的相同标签的抽取结果进行合并,合并结果作为所述目标文书的各标签抽取结果。

由于各类型标签名称都是预先设定好的,如“案情片段标签”、各类型的案情要素标签,如“作案时间”、“作案工具”等案情要素标签,以及实体标签等,因此可以将待抽取的各类型标签预先通过bert模型进行编码,得到m个不同类型标签的编码结果。

s2,基于目标文书的编码结果,以及各标签的编码结果,分别采用阅读理解的解码方式以及序列标注的解码方式进行解码,得到阅读理解解码结果以及序列标注解码结果。

具体的,本实施例中可以采用两种不同的解码方式分别进行解码,即分别采用阅读理解和序列标注两种解码方式进行解码。

其中,阅读理解解码方式能够输出标签对应答案的起终点位置。序列标注解码方式能够输出标签对应答案所占用的序列区间。

如图3所示的多标签解码层,针对每一标签均通过两种解码方式进行解码预测。以标签1预测过程为例,通过阅读理解解码方式可以预测标签1对应答案的起点位置和终点位置。通过序列标注解码方式可以预测标签1对应答案所占用的序列区间。

s3,结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,最终解码结果包括所述目标文书中包含的案情片段标签以及各类型案情特征标签。

需要说明的是,一个标签对应的答案数量可能是一个或多个。对于阅读理解解码结果与序列标注解码结果中,答案数量相同的标签,本实施例中可以以阅读理解解码结果中标签对应的答案为最终答案。当然,除此之外,还可以是以序列标注解码结果中标签对应的答案为最终答案,或者是,利用序列标注解码结果对阅读理解解码结果进行调整,以确定最终解码结果。

进一步,若确定阅读理解解码结果中一目标标签对应的答案个数少于序列标注解码结果中同一目标标签对应的答案个数,则基于所述序列标注解码结果对阅读理解解码中所述目标标签对应的答案进行修正,得到所述目标标签的修正后答案。

对于一目标标签对应的答案个数为多个的情况下,阅读理解的解码结果中可能会出现没有准确预测出答案一的终点位置和答案二的起点位置的情况,如图4所示,会错误的组合答案一的起点位置和答案二的终点位置,导致阅读理解预测的目标标签的答案出错。此时,本实施例中可以基于序列标注的解码方式给出的解码结果,对阅读理解的解码结果进行修正。

具体修正方式可以是,基于序列标注解码结果中各答案的起终点位置,对阅读理解解码结果中各答案的起终点位置进行修正。

由上可知,本实施例提供的多标签抽取模型,通过融合阅读理解和序列标注两种解码方式,能够很好的解决标签对应答案跨滑窗的情况。同时,在面对同一标签存在多个答案时,单一阅读理解解码方式容易解码错误,本实施例通过进一步融合序列标注解码方式,能够提高解码结果的准确率。

在本申请的一些实施例中,对上述s110,获取每一案情片段的每一类型案情特征的匹配权重的过程进行介绍。

以获取案情片段的一目标类型案情特征的匹配权重的过程为例进行说明:

s1,确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性。

具体的,案情片段的目标类型案情特征所对应的匹配权重大小是取决于文书内各不同案情片段的目标类型案情特征间的差异情况(或相似情况)。

一种可选的实施方式,可以将所述案情片段所属文书中各不同案情片段进行两两组合,并确定每一案情片段组合的所述目标类型案情特征是否匹配。基于不匹配的案情片段组合的个数,确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性。

其中,若存在一案情片段组合,其包含的两个案情片段中有一案情片段不具备目标类型案情特征,则忽略该案情片段组合,不计入不匹配案情片段组合的个数内。示例如,目标类型案情特征为“作案时间”特征,一案情片段组合中存在一案情片段描述内容中没有提及“作案时间”相关信息,则该案情片段不具备“作案时间”特征。该案情片段组合不计入匹配案情片段组合的个数内。

s2,按照差异性与匹配权重正相关的关系,确定所述案情片段的目标类型案情特征的匹配权重。

具体的,案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性越大,代表该目标类型案情特征对文书内各案情片段的区分性越高,因此在跨文书进行案情匹配时该目标类型案情特征的匹配权重应该越高。

参照下述公式,其示例了一种匹配权重与差异性间正相关的函数关系:

其中,i表示第i种类型的案情特征,wi表示第i种类型的案情特征的匹配权重,n表示案情片段所属文书内包含的案情片段的总个数,ui表示案情片段所属文书内第i种类型的案情特征不匹配的案情片段组合的数量,m为预设参数,m取值越大,表示匹配权重变化区间越大。

可以理解的是,上述公式仅仅示例了匹配权重与差异性的一种可选函数关系,除此之外,还可以通过其它正相关函数来表示二者间的函数关系。

本实施例中提供了一种匹配权重的动态调整方案,也即,能够根据案情片段所属文书内,各案情片段的所述目标类型案情特征的差异性,动态设置案情片段的目标类型案情特征的匹配权重,有利于解决跨文书间案情匹配中案情信息不平衡导致的匹配效果差的问题。

下面对本申请实施例提供的文书间案情匹配装置进行描述,下文描述的文书间案情匹配装置与上文描述的文书间案情匹配方法可相互对应参照。

参见图5,图5为本申请实施例公开的一种文书间案情匹配装置结构示意图。

如图5所示,该装置可以包括:

案情获取单元11,用于获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;

匹配权重获取单元12,用于获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;

加权匹配单元13,用于针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;

匹配结果确定单元14,用于基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。

可选的,上述案情获取单元获取待匹配的两个案情片段及两个案情片段各自的案情特征的过程,可以包括:

针对待匹配的两个目标文书,获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征;

对待匹配的两个目标文书间的案情片段进行两两组合,得到若干案情片段对,每一案情片段对作为一对待匹配的案情片段。

可选的,上述案情获取单元获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征的过程,可以包括:

将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签;

所述多标签抽取模型为利用标注有案情标签及其各类型案情特征标签的训练文书训练得到。

可选的,上述各类型案情特征标签可以包括:

案情要素标签、实体标签、地点槽标签中的至少一种,其中所述案情要素标签和所述实体标签嵌套于所述案情片段标签中,所述地点槽标签嵌套于所述案情要素标签和所述实体标签中。

可选的,上述案情获取单元将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签的过程,可以包括:

利用所述多标签抽取模型对所述目标文书进行编码,以及对设定的各标签进行编码;

基于目标文书的编码结果,以及各标签的编码结果,分别采用阅读理解的解码方式以及序列标注的解码方式进行解码,得到阅读理解解码结果以及序列标注解码结果;

结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果,最终解码结果包括所述目标文书中包含的案情片段标签以及各类型案情特征标签。

可选的,上述案情获取单元结合所述阅读理解解码结果以及序列标注解码结果,确定最终解码结果的过程,可以包括:

若确定阅读理解解码结果中一目标标签对应的答案个数少于序列标注解码结果中同一目标标签对应的答案个数,则基于所述序列标注解码结果对阅读理解解码中所述目标标签对应的答案进行修正,得到所述目标标签的修正后答案;

对于阅读理解解码结果与序列标注解码结果中,答案数量相同的标签,以阅读理解解码结果中标签对应的答案为最终答案。

可选的,上述案情获取单元将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签的过程,可以包括:

采用滑窗的方式对所述目标文书进行拆分,并将拆分后的每一子目标文书片段输入预训练的多标签抽取模型,得到每一子目标文书片段的各标签抽取结果,所述各标签抽取结果包括案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签;

按照各子目标文书片段在所述目标文书中的先后顺序,将各子目标文书片段的相同标签的抽取结果进行合并,合并结果作为所述目标文书的各标签抽取结果。

可选的,上述匹配权重获取单元获取案情片段的目标类型案情特征的匹配权重的过程,可以包括:

确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性;

按照差异性与匹配权重正相关的关系,确定所述案情片段的目标类型案情特征的匹配权重。

可选的,上述匹配权重获取单元确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性的过程,可以包括:

将所述案情片段所属文书中各不同案情片段进行两两组合,并确定每一案情片段组合的所述目标类型案情特征是否匹配;

基于不匹配的案情片段组合的个数,确定所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性。

可选的,上述加权匹配单元针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果的过程,可以包括:

针对待匹配的两个案情片段,分别计算每一类型案情特征的匹配度;

针对每一类型案情特征的匹配度:

利用两个案情片段各自的所述类型案情特征的匹配权重,对所述匹配度进行依次加权处理,得到所述类型案情特征的加权匹配结果。

本申请实施例提供的文书间案情匹配装置可应用于文书间案情匹配设备,如终端:手机、电脑等。可选的,图6示出了文书间案情匹配设备的硬件结构框图,参照图6,文书间案情匹配设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;

获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;

针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;

基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:

获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;

获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;

针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;

基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1