裁判文书检索方法和装置与流程

文档序号:12596326阅读:302来源:国知局
裁判文书检索方法和装置与流程

本申请涉及数据处理领域,具体而言,涉及一种裁判文书检索方法和装置。



背景技术:

自2014年以来,在最高人民法院的要求下,各级人民法院在互联网上开始逐步大规模地公开生效判决文书。大量已生效裁判文书对法官、律师、法学研究人员等法律工作者的法律实践而言,具有很高的借鉴意义和研究价值。因裁判文书为长文本数据,因此信息检索技术在这一方面得到广泛应用。

然而,传统的裁判文书检索仅仅止步于命中,即返回与用户检索条件相匹配的全部文书。倘若符合条件的文书数量有很多篇,无法在搜索结果页面的前几页展示完全,目前的技术只能根据相关性对这些文书进行展示优先级的排序。这种检索方式仅仅以关键词所衡量的相关性作为排序的基准,忽略了裁判文书包含的其他特性,也忽略了用户的真正需求。我国并非判例法系国家,法官在裁判过程中需要严格依据法律规定进行说理推断,因而用户希望看到的是那些说理充分、有重要影响的案件。

针对相关技术中对裁判文书的检索结果进行排序时准确性较低的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请的主要目的在于提供一种裁判文书检索方法和装置,以解决相关技术中对裁判文书的检索结果进行排序时准确性较低的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种裁判文书检索方法。该方法包括:获取与检索词匹配的裁判文书集合;计算裁判文书集合中每篇裁判文书的相关性分值和复杂度,其中,相关性分值用于表示裁判文书与检索词的匹配度,复杂度用于表示裁判文书的复杂程度;分别根据相关性分值和复杂度计算裁判文书集合中每篇裁判文书的修正相关性分值,得到分别与裁判文书集合中多篇裁判文书对应的多个修正相关性分值;根据多个修正相关性分值对裁判文书集合中的裁判文书进行排序,得到排序结果;以及根据排序结果显示裁判文书集合中的裁判文书。

进一步地,裁判文书集合中包括第一裁判文书,计算裁判文书集合中每篇裁判文书的复杂度包括:获取第一裁判文书的指标参数,其中,指标参数包括如下参数的至 少之一:第一裁判文书的长度、第一裁判文书的适用法条数和第一裁判文书的诉讼金额;以及根据指标参数计算第一裁判文书的复杂度。

进一步地,根据指标参数计算第一裁判文书的复杂度包括:获取指标参数中各个参数的权重;以及根据指标参数中各个参数的值及各个参数的权重计算第一裁判文书的复杂度。

进一步地,该方法还包括:按照以下预设规则设置权重:计算多个预设裁判文书集合中每篇裁判文书的相关性分值,其中,多个预设裁判文书集合为分别与多个预设训练词匹配的多个裁判文书集合;计算多个预设裁判文书集合中每篇裁判文书的复杂度,其中,根据指标参数中各个参数的值及各个参数的初始权重计算复杂度,每篇参与计算的裁判文书使用的指标参数对应一致,并且指标参数中相同参数的初始权重相等;根据多个预设裁判文书集合中每篇裁判文书的相关性分值和对应的复杂度计算多个预设裁判文书集合中每篇裁判文书的修正相关性分值,并确定各个预设裁判文书集合中修正相关性分值排序靠前的第一预设数量的裁判文书;根据各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序和基准排序,修正各个参数的初始权重;以及分别将修正后的各个参数的初始权重作为各个参数的权重,相同参数修正后的权重相等。

进一步地,根据各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序和基准排序,修正各个参数的初始权重包括:计算各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序与基准排序不同的比率值,得到多个比率值;判断多个比率值是否均小于预设阈值;在判断出多个比率值中存在大于预设阈值的比率值时,修正各个参数的初始权重;以及在判断出多个比率值均小于预设阈值时,结束对各个参数的初始权重的修正。

为了实现上述目的,根据本申请的另一方面,提供了一种裁判文书检索装置。该装置包括:获取单元,用于获取与检索词匹配的裁判文书集合;第一计算单元,用于计算裁判文书集合中每篇裁判文书的相关性分值和复杂度,其中,相关性分值用于表示裁判文书与检索词的匹配度,复杂度用于表示裁判文书的复杂程度;第二计算单元,用于分别根据相关性分值和复杂度计算裁判文书集合中每篇裁判文书的修正相关性分值,得到分别与裁判文书集合中多篇裁判文书对应的多个修正相关性分值;排序单元,用于根据多个修正相关性分值对裁判文书集合中的裁判文书进行排序,得到排序结果;以及显示单元,用于根据排序结果显示裁判文书集合中的裁判文书。

进一步地,裁判文书集合中包括第一裁判文书,第一计算单元包括:获取模块,用于获取第一裁判文书的指标参数,其中,指标参数包括如下参数的至少之一:第一裁判文书的长度、第一裁判文书的适用法条数和第一裁判文书的诉讼金额;以及第一 计算模块,用于根据指标参数计算第一裁判文书的复杂度。

进一步地,第一计算模块包括:获取子模块,获取指标参数中各个参数的权重;以及计算子模块,用于根据指标参数中各个参数的值及各个参数的权重计算第一裁判文书的复杂度。

进一步地,该装置还包括:第三计算单元,用于计算多个预设裁判文书集合中每篇裁判文书的相关性分值,其中,多个预设裁判文书集合为分别与多个预设训练词匹配的多个裁判文书集合;第四计算单元,用于计算多个预设裁判文书集合中每篇裁判文书的复杂度,其中,根据指标参数中各个参数的值及各个参数的初始权重计算复杂度,每篇参与计算的裁判文书使用的指标参数对应一致,并且指标参数中相同参数的初始权重相等;第五计算单元,用于根据多个预设裁判文书集合中每篇裁判文书的相关性分值和对应的复杂度计算多个预设裁判文书集合中每篇裁判文书的修正相关性分值,并确定各个预设裁判文书集合中修正相关性分值排序靠前的第一预设数量的裁判文书;修正单元,用于根据各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序和基准排序,修正各个参数的初始权重;以及确定单元,用于分别将修正后的各个参数的初始权重作为各个参数的权重,相同参数修正后的权重相等。

进一步地,修正单元包括:第二计算模块,用于计算各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序与基准排序不同的比率值,得到多个比率值;判断模块,用于判断多个比率值是否均小于预设阈值;以及修正模块,用于在判断出多个比率值中存在大于预设阈值的比率值时,修正各个参数的初始权重,在判断出多个比率值均小于预设阈值时,结束对各个参数的初始权重的修正。

本申请通过获取与检索词匹配的裁判文书集合;计算裁判文书集合中每篇裁判文书的相关性分值和复杂度,其中,相关性分值用于表示裁判文书与检索词的匹配度,复杂度用于表示裁判文书的复杂程度;分别根据相关性分值和复杂度计算裁判文书集合中每篇裁判文书的修正相关性分值,得到分别与裁判文书集合中多篇裁判文书对应的多个修正相关性分值;根据多个修正相关性分值对裁判文书集合中的裁判文书进行排序,得到排序结果;以及根据排序结果显示裁判文书集合中的裁判文书,解决了相关技术中对裁判文书的检索结果进行排序时准确性较低的问题,进而达到了提高对裁判文书的检索结果排序的准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的裁判文书检索方法的流程图;

图2是根据本申请实施例的按照预设规则设置权重的流程图;以及

图3是根据本申请实施例的裁判文书检索装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种裁判文书检索方法,图1是根据本申请实施例的裁判文书检索方法的流程图。如图1所示,该方法包括如下的步骤S102至步骤S110:

步骤S102:获取与检索词匹配的裁判文书集合。

本申请实施例的检索词为用于裁判文书的检索的关键词,检索词可以是一个,也可以是多个。在进行文书检索时,通常先接收用户输入的检索词,并根据该检索词从裁判文书数据库中获取与该检索词匹配的裁判文书。可选地,可以获取包含该检索词的裁判文书,也可以是获取包含该检索词的部分内容的裁判文书,例如,检索词为合同无效,则可以获取包含合同无效的裁判文书组成裁判文书集合,也可以是获取包含合同无效的裁判文书和同时包含合同和无效的裁判文书共同组成裁判文书集合。

步骤S104:计算裁判文书集合中每篇裁判文书的相关性分值和复杂度,其中,相关性分值用于表示裁判文书与检索词的匹配度,复杂度用于表示裁判文书的复杂程度。

本申请实施例的相关性分值用于衡量裁判文书与检索词的匹配度,相关性分值越 大,则说明裁判文书与检索词的匹配度越高,相关性分值越小,则说明裁判文书与检索词的匹配度越低。可选地,可以通过统计裁判文书中检索词出现的次数和完整度来计算相关性分值,其中,裁判文书中检索词出现的次数越多和完整度越高,则该裁判文书的相关性分值越高。

通常,那些说理充分、有重要影响的案件对于用户来说具有较高的借鉴意义和研究价值,因此,本申请实施例在进行裁判文书检索时,综合考虑了每篇裁判文书的相关性分值和复杂度来返回检索结果,以提高返回的裁判文书的针对性。本申请实施例的复杂度用于衡量裁判文书的复杂程度,例如,裁判文书案情的复制程度和重要程度,具体地,可以通过一些指标参数来衡量裁判文书的复杂度,例如,涉案金额、适用法条数、裁判文书长度等。实际情况中,可以根据需求选择适用的指标参数,例如,可以选择某一个指标参数来计算裁判文书的复杂度,也可以选择多个指标参数共同来计算裁判文书的复杂度。

步骤S106:分别根据相关性分值和复杂度计算裁判文书集合中每篇裁判文书的修正相关性分值,得到分别与裁判文书集合中多篇裁判文书对应的多个修正相关性分值。

例如,可以将裁判文书的相关性分值和复杂度相乘得到该裁判文书的修正相关性分值。在本申请实施例中,裁判文书集合中每篇裁判文书都对应于一个修正相关性分值,其中,裁判文书对应的修正相关性分值为根据其相关性分值和复杂度计算得到修正相关性分值。

步骤S108:根据多个修正相关性分值对裁判文书集合中的裁判文书进行排序,得到排序结果。

步骤S110:根据排序结果显示裁判文书集合中的裁判文书。

具体地,可以是将修正相关性分值大的裁判文书显示在搜索结果的前面位置,从而便于用户直观地查看那些案情较为复杂、借鉴意义较大的裁判文书。

本申请实施例通过获取与检索词匹配的裁判文书集合;计算裁判文书集合中每篇裁判文书的相关性分值和复杂度,其中,相关性分值用于表示裁判文书与检索词的匹配度,复杂度用于表示裁判文书的复杂程度;分别根据相关性分值和复杂度计算裁判文书集合中每篇裁判文书的修正相关性分值,得到分别与裁判文书集合中多篇裁判文书对应的多个修正相关性分值;根据多个修正相关性分值对裁判文书集合中的裁判文书进行排序,得到排序结果;以及根据排序结果显示裁判文书集合中的裁判文书。本申请实施例通过裁判文书的复杂度对裁判文书的相关性分值进行修正,并根据修正相关性分值对检索结果进行排序显示,相比于现有技术中仅根据相关性对检索结果进行排序,更契合用户的检索需求,解决了相关技术中对裁判文书的检索结果进行排序时 准确性较低的问题,进而达到了提高对裁判文书的检索结果排序的准确性的效果。

优选地,裁判文书集合中包括第一裁判文书,计算裁判文书集合中每篇裁判文书的复杂度包括:获取第一裁判文书的指标参数,其中,指标参数包括如下参数的至少之一:第一裁判文书的长度、第一裁判文书的适用法条数和第一裁判文书的诉讼金额;以及根据指标参数计算第一裁判文书的复杂度。

第一裁判文书可以是裁判文书集合中任意一篇裁判文书。第一裁判文书的长度可以是第一裁判文书的全文长度,也可以是第一裁判文书法理论述部分的长度,具体地,可以通过统计字数作为其长度。第一裁判文书的适用法条数可以通过预设信息提取规则提取裁判文书中的法条序号进行统计,可选地,可以将不同法律的相同法条序号和相同法律的不同法条序号均进行统计。第一裁判文书的诉讼金额是指第一裁判文书中涉及的费用,例如,案件受理费、赔偿费、罚款等。可选地,如果涉及到诉讼费用减半的情形,所提取金额应还原至减半前。例如,一篇裁判文书的部分内容如下:

“本院认为,原告杜某与被告刘某登记结婚近七年,婚后建立了一定的夫妻感情。原告虽主张被告离家出走但未举证证明,不予认可。原告请求离婚不具备法定条件,不予支持。依照《中华人民共和国婚姻法》第三十二条,《中华人民共和国民事诉讼法》第一百四十四条之规定,判决如下:

不准原告杜某与被告刘某离婚。

案件受理费300元,由原告承担。

如不服本判决,可在判决书送达之日起十五日内向本院递交上诉状,并按对方当事人的人数提出副本,上诉于山东省潍坊市中级人民法院。”

对于该篇裁判文书来说,其长度为216,适用法条数为2(即《中华人民共和国婚姻法》第三十二条和《中华人民共和国民事诉讼法》第一百四十四条),诉讼金额为300。

优选地,根据指标参数计算第一裁判文书的复杂度包括:获取指标参数中各个参数的权重;以及根据指标参数中各个参数的值及各个参数的权重计算第一裁判文书的复杂度。

具体地,本申请实施例的指标参数中各个参数可以是任意两个不同的指标参数,例如,适用法条数和诉讼金额,也可以是任意两个以上的不同的指标参数,例如,适用法条数、诉讼金额和文书长度。各个参数的值是指对于具体的裁判文书来说,每个参数的取值,例如,对于裁判文书1,其适用法条数的值为A1,其诉讼金额的值为B1,对于裁判文书2,其适用法条数的值为A2,其诉讼金额的值为B2。各个参数的 权重可以是根据经验预设的值,也可以是根据预设规则训练得到的值。

例如,可以采用如下公式计算第一裁判文书的复杂度:

C=ln(pL·L+1)·ln(pM·M+1)·ln(pN·N+1),其中,C表示第一裁判文书的复杂度,L、M、N分别表示第一裁判文书的长度、第一裁判文书的适用法条数和第一裁判文书的诉讼金额,pL、pM、pN分别表示第一裁判文书的长度、第一裁判文书的适用法条数和第一裁判文书的诉讼金额的权重。

优选地,为了进一步提高检索结果排序的准确性,本申请在接收检索词进行裁判文书检索前,还可以按照以下预设规则设置权重:计算多个预设裁判文书集合中每篇裁判文书的相关性分值,其中,多个预设裁判文书集合为分别与多个预设训练词匹配的多个裁判文书集合;计算多个预设裁判文书集合中每篇裁判文书的复杂度,其中,根据指标参数中各个参数的值及各个参数的初始权重计算复杂度,每篇参与计算的裁判文书使用的指标参数对应一致,并且指标参数中相同参数的初始权重相等;根据多个预设裁判文书集合中每篇裁判文书的相关性分值和对应的复杂度计算多个预设裁判文书集合中每篇裁判文书的修正相关性分值,并确定各个预设裁判文书集合中修正相关性分值排序靠前的第一预设数量的裁判文书;根据各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序和基准排序,修正各个参数的初始权重;以及分别将修正后的各个参数的初始权重作为各个参数的权重,相同参数修正后的权重相等。

预设训练词是用于上述权重训练的关键词,本申请实施例预先设置一组用于权重训练的关键词,并分别获取各个预设训练词对应的预设裁判文书集合,其中,预设裁判文书集合中每一篇裁判文书均为与其对应的预设训练词匹配的裁判文书,例如,一组预设训练词中包括预设训练词a和预设训练词b,获取与预设训练词a匹配的裁判文书组成预设裁判文书集合a,获取与预设训练词b匹配的裁判文书组成预设裁判文书集合b。

在得到多个预设裁判文书集合之后,计算多个预设裁判文书集合中每篇裁判文书的相关性分值和复杂度。具体地,裁判文书的相关性分值和复杂度的计算方法同上,在此不再赘述,需要说明的是,对于不同的裁判文书,选取的指标参数相同,相同指标参数的初始权重也相同,例如,对于裁判文书1,其选取的指标参数为适用法条数和诉讼金额,其中,适用法条数的初始权重为x,诉讼金额的初始权重为y,则对于裁判文书2,其选取的指标参数也为适用法条数和诉讼金额,并且适用法条数的初始权重为x,诉讼金额的初始权重为y,各个参数的初始权重可以是(0,1)区间内任意一个数值。

在得到各个预设裁判文书集合中每篇裁判文书的相关性分值和复杂度之后,计算每篇裁判文书的修正相关性分值,例如,可以将裁判文书的相关性分值和复杂度相乘得到其修正相关性分值。在得到多个预设裁判文书集合中每篇裁判文书的修正相关性分值之后,确定各个预设裁判文书集合中修正相关性分值排序靠前的第一预设数量的裁判文书。

例如,预设裁判文书集合a中存在100篇裁判文书,预设裁判文书集合b中存在130篇裁判文书,分别按照预设裁判文书集合a中100篇裁判文书的修正相关性分值进行排序和按照预设裁判文书集合b中130篇裁判文书的修正相关性分值进行排序,并分别确定预设裁判文书集合a和预设裁判文书集合b中排序靠前的10篇裁判文书。

本申请实施例的基准排序为用户预设的排序,用于衡量上述按照修正相关性分值排序的排序结果的准确性,具体地,可以通过统计按照修正相关性分值排序和基准排序相同的比率或是不同的比率来确定按照修正相关性分值排序的排序结果的准确性。

例如,预设训练词“合同无效”所返回的修正相关性分值排序靠前的10篇裁判文书A1至A10,A1至A10按照修正相关性分值排序为:A1>A2>A3>A4>A5>A6>A7>A8>A9>A10,A1至A10的基准排序为A2>A3>A1>A5>A6>A4>A7>A8>A10>A9。根据排列原理,10篇裁判文书A1至A10存在45种排序方式,例如,A2>A3,A8>A10等,由上可以看出,A1至A10按照修正相关性分值排序和基准排序中存在41个相同的排序,存在4个不同的排序,即A2和A1、A3和A1、A5和A4、A6和A4的排序不同,因此,按照修正相关性分值排序和基准排序相同的比率为91%,不同的比率为9%。

优选地,根据各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序和基准排序,修正各个参数的初始权重包括:计算各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序与基准排序不同的比率值,得到多个比率值;判断多个比率值是否均小于预设阈值;在判断出多个比率值中存在大于预设阈值的比率值时,修正各个参数的初始权重;以及在判断出多个比率值均小于预设阈值时,结束对各个参数的初始权重的修正。

按照上述方式分别统计各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序和基准排序不同的比率值,并与预设阈值进行比较,其中,预设阈值可以根据实际情况进行设置,例如,5%,8%等。

例如,预设阈值为5%,预设裁判文书集合a中按照修正相关性排序靠前的10篇裁判文书A1至A10,A1至A10按照修正相关性排序的排序结果和其基准排序不同的比率为12%,即比率值a为12%;预设裁判文书集合b中按照修正相关性排序靠前的 10篇裁判文书B1至B10,B1至B10按照修正相关性排序的排序结果和其基准排序不同的比率为20%,即比率值b为20%,由此可以看出,比率值a和比率值b均大于预设阈值,此时需要对上述各个参数的初始权重进行修正,例如,修正上述公式中pL、pM、pN三个初始权重。

具体地,本申请实施例在对上述各个参数的初始权重进行修正之后,通过修正后的各个参数的初始权重重新计算多个预设裁判文书集合中每篇裁判文书的复杂度,重复执行上述步骤,直至各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序与基准排序不同的比率值均小于预设阈值,此时,将最后修正得到的各个参数的初始权重作为各个参数的权重。

需要说明的是,对上述各个参数的初始权重的修正可以是按照预设步长调整各个参数的初始权重的值,也可以是人工调整各个参数的初始权重的值。

图2是根据本申请实施例的按照预设规则设置权重的流程图。如图2所示,按照预设规则设置权重包括如下步骤:

步骤S202:获取一组裁判文书。

可选地,可以将上述裁判文书按其唯一标识对应存储至内存或硬盘数据库或数据结构中。

步骤S204:遍历该组裁判文书,提取每篇裁判文书的全文长度L、适用法条数N和诉讼金额M。

具体地,遍历该组裁判文书,对每篇裁判文书执行如下操作:一,提取该篇文书的全文长度,记为L;二,提取该篇文书的裁判适用法条,记录适用法条的总数N,其中,同一部法律的多个法条视为多条;三,提取该篇文书的诉讼金额M,其中,涉及到诉讼费用减半情形时,所提取的金额应还原至减半前的水平。需要说明的是,可以将上述提取的三项指标参数,均对应存储至其对应的裁判文书记录所属字段中。

步骤S206:获取预设的三个初始参数pL、pN、pM,计算当前裁判文书的复杂度指标C。

具体地,复杂度指标C即复杂度,在步骤S204的遍历过程中,按预先给定的三个初始参数(即初始权重)pL、pN、pM,计算当前裁判文书的复杂度指标C,计算公式如下:

C=ln(pL·L+1)·ln(pM·M+1)·ln(pN·N+1),其中,L、M、N分别表示当前裁判文书的长度、当前裁判文书的适用法条数和当前裁判文书的诉讼金额,pL、pM、pN分别表示当前裁判文书的长度、当前裁判文书的适用法条数和当前裁判文书的诉讼金额 的初始权重。在得到当前裁判文书的复杂度指标C之后,也对应存储至当前裁判文书记录所属的字段中,其中,当前裁判文书即当前被处理的裁判文书。

步骤S208:给定一组预设训练词,获取其匹配文书的相关性分值,将其相关性分值和其复杂度指标C相乘,得到修饰相关性分值,在获得所有匹配文书的修饰相关性分值之后,按照修饰相关性分值从高到低,推送前10篇匹配文书。

具体地,以下以一个预设训练词为例进行说明,例如,对于预设训练词“合同无效”,可以对存储的裁判文书进行全文检索,获取其匹配文书(即与预设训练词匹配的裁判文书)的相关性分值,其中,在匹配文书中预设训练词出现的次数越多、越完整,其相关性分值越高。对预设训练词对应的每篇匹配文书,将其相关性分值与该匹配文书的复杂度指标C相乘,得到修饰后的相关性分值,记为修饰相关性分值(即修正相关性分值)。

在对与预设训练词匹配的全部裁判文书执行上述处理,得到所有匹配文书的修饰相关性分值之后,将所有匹配文书按照修饰相关性分值从高到低排序,推送其中前10篇匹配文书。对该组预设训练词中的每个预设训练词均执行上述处理,从而可以得到每个预设训练词对应的前10篇匹配文书。

步骤S210:对每个预设训练词对应的前10篇匹配文书,通过人工方式进行排序,并计算人工方式排序与按照修饰相关性分值排序不同的比例accu%。

具体地,对于步骤S208中每个预设训练词对应的前10篇匹配文书,通过人工方式进行排序(即基准排序),例如,预设训练词“合同无效”所返回的修正相关性分值排序靠前的10篇裁判文书A1至A10,A1至A10按照修正相关性分值排序为:A1>A2>A3>A4>A5>A6>A7>A8>A9>A10,A1至A10按照人工方式进行排序为A2>A3>A1>A5>A6>A4>A7>A8>A10>A9。

具体地,对全部的预设训练词对应的前10篇匹配文书,分别计算人工方式排序与按照修饰相关性分值排序不同的比例accu%。

步骤S212:以accu%的最小化为目标函数,梯度调整三个参数pL、pN、pM的初始值,获得三个参数的最优解pL’、pN’、pM’。

其中,上述三个参数的最优解pL’、pN’、pM’即上述指标参数对应的权重。

具体地,可以将各个预设训练词对应的accu%分别与预设阈值比较,如果各个预设训练词对应的accu%均小于预设阈值,则无需对pL、pN、pM进行修正,当前的pL、pN、pM即为最优解,如果各个预设训练词对应的accu%中存在大于预设阈值的accu%,则修正三个参数pL、pN、pM,并通过修正后的pL、pN、pM重新计算每篇匹配文书 的复杂度,即重复执行上述步骤S206至步骤S212直至各个预设训练词对应的accu%均小于预设阈值,此时对应的pL、pN、pM即为最优解。

步骤S214:按照pL’、pN’、pM’,重新遍历全部裁判文书并计算其复杂度指标。

需要说明的是,在用户检索过程中,将相关性分值与新的复杂度指标相乘,得到新的修正相关性分值,并按照该分值对匹配结果进行排序和展现。

本申请实施例是一种融合裁判文书重要性(即复杂度)的排序方式,该方式在传统全文检索相关性排序的基础上,加入衡量裁判文书重要性的指标(例如,长度、涉案金额、适用法条数量等),并结合人工判定和求目标函数最优解的方式调整相关参数取值,以求得最佳效果,使得裁判文书的排序结果更契合用户的检索需求。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例的另一方面,提供了一种裁判文书检索装置,该裁判文书装置可以用于执行本申请实施例的裁判文书检索方法,本申请实施例的裁判文书检索方法也可以通过本申请实施例的裁判文书检索装置来执行。

图3是根据本申请实施例的裁判文书检索装置的示意图,如图3所示,该装置包括:获取单元10、第一计算单元20、第二计算单元30、排序单元40和显示单元50。

获取单元10,用于获取与检索词匹配的裁判文书集合。

本申请实施例的检索词为用于裁判文书的检索的关键词,检索词可以是一个,也可以是多个。在进行文书检索时,通常先接收用户输入的检索词,并根据该检索词从裁判文书数据库中获取与该检索词匹配的裁判文书。可选地,可以获取包含该检索词的裁判文书,也可以是获取包含该检索词的部分内容的裁判文书,例如,检索词为合同无效,则可以获取包含合同无效的裁判文书组成裁判文书集合,也可以是获取包含合同无效的裁判文书和同时包含合同和无效的裁判文书共同组成裁判文书集合。

第一计算单元20,用于计算裁判文书集合中每篇裁判文书的相关性分值和复杂度,其中,相关性分值用于表示裁判文书与检索词的匹配度,复杂度用于表示裁判文书的复杂程度。

本申请实施例的相关性分值用于衡量裁判文书与检索词的匹配度,相关性分值越大,则说明裁判文书与检索词的匹配度越高,相关性分值越小,则说明裁判文书与检索词的匹配度越低。本申请实施例的复杂度用于衡量裁判文书的复杂程度,例如,裁判文书案情的复制程度和重要程度,具体地,可以通过一些指标参数来衡量裁判文书 的复杂度,例如,涉案金额、适用法条数、裁判文书长度等。

第二计算单元30,用于分别根据相关性分值和复杂度计算裁判文书集合中每篇裁判文书的修正相关性分值,得到分别与裁判文书集合中多篇裁判文书对应的多个修正相关性分值。

排序单元40,用于根据多个修正相关性分值对裁判文书集合中的裁判文书进行排序,得到排序结果。

显示单元50,用于根据排序结果显示裁判文书集合中的裁判文书。

本申请实施例通过获取单元10获取与检索词匹配的裁判文书集合;第一计算单元20计算裁判文书集合中每篇裁判文书的相关性分值和复杂度,其中,相关性分值用于表示裁判文书与检索词的匹配度,复杂度用于表示裁判文书的复杂程度;第二计算单元30分别根据相关性分值和复杂度计算裁判文书集合中每篇裁判文书的修正相关性分值,得到分别与裁判文书集合中多篇裁判文书对应的多个修正相关性分值;排序单元40根据多个修正相关性分值对裁判文书集合中的裁判文书进行排序,得到排序结果;以及显示单元50根据排序结果显示裁判文书集合中的裁判文书。本申请实施例通过裁判文书的复杂度对裁判文书的相关性分值进行修正,并根据修正相关性分值对检索结果进行排序显示,相比于现有技术中仅根据相关性对检索结果进行排序,更契合用户的检索需求,解决了相关技术中对裁判文书的检索结果进行排序时准确性较低的问题,进而达到了提高对裁判文书的检索结果排序的准确性的效果。

优选地,裁判文书集合中包括第一裁判文书,第一计算单元20包括:获取模块,用于获取第一裁判文书的指标参数,其中,指标参数包括如下参数的至少之一:第一裁判文书的长度、第一裁判文书的适用法条数和第一裁判文书的诉讼金额;以及第一计算模块,用于根据指标参数计算第一裁判文书的复杂度。

优选地,第一计算模块包括:获取子模块,获取指标参数中各个参数的权重;以及计算子模块,用于根据指标参数中各个参数的值及各个参数的权重计算第一裁判文书的复杂度。

进一步地,该装置还包括:第三计算单元,用于计算多个预设裁判文书集合中每篇裁判文书的相关性分值,其中,多个预设裁判文书集合为分别与多个预设训练词匹配的多个裁判文书集合;第四计算单元,用于计算多个预设裁判文书集合中每篇裁判文书的复杂度,其中,根据指标参数中各个参数的值及各个参数的初始权重计算复杂度,每篇参与计算的裁判文书使用的指标参数对应一致,并且指标参数中相同参数的初始权重相等;第五计算单元,用于根据多个预设裁判文书集合中每篇裁判文书的相关性分值和对应的复杂度计算多个预设裁判文书集合中每篇裁判文书的修正相关性分 值,并确定各个预设裁判文书集合中修正相关性分值排序靠前的第一预设数量的裁判文书;修正单元,用于根据各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序和基准排序,修正各个参数的初始权重;以及确定单元,用于分别将修正后的各个参数的初始权重作为各个参数的权重,相同参数修正后的权重相等。

进一步地,修正单元包括:第二计算模块,用于计算各个预设裁判文书集合对应的第一预设数量的裁判文书按照修正相关性分值的排序与基准排序不同的比率值,得到多个比率值;判断模块,用于判断多个比率值是否均小于预设阈值;以及修正模块,用于在判断出多个比率值中存在大于预设阈值的比率值时,修正各个参数的初始权重,在判断出多个比率值均小于预设阈值时,结束对各个参数的初始权重的修正。

所述裁判文书检索装置包括处理器和存储器,上述获取单元、第一计算单元、第二计算单元、排序单元和显示单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来完成对裁判文书的准确检索。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取与检索词匹配的裁判文书集合;计算所述裁判文书集合中每篇裁判文书的相关性分值和复杂度,其中,所述相关性分值用于表示所述裁判文书与所述检索词的匹配度,所述复杂度用于表示所述裁判文书的复杂程度;分别根据所述相关性分值和所述复杂度计算所述裁判文书集合中每篇裁判文书的修正相关性分值,得到分别与所述裁判文书集合中多篇裁判文书对应的多个修正相关性分值;根据所述多个修正相关性分值对所述裁判文书集合中的裁判文书进行排序,得到排序结果;以及根据所述排序结果显示所述裁判文书集合中的裁判文书。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件 可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1