文书推荐方法和装置与流程

文档序号:11774558阅读:131来源:国知局
文书推荐方法和装置与流程

本申请涉及数据处理领域,具体而言,涉及一种文书推荐方法和装置。



背景技术:

在实际审判业务中,审理案件的最后流程为文书制作,在文书成型后,通常需要验证所做的判决(文书)是否合理、是否公正,因此需要在全国范围内已经公开的文书中查找与当前所处理的判决相关联的文书进行比对,从而验证当前的判决是否无误。

现有方法是系统根据指定的属性标签进行文书过滤来找到相似文书并推荐给用户,其中,属性标签可以包括案由、地域、时间、法院等。但是,通过属性标签进行过滤找到相似文书的方法只能达到初步筛选文书的目的,由于文书是由各个法官按照一定格式加上各自的写作习惯形成的,所以通过属性标签不能够精准的找到相似度很高的文书,而且找出的无关文书数量很多,造成系统推荐给用户的文书的相似度较低,难以满足用户需求。

针对相关技术中相似文书推荐结果准确性较低的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请的主要目的在于提供一种文书推荐方法和装置,以解决相关技术中相似文书推荐结果准确性较低的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种文书推荐方法。该方法包括:获取基准文书的属性标签,其中,属性标签至少包括案由;根据属性标签对预设数据库中的文书进行筛选,得到筛选结果;分别计算筛选结果中各篇文书与基准文书的相似度;以及根据筛选结果中各篇文书与基准文书的相似度进行文书推荐。

进一步地,筛选结果包括筛选得到的第一文书,第一文书为筛选结果中任意一个文书,分别计算筛选结果中各篇文书与基准文书的相似度包括计算第一文书与基准文书的相似度,计算第一文书与基准文书的相似度包括:分别获取第一文书中各个指定段落和基准文书中各个指定段落,其中,第一文书中各个指定段落与基准文书中各个指定段落一一对应;分别计算第一文书中各个指定段落和基准文书中对应的各个指定段落之间的相似度,得到各个段落相似度;以及根据各个段落相似度计算第一文书与 基准文书的相似度。

进一步地,各个指定段落包括第一指定段落,第一指定段落为各个指定段落中任意一个指定段落,分别计算第一文书中各个指定段落和基准文书中对应的各个指定段落之间的相似度包括计算第一文书中第一指定段落和基准文书中第一指定段落之间的相似度,计算第一文书中第一指定段落和基准文书中第一指定段落之间的相似度包括:对第一文书中第一指定段落进行分词得到第一词语集合,对基准文书中第一指定段落进行分词得到第二词语集合;分别对第一词语集合和第二词语集合进行噪声词过滤,得到第三词语集合和第四词语集合;以及统计第三词语集合和第四词语集合中相同词语的个数,作为第一文书中第一指定段落和基准文书中第一指定段落之间的段落相似度。

进一步地,根据各个段落相似度计算第一文书与基准文书的相似度包括:分别获取各个段落相似度的权重;以及根据各个段落相似度和各个段落相似度的权重计算第一文书与基准文书的相似度。

进一步地,指定段落包括如下至少一个段落:诉情段落,判决段落,事实段落和论理段落。

进一步地,根据筛选结果中各篇文书与基准文书的相似度进行文书推荐包括:将筛选结果中各篇文书与基准文书的相似度进行排序,得到排序结果;以及根据排序结果推荐筛选结果中预设数目的文书。

进一步地,获取基准文书的属性标签包括:获取基准文书;以及对基准文书进行解析,得到属性标签。

为了实现上述目的,根据本申请的另一方面,提供了一种文书推荐装置。该装置包括:获取单元,用于获取基准文书的属性标签,其中,属性标签至少包括案由;筛选单元,用于根据属性标签对预设数据库中的文书进行筛选,得到筛选结果;计算单元,用于分别计算筛选结果中各篇文书与基准文书的相似度;以及推荐单元,用于根据筛选结果中各篇文书与基准文书的相似度进行文书推荐。

进一步地,筛选结果包括筛选得到的第一文书,第一文书为筛选结果中任意一个文书,计算单元包括:获取模块,用于分别获取第一文书中各个指定段落和基准文书中各个指定段落,其中,第一文书中各个指定段落与基准文书中各个指定段落一一对应;第一计算模块,用于分别计算第一文书中各个指定段落和基准文书中对应的各个指定段落之间的相似度,得到各个段落相似度;以及第二计算模块,用于根据各个段落相似度计算第一文书与基准文书的相似度。

进一步地,各个指定段落包括第一指定段落,第一指定段落为各个指定段落中任 意一个指定段落,第一计算模块包括:分词子模块,用于对第一文书中第一指定段落进行分词得到第一词语集合,对基准文书中第一指定段落进行分词得到第二词语集合;过滤子模块,用于分别对第一词语集合和第二词语集合进行噪声词过滤,得到第三词语集合和第四词语集合;以及统计子模块,用于统计第三词语集合和第四词语集合中相同词语的个数,作为第一文书中第一指定段落和基准文书中第一指定段落之间的段落相似度。

通过本申请,采用获取基准文书的属性标签,其中,属性标签至少包括案由;根据属性标签对预设数据库中的文书进行筛选,得到筛选结果;分别计算筛选结果中各篇文书与基准文书的相似度;以及根据筛选结果中各篇文书与基准文书的相似度进行文书推荐,通过属性标签初次筛选文书后,进一步通过计算筛选得到的每篇文书与基准文书的相似度来进行文书推荐,从而可以提高推荐文书与基准文书的相似度,解决了相关技术中相似文书推荐结果准确性较低的问题,进而达到了提高相似文书推荐结果准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的文书推荐方法的流程图;以及

图2是根据本申请实施例的文书推荐装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含 了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种文书推荐方法。图1是根据本申请实施例的文书推荐方法的流程图,如图1所示,该方法包括如下步骤:

步骤s102,获取基准文书的属性标签,其中,属性标签至少包括案由。

在本申请实施例中,基准文书是指用于作为文书查找与推荐基准的文书,例如,某个文书当前需要进行文书合理性印证,系统则基于该文书进行相似文书查找与推荐。本申请实施例的属性标签至少包括案由,其中,案由可以表明一篇文书所描述内容的主题与类型,是强关联条件。本申请实施例的属性标签还可以包括法院、当事人、审判时间等属性中的一个或多个,具体地,可以通过用户按照实际需求指定所选用的属性标签。可选地,获取基准文书的属性标签包括:获取基准文书;以及对基准文书进行解析,得到属性标签。

在本申请实施例中,系统在接收到用户输入的基准文书后,对基准文书进行解析,由于文书通常是按照一定的格式进行撰写的,例如如下文书:

“委托代理人:xx,辽宁xxx事务所律师。

委托代理人:xx,辽宁xxx事务所律师。

上诉人xx有限责任公司因与被上诉人xxx民间借贷纠纷一案……

一审法院经审理查明:从2007年至今王xx与xxx公司……

综上,一审法院于2015年8月25日作出(2015)辽民二初字第16号民事判决,判决……

二审期间,上诉人xxx公司提交了五部分证据……

本院认为,xx与xxx公司之间存在真实有效的借贷合同关系……”

本申请实施例可以通过提取文书中一些标志性特征(例如,一审法院经审理查明、二审期间、本院认为等)、上下文关系等,将一篇半结构化的文书解析为一篇结构化的文书,从而可以得到文书的各个属性,例如,案由、当事人、法院、时间、各个段落内容等。

步骤s104,根据属性标签对预设数据库中的文书进行筛选,得到筛选结果。

在本申请实施例中,根据属性标签从预设数据库中筛选匹配的文书,例如,筛选 类型为借贷纠纷的文书。

步骤s106,分别计算筛选结果中各篇文书与基准文书的相似度。

在本申请实施例中,可以采用多种方法计算两篇文书之间的相似度,例如,simhash算法、tf-idf算法等,本申请实施例对此不作限定。

具体地,本申请实施例可以遍历筛选结果中每一篇文书,计算该文书与基准文书的相似度,得到筛选结果中各篇文书与基准文书的相似度。

步骤s108,根据筛选结果中各篇文书与基准文书的相似度进行文书推荐。

本申请实施例通过采用获取基准文书的属性标签,其中,属性标签至少包括案由;根据属性标签对预设数据库中的文书进行筛选,得到筛选结果;分别计算筛选结果中各篇文书与基准文书的相似度;以及根据筛选结果中各篇文书与基准文书的相似度进行文书推荐,通过属性标签初次筛选文书后,进一步通过计算筛选得到的每篇文书与基准文书的相似度来进行文书推荐,从而可以提高推荐文书与基准文书的相似度,解决了相关技术中相似文书推荐结果准确性较低的问题,进而达到了提高相似文书推荐结果准确性的效果。

优选地,为了提高相似度计算结果的准确性,筛选结果包括筛选得到的第一文书,第一文书为筛选结果中任意一个文书,分别计算筛选结果中各篇文书与基准文书的相似度包括计算第一文书与基准文书的相似度,计算第一文书与基准文书的相似度包括:分别获取第一文书中各个指定段落和基准文书中各个指定段落,其中,第一文书中各个指定段落与基准文书中各个指定段落一一对应;分别计算第一文书中各个指定段落和基准文书中对应的各个指定段落之间的相似度,得到各个段落相似度;以及根据各个段落相似度计算第一文书与基准文书的相似度。

在本申请实施例中,第一文书可以为筛选结果中任意一篇文书,本申请实施例对筛选结果中的每一篇文书均执行上述步骤,以下以第一文书为例进行说明。

一篇文书中通常包括多个段落,例如,诉情段落,判决段落,事实段落和论理段落等,其中,诉请段落为原告描述为什么起诉被告的段落,是案件的原因段落;判决段落为依据法条法理后进行判决的段落,是案件的结果段落;事实段落为原被告之间发生事情的描述段落,是案件的客观描述段落;论理段落即本院认为段落,为法官根据起诉内容、事实、证据做论理的段落,是案件的讲道理段落。

在本申请实施例中,第一文书的各个指定段落和基准文书的各个指定段落一一对应,例如,第一文书的指定段落为诉请段落,则基准文书的指定段落也为诉请段落,如果第一文书的指定段落为诉情段落和判决段落,则基准文书的指定段落也为诉情段 落和判决段落。

具体地,用户可以指定计算第一文书和基准文书哪几个对应段落的相似度来确定第一文书和基准文书的相似度,例如,计算第一文书的诉请段落和基准文书的诉请段落之间的相似度作为第一文书和基准文书的相似度,或是计算第一文书的诉请段落和基准文书的诉请段落之间的相似度以及第一文书的判决段落和基准文书的判决段落之间的相似度共同来确定第一文书和基准文书的相似度等。计算段落之间的相似度也可以是采用上述诸如simhash算法、tf-idf算法等,在此不做限定。

本申请实施例通过计算筛选结果中各篇文书与基准文书对应的各个指定段落之间相似度来确定筛选结果中各篇文书与基准文书之间的相似度,相比于基于整篇文书计算相似度,可以提高相似度计算结果的准确性。

优选地,各个指定段落包括第一指定段落,第一指定段落为各个指定段落中任意一个指定段落,分别计算第一文书中各个指定段落和基准文书中对应的各个指定段落之间的相似度包括计算第一文书中第一指定段落和基准文书中第一指定段落之间的相似度,计算第一文书中第一指定段落和基准文书中第一指定段落之间的相似度包括:对第一文书中第一指定段落进行分词得到第一词语集合,对基准文书中第一指定段落进行分词得到第二词语集合;分别对第一词语集合和第二词语集合进行噪声词过滤,得到第三词语集合和第四词语集合;以及统计第三词语集合和第四词语集合中相同词语的个数,作为第一文书中第一指定段落和基准文书中第一指定段落之间的段落相似度。

在本申请实施例中,第一指定段落可以为上述各个指定段落中任意一个段落。本申请实施例对上述各个指定段落中每一个指定段落均执行上述步骤,以下以第一指定段落为例进行说明。

本申请实例分别对第一文书中第一指定段落和基准文书中第一指定段落进行分词,得到第一词语集合和第二词语集合,其中,第一词语集合为对第一文书中第一指定段落分词后得到的词语集合,第二词语集合为对基准文书中第一指定段落分词后得到的词语集合。

由于上述词语集合中会包含诸如语气词、连接词、人称词等噪声词汇,为了避免这些噪声词汇对计算结果造成影响,本申请实施例分别对第一词语集合和第二词语集合进行噪声词汇过滤,得到第三词语集合和第四词语集合,其中,第三词语集合为第一词语集合进行噪声过滤后的词语集合,第四词语集合为第二词语集合进行噪声过滤后的词语集合。在得到清洗了噪声词汇的第三词语集合和第四词语集合之后,统计第三词语集合和第四词语集合中相同词语的数量,作为第一文书中第一指定段落和基准 文书中第一指定段落之间的段落相似度。

本申请实施例基于上述方法计算第一文书中各个指定段落和基准文书中对应的各个指定段落之间的相似度,得到各个段落相似度。

优选地,指定段落包括如下至少一个段落:诉情段落,判决段落,事实段落和论理段落。

优选地,根据各个段落相似度计算第一文书与基准文书的相似度包括:分别获取各个段落相似度的权重;以及根据各个段落相似度和各个段落相似度的权重计算第一文书与基准文书的相似度。

本申请实施例可以对各个指定段落设置对应的权重,其中,不同指定段落的权重可以相同,也可以不相同,例如,可以将情段落、判决段落的权重设置的大一些,而将事实段落和论理段落的权重设置的小一些。本申请实施例通过获取各个段落相似度的权重,并根据各个段落相似度和各个段落相似度的权重计算第一文书与基准文书的相似度,例如,通过加权算法计算第一文书与基准文书的相似度。

优选地,指定段落包括诉情段落、判决段落、事实段落和论理段落,各个段落相似度包括诉情段落相似度、判决段落相似度、事实段落相似度和论理段落相似度,诉情段落相似度的权重大于事实段落相似度的权重和论理段落相似度的权重,判决段落相似度的权重大于事实段落相似度的权重和论理段落相似度的权重。

优选地,根据筛选结果中各篇文书与基准文书的相似度进行文书推荐包括:将筛选结果中各篇文书与基准文书的相似度进行排序,得到排序结果;以及根据排序结果推荐筛选结果中预设数目的文书。

在本申请实施例中,对筛选结果中各篇文书与基准文书的相似度进行排序,例如,按照从高到低的顺序排序,并取排序结果中靠前预设数量的文书进行推荐,例如,推荐相似度靠前的200篇文书给用户作为参考。

以下以一个实例对本申请实施例进行说明,包括如下步骤:

步骤s202,用户输入或粘贴成型的文书,系统对该文书进行解析。

需要说明的是,本申请实施例的系统可以包含执行上述文书推荐方法各个步骤的装置。具体地,文书解析过程就是将一篇半结构化的文书解析为一篇结构化的文书,从而可以得到文书的各个属性,例如,案由、当事人、法院、时间、各个段落内容等。

步骤s204,将解析后部分属性呈现在系统的页面上。

上述部分属性可以包括当事人、法院、适用法律等,用户可以基于页面上呈现的 属性选择过滤条件,例如,选择法院、适用法律作为过滤条件。

步骤s206,接收用户选择的过滤条件,系统根据案由和过滤条件进行文书筛选,得到筛选结果。

具体地,由于案由可以表明一篇文书所描述内容的主题与类型,是强关联条件,因此本申请实施例将其默认作为过滤条件。

步骤s208,系统基于筛选结果开始进行相似度计算。

具体地,在得到筛选结果后,可以通过加权算法来计算筛选得到的每一篇文书与用户输入文书的相似度相似度,其中,加权算法的具体实现方式如下:

将用户输入的文书的诉请段落、判决段落进行分词打碎,分别与筛选出文书集中的诉请段落、判决段落的分词结果进行匹配。诉请段落与判决段落的权重为a,所以两段中每命中一个词,记a分;其余段落(例如,事实段落、论理段落等)也会进行上述类似的权重计算,但是权重设置为b,所以每命中一个词记b分,其中,a>b。

步骤s210,经过加权算法的计算,筛选得到的文书中每篇文书都有了一个分数,按照分数进行降序排列,取前200篇文书作为相似文书的推荐结果。

本申请实施例不仅通过属性标签来进行文书过滤,而且通过自然语言分词、匹配技术进行文书重点段落的加权评分,提高了相似文书的准确度与可靠性,从而能够高效、准确的为用户提供相似文书。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例的另一方面,提供了一种文书推荐装置,该文书推荐装置可以用于执行本申请实施例的文书推荐方法,本申请实施例的文书推荐方法也可以通过本申请实施例的文书推荐装置来执行。

图2是根据本申请实施例的文书推荐装置的示意图,如图2所示,该装置包括:

获取单元10,用于获取基准文书的属性标签,其中,属性标签至少包括案由。

筛选单元20,用于根据属性标签对预设数据库中的文书进行筛选,得到筛选结果。

计算单元30,用于分别计算筛选结果中各篇文书与基准文书的相似度。

推荐单元40,用于根据筛选结果中各篇文书与基准文书的相似度进行文书推荐。

本申请实施例通过采用获取单元10获取基准文书的属性标签,其中,属性标签至 少包括案由;筛选单元20根据属性标签对预设数据库中的文书进行筛选,得到筛选结果;计算单元30分别计算筛选结果中各篇文书与基准文书的相似度;以及推荐单元40根据筛选结果中各篇文书与基准文书的相似度进行文书推荐,通过属性标签初次筛选文书后,进一步通过计算筛选得到的每篇文书与基准文书的相似度来进行文书推荐,从而可以提高推荐文书与基准文书的相似度,解决了相关技术中相似文书推荐结果准确性较低的问题,进而达到了提高相似文书推荐结果准确性的效果。

优选地,筛选结果包括筛选得到的第一文书,第一文书为筛选结果中任意一个文书,计算单元包括:获取模块,用于分别获取第一文书中各个指定段落和基准文书中各个指定段落,其中,第一文书中各个指定段落与基准文书中各个指定段落一一对应;第一计算模块,用于分别计算第一文书中各个指定段落和基准文书中对应的各个指定段落之间的相似度,得到各个段落相似度;以及第二计算模块,用于根据各个段落相似度计算第一文书与基准文书的相似度。

优选地,各个指定段落包括第一指定段落,第一指定段落为各个指定段落中任意一个指定段落,第一计算模块包括:分词子模块,用于对第一文书中第一指定段落进行分词得到第一词语集合,对基准文书中第一指定段落进行分词得到第二词语集合;过滤子模块,用于分别对第一词语集合和第二词语集合进行噪声词过滤,得到第三词语集合和第四词语集合;以及统计子模块,用于统计第三词语集合和第四词语集合中相同词语的个数,作为第一文书中第一指定段落和基准文书中第一指定段落之间的段落相似度。

优选地,第二计算模块包括:获取子模块,用于分别获取各个段落相似度的权重;以及计算子模块,用于根据各个段落相似度和各个段落相似度的权重计算第一文书与基准文书的相似度。

优选地,指定段落包括如下至少一个段落:诉情段落,判决段落,事实段落和论理段落。

可选地,推荐单元40包括:排序模块,用于将筛选结果中各篇文书与基准文书的相似度进行排序,得到排序结果;以及推荐模块,用于根据排序结果推荐筛选结果中预设数目的文书。

可选地,获取单元10包括:获取模块,用于获取基准文书;以及解析模块,用于对基准文书进行解析,得到属性标签。

所述文书推荐装置包括处理器和存储器,上述获取单元、筛选单元、计算单元和推荐单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高相似文书推荐结果的准确性。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取基准文书的属性标签,其中,属性标签至少包括案由;根据属性标签对预设数据库中的文书进行筛选,得到筛选结果;分别计算筛选结果中各篇文书与基准文书的相似度;以及根据筛选结果中各篇文书与基准文书的相似度进行文书推荐。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom, read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1