一种基于案情三元组信息的类案检索方法及系统与流程

文档序号:21630702发布日期:2020-07-29 02:39阅读:407来源:国知局
一种基于案情三元组信息的类案检索方法及系统与流程

本发明涉及自然语言处理技术,具体涉及一种基于案情三元组信息的类案检索方法及系统。



背景技术:

目前类案检索主要使用的是关键字技术和tf-idf技术。由于案情事实部分篇幅较长,当前技术是篇章级别的(数个句子构成)段落语义匹配,并非是句子级别的语义匹配;同时同一个实体种类、同一个案情争议点的描述方式多样。基于以上原因现有方法不能提取出案情的有效信息,类案检索的准确率和召回率都不理想。



技术实现要素:

本发明所要解决的技术问题是现有技术中的类案检索准确率和召回率都不理想,目的在于提供一种基于案情三元组信息的类案检索方法及系统,解决上述问题。

本发明通过下述技术方案实现:

一种基于案情三元组信息的类案检索方法,包括以下步骤:

s1:从案情数据库中选出案情样本得到案情样本库,标注案情样本库中的案情样本得到标注样本库,标注的内容包括案情实体和案情实体对应的要素;

s2:将标注样本库输入模型进行训练,得到案情实体识别模型和案情要素识别模型;

s3:利用案情实体识别模型识别案情数据库中案情的案情实体;利用案情要素识别模型识别案情数据库中案情的要素;根据案情数据库中案情的案情实体和案情实体对应的要素得到每一篇案情的三元组集合;三元组集合中三元组的元素包括案情实体和案情实体对应的要素;

s4:存储案情数据库中的案情和案情对应三元组集合,并设置抽取案情的三元组评分模型;

s5:类案检索时,将待检索案情输入训练后的模型得到待检索案情的三元组集合;利用三元组评分模型对案情数据库中案情的三元组集合和待检索案情的三元组集合的匹配程度评分;将案情数据库中评分符合预设要求的三元组集合对应的案情作为类案检索结果。

本发明应用时,首先标注样本,标注后的样本用于训练模型,标注的主要内容包括案情实体和要素,其中要素对应于案情实体。本发明中的案情实体是指法律案情中的实体,比如被告,婚生子女,财产等;要素是指影响结果的要素。将这些数据对应起来有利于后续模型的学习训练。通过学习这些数据,可以得到三元组集合,这个三元组集合是类案检索的依据。同时三元组集合还对应有评分模型,用于优选三元组集合。类案检索时,通过同样的操作提取待检索的案情的信息,并经过相同的规则处理得到待检索案情三元组集合,将其与案情数据库中的三元组集合比对实现类案检索。

进一步的,三元组集合中的三元组均设置有权重值;

根据三元组代表的要素在案情样本中的重要程度设置三元组的权重值。

进一步的,根据权重值设置三元组评分模型。

进一步的,模型采用正则和条件随机场抽取实体;采用法律领域的预训练模型和排序算法实现多标签分类;三元组要素由基于特定规则的实体和多标签组合得到。

本发明应用时,特定规则是指实体和标签是匹配对应关系,例如:

首先抽取出来了“实体”和“标签”,特定的规则指的就是“实体”和“标签”的组合;比如一个句子里抽取出了“实体”是被告、“标签”是家庭暴力,那么生成的三元组就为“被告”“具有”“家庭暴力”;在本发明中,是通过配置文件里配置好实体和标签的关系来实现的。

一种基于案情三元组信息的类案检索系统,包括:

样本标注单元:用于从案情数据库中选出案情样本得到案情样本库,标注案情样本库中的案情样本得到标注样本库,标注的内容包括案情实体和案情实体对应的要素;

模型训练单元:用于将标注样本库输入模型进行训练,得到案情实体识别模型和案情要素识别模型;

三元组集合构建单元:利用案情实体识别模型识别案情数据库中案情的案情实体;利用案情要素识别模型识别案情数据库中案情的要素;根据案情数据库中案情的案情实体和案情实体对应的要素得到每一篇案情的三元组集合;三元组集合中三元组的元素包括案情实体和案情实体对应的要素;

存储单元:用于存储案情数据库中的案情和案情对应三元组集合,并设置抽取案情的三元组评分模型;

检索单元:用于类案检索时,将待检索案情输入训练后的模型得到待检索案情的三元组集合;利用三元组评分模型对案情数据库中案情的三元组集合和待检索案情的三元组集合的匹配程度进评分;将案情数据库中评分符合预设要求的三元组集合对应的案情作为类案检索结果。

进一步的,三元组集合中的三元组均设置有权重值;

根据三元组所代表的要素在案情样本中的重要程度设置三元组的权重值。

进一步的,根据权重值设置三元组评分模型。

进一步的,模型采用正则和条件随机场抽取实体;训练模型采用法律领域的预训练模型和排序算法实现多标签分类;三元组要素由基于特定规则的实体和多标签组合得到。

本发明与现有技术相比,具有如下的优点和有益效果:

本发明一种基于案情三元组信息的类案检索方法及系统,利用法律领域预训练语言模型和排序算法构造类案检索的关键衡量标准:案情三元组要素,从法律专业的角度实现类案精准检索。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明基于案情三元组信息的类案检索流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例

如图1所示,本发明一种基于案情三元组信息的类案检索方法,包括以下步骤:

s1:从案情数据库中选出案情样本得到案情样本库,标注案情样本库中的案情样本得到标注样本库,标注的内容包括案情实体和案情实体对应的要素;

s2:将标注样本库输入模型进行训练,得到案情实体识别模型和案情要素识别模型;

s3:利用案情实体识别模型识别案情数据库中案情的案情实体;利用案情要素识别模型识别案情数据库中案情的要素;根据案情数据库中案情的案情实体和案情实体对应的要素得到每一篇案情的三元组集合;三元组集合中三元组的元素包括案情实体和案情实体对应的要素;

s4:存储案情数据库中的案情和案情对应三元组集合,并设置抽取案情的三元组评分模型;

s5:类案检索时,将待检索案情输入训练后的模型得到待检索案情的三元组集合;利用三元组评分模型对案情数据库中案情的三元组集合和待检索案情的三元组集合的匹配程度评分;将案情数据库中评分符合预设要求的三元组集合对应的案情作为类案检索结果。

本实施例实施时,首先标注样本,标注后的样本用于训练模型,标注的主要内容包括案情实体和要素,其中要素对应于案情实体。本发明中的案情实体是指法律案情中的实体,比如被告,婚生子女,财产等;要素是指影响结果的要素。将这些数据对应起来有利于后续模型的学习训练。通过学习这些数据,可以得到三元组集合,这个三元组集合是类案检索的依据。同时三元组集合还对应有评分模型,用于优选三元组集合。类案检索时,通过同样的操作提取待检索案情的信息,并经过相同的规则处理得到待检索案情三元组集合,将其与案情数据库中的三元组集合比对实现类案检索。

为了进一步的说明本实施例的工作过程,三元组集合中的三元组均设置有权重值;

根据三元组代表的要素在案情样本中的重要程度设置三元组的权重值。

为了进一步的说明本实施例的工作过程,根据权重值设置三元组评分模型。

为了进一步的说明本实施例的工作过程,模型采用正则和条件随机场抽取实体;采用法律领域的预训练模型和排序算法实现多标签分类;三元组要素由基于特定规则的实体和多标签组合得到。

一种基于案情三元组信息的类案检索系统,包括:

样本标注单元:用于从案情数据库中选出案情样本得到案情样本库,标注案情样本库中的案情样本得到标注样本库,标注的内容包括案情实体和案情实体对应的要素;

模型训练单元:用于将标注样本库输入模型进行训练,得到案情实体识别模型和案情要素识别模型;

三元组集合单元:利用案情实体识别模型识别案情数据库中案情的案情实体;利用案情要素识别模型识别案情数据库中案情的要素;根据案情数据库中案情的案情实体和案情实体对应的要素得到每一篇案情的三元组集合;三元组集合中三元组的元素包括案情实体和案情实体对应的要素;

存储单元:用于存储案情数据库中的案情和案情对应三元组集合,并设置抽取案情的三元组评分模型;

检索单元:用于类案检索时,将待检索案情输入训练后的模型得到待检索案情的三元组集合;利用三元组评分模型对案情数据库中案情的三元组集合和待检索案情的三元组集合的匹配程度评分;将案情数据库中评分符合预设要求的三元组集合对应的案情作为类案检索结果。

为了进一步的说明本实施例的工作过程,三元组集合中的三元组均设置有权重值;

根据三元组代表的要素在案情样本中的重要程度设置三元组的权重值。

为了进一步的说明本实施例的工作过程,根据权重值设置三元组评分模型。

为了进一步的说明本实施例的工作过程,模型采用正则和条件随机场抽取实体;采用法律领域的预训练模型和排序算法实现多标签分类;三元组要素由基于特定规则的实体和多标签组合得到。

为了进一步的说明本实施例的工作过程,以具体例子来说明:

如图1所示,在检索类案时,本发明的类案检索系统基于当前案情的案情事实,使用本发明的类案检索方法,把最相关的同类案件展示给法官;整个类案检索方法由以下主要步骤构成:

基于具体的案由,专业的法律团队定义该案由案情事实的三元组,即案情的关键要素,这些三元组是类案检索的衡量标准,每一个三元组都有对应权重值,表明该要素在案情中的重要程度;如离婚案由的要素举例如下:原告生育有婚生子女,婚生子女一直跟随原告生活,被告具有家庭暴力行为等等;

专业的法律团队标注裁判文书的案情事实部分,标注包括案情的实体:比如原被告,婚生子女,财产等;标注案情描述中的每一句话对应的标签,如:影响子女分割的要素,影响财产分割的要素,影响夫妻感情的要素等,这是一个多标签的标注;

构建自然语言处理算法模型,利用上述的标注数据训练模型;并把训练的模型作用于海量的文书库,对每一个裁判文书得到一系列的上述三元组要素。具体算法为:采用正则和条件随机场实体抽取;采用法律领域的预训练模型+排序算法实现多标签分类;三元组要素由基于特定规则的实体和多标签组合得到;

利用elasticsearch储存裁判文书和其对应三元组信息,设置基于三元组抽取时的打分算法(充分利用三元组的权重)。

类案检索时,输入的案情事实经过以上算法模型,得到对应三元组,然后和elasticsearch中的案情匹配,并把score最高的一些案子进行展示。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1