类案语义检索方法、系统、电子设备及存储介质与流程

文档序号:34672365发布日期:2023-07-05 17:08阅读:28来源:国知局
类案语义检索方法、系统、电子设备及存储介质与流程

本发明属于数据处理的,具体地涉及一种类案语义检索方法、系统、电子设备及存储介质。


背景技术:

1、在案件审理过程中,法官为更加准确高效的对当前案件进行裁决处理,会期望检索了解以往相关案件的案件处理情况,如法院的裁决意见倾向。或者在案件审判后监察过程中,监察官为防止出现“同案不同判”,也期望检索了解以往相关案例的案件处理情况,并进行比对监察。然而,传统方式仅支持用户基于规定的案由和罪名进行文书索引,并笼统的将每个相关案件的裁决文书反馈给用户;这种方式需要人工逐个翻查裁决文书,难以快速了解相关案件的案件处理情况,使得裁决信息检索分析效率降低。随着人工智能理论和技术日益成熟,通过人工智能技术实现类案检索已成为贴近法官需求的一项重要需求,诸如智慧法庭概念的出现,促进人工智能在证据收集、案例分析、法律文件阅读与分析中的应用,实现法院审判体系和审判能力智能化。

2、类案检索作为一种辅助工具,目的为法官手头正在处理的案件寻找相似甚至相同的案件,使相同或相似案件的判决结果能够有较小偏差;或者目的为监察官寻找相同或类似案件,使得监察相同或相似案件的判决结果是否存在“同案不同判”的情况。法律案件记录虽多为电子文书,但与普通文本相比,法律案例文本具有其特殊性,其文本涉及法律专业的很多用语。现有技术的文本语义相似度计算方法若简单引入到法律案例文本语义相似度算法中,往往存在推送案例不精确,并未做到“同案”,甚至不是“同类”;以及推送案件数量过高仍需人工筛选,并未真正节约法官及监察官时间,导致无法切实解决法官及监察官所需。

3、因此,如何提升类案检索的匹配度以提高推送案例的准确度,显得尤为重要。


技术实现思路

1、为了解决上述技术问题,本发明提供了一种类案语义检索方法、系统、电子设备及存储介质,可以提升类案检索的匹配度,达到提高推送案例的准确度的目的。

2、第一方面,本发明提供一种类案语义检索方法,包括:

3、构造多表示语义相似度模型;

4、构建案件命名实体识别模型以抽取待检索案件的关键信息,其中,所述关键信息包括案件要素及案件事实;

5、根据所述待检索案件的案由类型选取目标预检索策略,并将所述案件要素输入所述目标预检索策略,以使从案件库中筛选出候选案例集;

6、将所述案件事实及所述候选案例集通过所述多表示语义相似度模型进行语义表示,得到相似度得分top k的k个相似案例;

7、根据所述k个相似案例与预设阈值的比对结果以使从所述k个相似案例中推送出目标相似案例。

8、较佳地,所述构造多表示语义相似度模型的步骤具体包括:

9、采用句子对的对比与句子间对比两种学习任务构造多任务融合网络模型;

10、通过文本增广方式及人工标注方式生成监督数据,其中,所述文本增广方式包括随机抛弃、引入噪声、相似词替换;

11、将所述监督数据采用大规模数据自监督训练及小规模数据监督微调的协同监督学习方法训练所述多任务融合网络模型,损失函数采用对比学习损失,负例的选取为批次内负样本,并通过余弦相似度算法计算每一批次内训练数据的相似度以过滤简单样本,得到多表示语义相似度模型。

12、较佳地,所述余弦相似度算法具体为:

13、

14、式中:a、b均表示向量,θ表示向量a、b的夹角。

15、较佳地,所述构建案件命名实体识别模型以抽取待检索案件的关键信息,其中,所述关键信息包括案件要素及案件事实的步骤具体包括:

16、将经人工标注的若干案例作为训练数据训练bert+crf模型,得到案件命名实体识别模型;

17、通过所述案件命名实体识别模型抽取所述待检索案件的关键信息,其中,所述关键信息包括案件要素及案件事实。

18、较佳地,所述将经人工标注的若干案例作为训练数据训练bert+crf模型,得到案件命名实体识别模型的步骤具体包括:

19、通过规则匹配处理预定量半结构化文本得到基础训练数据;

20、针对所述基础训练数据,采用人工标注对部分的所述基础训练数据进行纠错;

21、将纠错处理后的所述基础训练数据送入bert+crf模型进行训练,以构建案件命名实体识别模型。

22、较佳地,所述根据所述待检索案件的案由类型选取目标预检索策略,并将所述案件要素输入所述目标预检索策略,以使从案件库中筛选出候选案例集的步骤具体包括:

23、根据法律条文逻辑针对不同罪名定义相对应的实体框架,并根据不同罪名在数据库中新增由其对应所述实体框架定义的表;

24、采用所述案件命名实体识别模型抽取相关信息存入所述数据库形成所述不同罪名对应的预检索策略,以组建检索数据库;

25、根据所述待检索案件的案由类型从所述检索数据库中选取适配的目标预检索策略;

26、将所述案件要素输入所述目标预检索策略,以使从案件库中筛选出候选案例集。

27、较佳地,所述根据所述k个相似案例与预设阈值的比对结果以使从所述k个相似案例中推送出目标相似案例的步骤之后,所述方法还包括:

28、基于执法监督模型分析所述目标相似案例,得到预设要素所对应的数据分布,根据所述数据分布判断所述待检索案例是否存在执法不公现象。

29、第二方面,本发明提供一种类案语义检索系统,包括:

30、构造模块,用于构造多表示语义相似度模型;

31、抽取模块,用于构建案件命名实体识别模型以抽取待检索案件的关键信息,其中,所述关键信息包括案件要素及案件事实;

32、筛选模块,用于根据所述待检索案件的案由类型选取目标预检索策略,并将所述案件要素输入所述目标预检索策略,以使从案件库中筛选出候选案例集;

33、语义模块,用于将所述案件事实及所述候选案例集通过所述多表示语义相似度模型进行语义表示,得到相似度得分top k的k个相似案例;

34、比对模块,用于根据所述k个相似案例与预设阈值的比对结果以使从所述k个相似案例中推送出目标相似案例。

35、较佳地,所述构造模块包括:

36、构造单元,用于采用句子对的对比与句子间对比两种学习任务构造多任务融合网络模型;

37、生成单元,用于通过文本增广方式及人工标注方式生成监督数据,其中,所述文本增广方式包括随机抛弃、引入噪声、相似词替换;

38、训练单元,用于将所述监督数据采用大规模数据自监督训练及小规模数据监督微调的协同监督学习方法训练所述多任务融合网络模型,损失函数采用对比学习损失,负例的选取为批次内负样本,并通过余弦相似度算法计算每一批次内训练数据的相似度以过滤简单样本,得到多表示语义相似度模型。

39、较佳地,所述抽取模块包括:

40、构建单元,用于将经人工标注的若干案例作为训练数据训练bert+crf模型,得到案件命名实体识别模型;

41、抽取单元,用于通过所述案件命名实体识别模型抽取所述待检索案件的关键信息,其中,所述关键信息包括案件要素及案件事实。

42、较佳地,所述构建单元具体用于:

43、通过规则匹配处理预定量半结构化文本得到基础训练数据;

44、针对所述基础训练数据,采用人工标注对部分的所述基础训练数据进行纠错;

45、将纠错处理后的所述基础训练数据送入bert+crf模型进行训练,以构建案件命名实体识别模型。

46、较佳地,所述筛选模块包括:

47、定义单元,用于根据法律条文逻辑针对不同罪名定义相对应的实体框架,并根据不同罪名在数据库中新增由其对应所述实体框架定义的表;

48、组建单元,用于采用所述案件命名实体识别模型抽取相关信息存入所述数据库形成所述不同罪名对应的预检索策略,以组建检索数据库;

49、选取单元,用于根据所述待检索案件的案由类型从所述检索数据库中选取适配的目标预检索策略;

50、筛选单元,用于将所述案件要素输入所述目标预检索策略,以使从案件库中筛选出候选案例集。

51、较佳地,所述系统还包括:

52、监督模块,用于基于执法监督模型分析所述目标相似案例,得到预设要素所对应的数据分布,根据所述数据分布判断所述待检索案例是否存在执法不公现象。

53、第三方面,本发明提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的类案语义检索方法。

54、第四方面,本实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的类案语义检索方法。

55、相比于现有技术,本发明提供的一种类案语义检索方法、系统、电子设备及存储介质,在满足系统响应时间的条件下,通过构造多表示语义相似度模型解决目前类案检索应用所存在的语义缺失问题;通过引入自监督对比学习,利用大量无标注数据训练语义相似度模型,使得模型通过学习样本中的相似点与异同点来获取数据的一般特征,从而达到提升检索准确性的效果;通过结合案件要素的预检索形式的稀疏检索与案件事实的语义相似度形式的稠密检索形成完整的类案检索模型,以缓解表示型稠密检索在映射时所出现的语义丢失问题,提高模型的检索准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1