一种检索方法、系统及相关设备与流程

文档序号:35475936发布日期:2023-09-16 17:59阅读:19来源:国知局
一种检索方法、系统及相关设备与流程

本技术涉及人工智能(artificial intelligence,ai)领域,尤其涉及一种检索方法、系统及相关设备。


背景技术:

1、类案检索指的是在给定一个查询案例的情况下,从法律案例语料库中检索出其相关案例。由于相关案例可能成为影响判决结果的参考,甚至直接参与到最终的判决结果当中,因此类案检索对于确保法律领域的公正至关重要,不仅能够帮助法律工作者更加高效的提供法律服务,也能让非法律专业人士能够对案情涉及到的法律问题有更加专业、清楚的认识。

2、但是,类案检索存在大量文本相同而非相关案例的场景,例如交通肇事和故意伤害中关于“不同伤残等级”的文本相同,但是二者并不是相关案例。因此类案检索不仅要判断文本的相似性,更需要识别案件在法律问题和法律程序方法的相似性,使得类案检索的精度差,用户使用体验差。


技术实现思路

1、本技术提供了一种检索方法、系统及相关设备,用于解决类案检索精度差的问题,提高用户的使用体验。

2、第一方面,提供了一种检索方法,该方法包括以下步骤:获取用户输入的查询文本,根据查询文本获取多个候选文书,其中,多个候选文书与查询文本之间的文本相关度高于阈值,确定多个候选文书中每个候选文书与查询文本之间的法律相关度,按照法律相关度对多个候选文书进行排序,获得排序结果,向用户显示排序结果。

3、实施第一方面描述的方法,通过获取用户输入的查询文本,然后获取多个与查询文本之间的文本相关度较高的多个候选文书,然后确定每个候选文书与查询文本之间的法律相关度,并对多个候选文书进行排序获得排序结果,将其显示给用户,该系统先按照文本相关度筛选出多个候选文书,再按照法律相关度对多个候选文书进行排序,从而避免用户获得文本相同而非相关案例这一问题的出现,提高检索精度,提高用户的使用体验。

4、在一可能的实现方式中,确定多个候选文书中每个候选文书与查询文本之间的法律相关度时,可以将每个候选文书和查询文本输入法律相关度模型,获得每个候选文书与查询文本之间的法律相关度,其中,法律相关度模型是使用样本集对ai模型进行训练后获得的,样本集包括输入样本和输入样本的标签,输入样本包括查询样本和候选文书样本,输入样本的标签包括候选文书样本与查询样本之间的法律相关度。

5、上述实现方式,通过法律相关度模型来确定每个候选文书与查询文本之间的法律相关度,使得用户可以获知候选文书与自己输入的查询文本之间的法律相关度,避免用户获得文本相同而非相关案例这一问题的出现,提高检索精度,提高用户的使用体验。

6、在一可能的实现方式中,输入样本的标签包括第一标签和第二标签,第一标签用于指示候选文书样本与查询样本之间的要件事实的相关度,第二标签用于指示候选文书样本与查询样本之间的案情事实之间的相关度。

7、上述实现方式,使用包含第一标签和第二标签的样本集训练模型,使得训练好的法律相关度模型具有预测出候选文书与查询文本之间要件事实相关度以及案情事实相关度的能力,避免用户获得文本相同而非相关案例这一问题的出现,提高检索精度,提高用户的使用体验。

8、在一可能的实现方式中,法律相关度模型包括特征提取网络和预测函数,确定多个候选文书中每个候选文书与查询文本之间的法律相关度时,可以先将每个候选文书拆分为多个片段,将多个片段输入特征提取网络,获得多个片段对应的多个语义特征,将多个片段对应的多个语义特征进行聚合获得聚合结果,最后将聚合结果输入预测函数,获得每个候选文书与查询文本之间的法律相关度。

9、上述实现方式,通过将候选文书拆分为多个片段,分别提取每个片段的语义特征,然后再将每个片段的语义特征进行聚合获得聚合结果,将聚合结果输入预测函数获得预测结果,这样通过窗口化分块处理每个候选文书样本,将较长的司法文书转化为聚合向量,可以避免由于司法文书的文本长度太长降低模型训练的准确度和效率,提高模型的训练效率和准确度。

10、在一可能的实现方式中,样本集是对样本数据进行数据增强后获得的,数据增强时使用的方案包括:在第二样本是第一样本的候选文书样本的情况下,第一样本是第二样本的候选文书样本。具体实现中,第一输入样本包括第一样本和第二样本,其中,第一样本是查询样本,第二样本是第一样本的候选文书样本,那么输入样本的标签包括第二样本与第一样本之间的相关度。数据增强后,新增的第二输入样本包括第二样本和第一样本,其中,第二样本是查询样本,第一样本是第二样本的候选文书,新增的第二输入样本的标签包括第二样本与第一样本之间的相关度,也就是说,新增的第二输入样本的标签继承第一输入样本的标签。

11、举例来说,第一输入样本包括查询样本a以及候选文书样本b,且b的标签为(1,1),数据增强后新增的样本为:第二输入样本包括查询样本b以及候选文书样本a,且a的标签为(1,1)。上述举例用于说明,本技术不作具体限定。

12、上述实现方式,在案例检索领域中,样本需要专业的法律人士进行标注,可以进一步降低样本标注成本,通过将少量样本通过数据增强的方式获得更多的新增样本,降低样本标注的成本,提高样本获取的效率。

13、在一可能的实现方式中,数据增强时使用的方案还包括:在多个第二样本是第一样本的候选文书样本时,多个第二样本中的任意一个目标样本的候选文书样本包括第一样本以及除目标样本以外的其他第二样本。具体实现中,第一输入样本包括第一样本和多个第二样本,其中,第一样本是查询样本,多个第二样本是第一样本的候选文书样本,那么第一输入样本的标签包括每个第二样本与第一样本之间的相关度。数据增强后,新增的第二输入样本包括目标样本、第一样本以及除目标样本以外的其他第二样本,其中,目标样本是查询样本,第一样本以及其他第二样本是目标样本的候选文书样本,第二输入样本的标签包括其他第二样本与第一样本之间的相关度以及第一样本与目标样本之间的相关度,也就是说,新增的第二输入样本的标签继承第一输入样本的标签。具体实现中,上述标签可以是等级最高的标签,即表1中非常相关的标签,也就是要件事实相关且案情事实也相关。

14、上述实现方式,在案例检索领域中,样本需要专业的法律人士进行标注,可以进一步降低样本标注成本,通过将少量样本通过数据增强的方式获得更多的新增样本,降低样本标注的成本,提高样本获取的效率。

15、在一可能的实现方式中,候选文书与查询文本之间的文本相关度,是根据查询文本中的单词和双词在候选文书中出现的概率来确定的。

16、具体实现中,在确定单词/双词在文书中出现的概率时,可以根据单词/双词在候选文书出现的第一频率以及单词/双词在检索集合中所有文书中出现的第二频率确定。应理解,如果一个单词/双词在所有文书中都出现了很多次,那么它很可能是一个常用词汇,对于文书之间的区分度不高。相反,如果一个单词/双词只在少数文书中出现,那么它很可能是一个特定领域的专业术语,对于文书的区分度很高。因此结合第一频率和第二频率确定单词/双词的概率,能够更好地表达出单词/双词在文书中的重要性和文书之间的文本相关度,从而在后续确定文书和查询文本之间文本相关度的准确性,进而提高案例检索的准确性和效率。

17、举例来说,单词t在文书d中出现次数较少但是在其他文书中出现次数较多,其频率可能不高,但是其概率可能较高,因为它在整个检索集合中出现的次数较多。因此,计算单词在单词/双词在文书中的概率可以更全面地考虑单词/双词的重要性和出现的可能性,从而提高单词语言模型的准确性和效果。

18、可选地,假设查询文本包括多个单词和多个双词,那么在确定每个单词在候选文书中的第一概率和每个双词在候选文书中的第二概率后,可以根据每个双词的第二概率和每个单词的第一概率进行结合,获得查询文本中每个词语的第三概率,根据多个双词在候选文书中出现的多个第三概率来确定候选文书与查询文本之间的文本相关度,基于文本相关度获得多个候选文书。举例来说,第三概率可以基于线性加权的方式,根据第一概率和第二概率获得第三概率,每个候选文书的文本相关度可以基于多个双词的多个第三概率的乘积获得。上述举例用于说明,本技术不作具体限定。

19、上述实现方式,本技术通过线性加权的方式将单词和双词语言模型结合起来,得到候选文书中相邻两个单词同时出现的第三概率,然后,将候选文书中相邻两个单词同时出现的概率相乘,得到候选文书与查询文本之间的文本相关度,如果直接将单词的第一概率和双词的第二概率相乘确定候选文书的文本相关度,由于单词和双词的数量非常庞大,这样不仅计算量非常大,同时也容易出现第一概率或者第二概率为0的情况,导致文本相关度的准确度无法保证,这样不仅避免计算量过大和概率为0的情况,还可以有效平衡单词和双词的重要性,从而提高文本相关度计算的准确性和效果。

20、在一可能的实现方式中,候选文书与查询文本之间的文本相关度,是根据查询文本的长度以及查询文本中的词语与候选文书中出现的频率确定的。

21、具体实现中,可以基于bm25算法确定候选文书与查询文本之间的文本相关度。用户输入的查询文本可包括多个查询词项,这里的查询词项可以是单个词语、多个词语、短语或者句子,bm25算法可以根据查询词项在候选文书中出现的频率、查询词项在检索文集中出现的频率以及查询文本的长度来确定每个查询词项的权重,根据候选文书中包含的查询词项的权重,确定候选文书与查询文本之间的文本相关度,候选文书包含的查询词项的权重越高,候选文书与查询文本之间的额文本相关度越高。最后根据候选文书与查询文本之间的文本相关度,获得上述多个候选文书。

22、上述实现方式,基于查询词项在候选文书中出现的频率以及查询文本的长度来决定候选文书与查询文本的文本相关度,这样查询词项在候选文书中出现的次数越多,查询文本的长度越短,候选文书与查询文本之间的相关性就越高,由于额外考虑了查询文本的长度,避免了由于查询词较多的查询可能获得更多的权重的出现,以此确定的文本相关度准确度较高,且步骤简单计算效率高,适用大规模信息检索。

23、在一可能的实现方式中,文本相关度模型可基于bm25算法和lmir算法实现,具体实现中,基于lmir算法获得候选文书与查询文本之间的第一文本相关度,基于bm25算法获得候选文书与查询文本之间的第二文本相关度,根据第一文本相关度和第二文本相关度的线性加权结果确定多个候选文书。其中,第一文本相关度和第二文本相关度的权重可以根据实际的应用场景进行调整,举例来说,查询文本长度较短时,第一文本相关度的权重大于第二文本相关度的权重,查询文本较长时,第二文本相关度的权重大于第一文本相关度的权重。应理解,上述举例用于说明,本技术不作限定。

24、上述实现方式,lmir算法根据查询文本中的单词和双词在候选文书中出现的概率来确定候选文书和查询文本之间的文本相关度,bm25根据查询文本的长度以及查询文本中的词语与候选文书之间的相关性来确定查询文本与候选文书之间的文本相关度,结合两种算法确定候选文书与查询文本之间的文本相关度,不仅准确性高,还能够处理不同类型的查询,拥有全局性、适应性和简单性等优点。

25、第二方面,提供了一种检索系统,该系统包括:候选生成单元,用于获取用户输入的查询文本,根据查询文本获取多个候选文书,其中,多个候选文书与查询文本之间的文本相关度高于阈值,排序单元,确定多个候选文书中每个候选文书与查询文本之间的法律相关度,按照法律相关度对多个候选文书进行排序,获得排序结果,排序单元,还用于向用户显示排序结果。

26、实施第二方面描述的系统,通过获取用户输入的查询文本,然后获取多个与查询文本之间的文本相关度较高的多个候选文书,然后确定每个候选文书与查询文本之间的法律相关度,并对多个候选文书进行排序获得排序结果,将其显示给用户,该系统先按照文本相关度筛选出多个候选文书,再按照法律相关度对多个候选文书进行排序,从而避免用户获得文本相同而非相关案例这一问题的出现,提高检索精度,提高用户的使用体验。

27、在一可能的实现方式中,排序单元,用于将每个候选文书和查询文本输入法律相关度模型,获得每个候选文书与查询文本之间的法律相关度,其中,法律相关度模型是使用样本集对ai模型进行训练后获得的,样本集包括输入样本和输入样本的标签,输入样本包括查询样本和候选文书样本,输入样本的标签包括候选文书样本与查询样本之间的法律相关度。

28、在一可能的实现方式中,输入样本的标签包括第一标签和第二标签,第一标签用于指示候选文书样本与查询样本之间的要件事实的相关度,第二标签用于指示候选文书样本与查询样本之间的案情事实之间的相关度。

29、在一可能的实现方式中,相关度模型包括特征提取网络和预测函数,排序单元,用于将每个候选文书拆分为多个片段,排序单元,用于将多个片段输入特征提取网络,获得多个片段对应的多个语义特征,排序单元,用于将多个片段对应的多个语义特征进行聚合获得聚合结果,排序单元,用于将聚合结果输入预测函数,获得每个候选文书与查询文本之间的法律相关度。

30、在一可能的实现方式中,样本集是对样本数据进行数据增强后获得的,数据增强时使用的方案包括:在第二样本是第一样本的候选文书样本的情况下,第一样本是第二样本的候选文书样本。

31、在一可能的实现方式中,数据增强时使用的方案还包括:在多个第二样本是第一样本的候选文书样本时,多个第二样本中的任意一个目标样本的候选文书样本包括第一样本以及除目标样本以外的其他第二样本。

32、在一可能的实现方式中,候选文书与查询文本之间的文本相关度,是根据查询文本中的单词和双词在候选文书中出现的概率来确定的。

33、在一可能的实现方式中,候选文书与查询文本之间的文本相关度,是根据查询文本的长度以及查询文本中的词语与候选文书中出现的频率确定的。

34、第三方面,提供了一种计算设备,计算设备包括存储器和处理器,存储器用于存储指令,处理器用于执行指令实现如第一方面描述的方法。

35、第四方面,提供了一种计算设备集群,该计算设备集群包括至少一个计算设备,至少一个计算设备中的每个计算设备包括处理器和存储器,至少一个计算设备的处理器用于执行至少一个计算设备的存储器中存储的指令,以使得计算设备集群实现如第一方面描述的方法。

36、第五方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,指令被计算设备或者计算设备集群运行时实现如第一方面描述的方法。

37、本技术在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1