基于知识图谱的法律条文精准搜索排序方法与流程

文档序号:15492611发布日期:2018-09-21 20:56阅读:475来源:国知局

本发明涉及法律条文搜索排序方法,具体涉及一种基于知识图谱的法律条文精准检索和搜索结果优先排序方法。



背景技术:

加强法制中国建设,推进依法治国基本方略尤为重要,依法行政是依法治国的重要环节。在各司法案中,所有案件都必须依法判决,司法人员除依靠自身业务知识和经验外,经常需要检索待办案件中涉及到的法律条文,精准、高效的进行法律条文的检索成了司法工作人员其他法律条文搜索人员的迫切需求。

随着人工智能的普及和高效运作,知识图谱作为一种人工智能的基础知识表示方法被引入了法律条文检索领域。知识图谱(knowledgegraph)描述了客观世界的概念、实体、事件及其之间的关系,使用知识图谱描述法律条文,使各门类的法条概念串联起来,概念关系更加清晰,在此基础上的对于法律条文的检索更加精准、高效。

由于现有的法律条文检索排序方法是基于关键字匹配程度基础上实现的,因此如果将不是法律条文中的法律概念作为关键字进行检索,就可能导致司法人员在工作中无法获得理想的法律条文搜索排序结果,或者需要反复更改关键字并且反复调整关键字的组合方式才能搜索到可用的法律条文结果。



技术实现要素:

本发明要解决的技术问题在于针对现有技术在法律条文的检索中通过不是法律概念进行检索无法获得理想的法律条文检索结果的缺陷,提供一种基于知识图谱的法律条文精准搜索排序方法。

本发明解决其技术问题所采用的技术方案是:

提供一种基于知识图谱的法律条文精准搜索排序方法,包括以下步骤:

s101、输入待搜索关键词;

s102、从法律知识图谱模型中获取与待搜索关键词匹配的主题词及该主题词的关联词,形成主题词库;关联词包括:上位主题、下位主题及标签同义词;其中,上位主题是指所代表的范围大的主题,下位主题是指所代表的范围小的主题,标签同义词为在标签中定义的代表范围相似的主题;主题词属性包括:主题词名称和主题词权值,权值范围为(0,1);

s103、根据与法律知识图谱模型中核心主题的关联关系,动态生成同一案由的主题词库中的主题词及其关联词的权值,权值越高说明与核心主题代表的范围越接近;

s104、获取主题词库的子集组合,依次形成个数为m,m-1,m-2…2的子集组合;

s105、从每个子集组合中各取出一个主题词形成最终用于搜索的主题词组合;

s106、以最终用于搜索的主题词组合中的个数和关键词总权重为依据对所有的子集组合进行排序;

s107、使用排序后选择的主题词组合在法律条文数据库中进行搜索,并对搜索结果进行排序显示。

接上述技术方案,根据在法律条文数据库中的搜索结果,在权值范围内调整关联词的权值。

接上述技术方案,步骤s107中,搜索时,记录主题词组合中的每一个主题词在法律条文文档中对应的位置及出现主题词的次数,按照法律条文文档中出现主题词的次数对法律条文进行排序,出现次数最多的法律条文排在搜索结果在最前面呈现。

接上述技术方案,所述法律知识图谱模型根据对所构建法律知识图谱的文件进行解析和转换而生成,该法律知识图谱模型对同一案由相关案件的主题词按照三个主要方面进行组织,对每个方面再进行分类,在每个分类中对其涉及的主题进行代表范围的分析,定义主题之间的上、下位或同位关系;三个主要方面包括主体、权利义务和客体、法律事实。

接上述技术方案,匹配到的主题词权值为1.0,其上位主题、下位主题以及上下位主题的标签同义词的权值为0.5。

接上述技术方案,匹配到的主题词权值为1.0,其第n层上位主题、第n层下位主题、第n层上下位主题的标签同义词的权值为0.5n,其中n为自然数。

本发明还提供一种基于知识图谱的法律条文精准搜索排序系统,包括:

输入模块,用于输入待搜索关键词;

主题词库生成模块,用于从法律知识图谱模型中获取与待搜索关键词匹配的主题词及该主题词的关联词,形成主题词库;关联词包括:上位主题、下位主题及标签同义词;其中,上位主题是指所代表的范围大的主题,下位主题是指所代表的范围小的主题,标签同义词为在标签中定义的代表范围相似的主题;主题词属性包括:主题词名称和主题词权值,权值范围为(0,1];

权值生成模块,用于根据与法律知识图谱模型中核心主题的关联关系,动态生成同一案由的主题词库中的主题词及其关联词的权值,权值越高说明与核心主题代表的范围越接近;

子集组合生成模块,用于获取主题词库的子集组合,依次形成个数为m,m-1,m-2…2的子集组合;从每个子集组合中各取出一个主题词形成最终用于搜索的主题词组合;以最终用于搜索的主题词组合中的个数和关键词总权重为依据对所有的子集组合进行排序;

搜索结果显示模块,用于使用排序后选择的主题词组合在法律条文数据库中进行搜索,并对搜索结果进行排序显示。

本发明还提供了一种计算机可读存储介质,包括可被处理器执行的计算机程序,该计算机程序具体执行如权利要求1-5中任一项所述的基于知识图谱的法律条文精准搜索排序方法。

本发明产生的有益效果是:本发明采用法律知识图谱描述法律主题词之间的逻辑关系、主题词与其他表述词汇之间的逻辑关系,通过对于法律知识图谱的解析和分析获取待搜索关键词的主题词库,对于主题词库中的主题词和关联词进行权值设置,通过组合权值的高低作为优先搜索的依据对搜索结果进行排序。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实施例一的基于知识图谱的法律条文精准搜索排序方法的流程图;

图2是本发明实施例二的基于知识图谱的法律条文精准搜索排序方法的流程图;

图3是关于财产权的法律知识图谱。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明实施例一中基于知识图谱的法律条文精准搜索排序方法主要包括以下步骤:

s101、输入待搜索关键词;

s102、从法律知识图谱模型中获取与待搜索关键词匹配的主题词及该主题词的关联词,形成主题词库;关联词包括:上位主题、下位主题及标签同义词;其中,上位主题是指所代表的范围大的主题,下位主题是指所代表的范围小的主题,标签同义词为在标签中定义的代表范围相似的主题;主题词属性包括:主题词名称和主题词权值,权值范围为(0,1];

s103、根据与法律知识图谱模型中核心主题的关联关系,动态生成同一案由的主题词库中的主题词及其关联词的权值,权值越高说明与核心主题代表的范围越接近;

s104、获取主题词库的子集组合,依次形成个数为m,m-1,m-2…2的子集组合;

s105、从每个子集组合中各取出一个主题词形成最终用于搜索的主题词组合;

s106、以最终用于搜索的主题词组合中的个数和关键词总权重为依据对所有的子集组合进行排序;

s107、使用排序后选择的主题词组合在法律条文数据库中进行搜索,并对搜索结果进行排序显示。

进一步地,根据在法律条文数据库中的搜索结果,可根据实际情形在权值范围内调整关联词的权值。

步骤s107中,搜索时,记录主题词组合中的每一个主题词在法律条文文档中对应的位置及出现主题词的次数,按照法律条文文档中出现主题词的次数对法律条文进行排序,出现次数最多的法律条文排在搜索结果在最前面呈现。

所述法律知识图谱模型根据对所构建法律知识图谱的文件进行解析和转换而生成,该法律知识图谱模型对同一案由相关案件的主题词按照三个主要方面进行组织,对每个方面再进行分类,在每个分类中对其涉及的主题进行代表范围的分析,定义主题之间的上、下位或同位关系;三个主要方面包括主体、权利义务客体、法律事实。

匹配到的主题词权值为1.0,其上位主题、下位主题以及上下位主题的标签同义词的权值为0.5-1,层数依次递增,权值也随之变化。

为实现上述方法,本发明还提供了基于知识图谱的法律条文精准搜索排序系统,包括:

输入模块,用于输入待搜索关键词;

主题词库生成模块,用于从法律知识图谱模型中获取与待搜索关键词匹配的主题词及该主题词的关联词,形成主题词库;关联词包括:上位主题、下位主题及标签同义词;其中,上位主题是指所代表的范围大的主题,下位主题是指所代表的范围小的主题,标签同义词为在标签中定义的代表范围相似的主题;主题词属性包括:主题词名称和主题词权值,权值范围为(0,1);

权值生成模块,用于根据与法律知识图谱模型中核心主题的关联关系,动态生成同一案由的主题词库中的主题词及其关联词的权值,权值越高说明与核心主题代表的范围越接近;

子集组合生成模块,用于获取主题词库的子集组合,依次形成个数为m,m-1,m-2…2的子集组合;从每个子集组合中各取出一个主题词形成最终用于搜索的主题词组合;以最终用于搜索的主题词组合中的个数和关键词总权重为依据对所有的子集组合进行排序;

搜索结果显示模块,用于使用排序后选择的主题词组合在法律条文数据库中进行搜索,并对搜索结果进行排序显示。

本发明的方法还可以存储于计算机可读存储介质,其包括可被处理器执行的计算机程序,该计算机程序具体执行上述实施例的基于知识图谱的法律条文精准搜索排序方法。

如图2所示,本发明实施例二的基于知识图谱的法律条文搜索排序方法,包括下列步骤:

s01,领域专家在mindmanager工具中构建法律知识图谱;

s02,通过对于法律知识图谱文件的解析和转换,生成法律知识图谱模型kgmodel(以下,法律知识图谱模型简称kgmodel),其中kgmodel对同一案由相关案件的主题词按照三个主要方面(包括主体、权利义务和客体、法律事实)进行组织,在每个方面中再进行分类(如主体进一步分为自然人、个体工商户和法人等),在每个分类中对其涉及的主题进行代表范围的分析,定义主题之间的上、下位或同位关系;

s03,导入法律条文数据库,数据库中有法律条文文档;

s04,输入待搜索关键词组合,关键词通常是三个方面(主体、权利义务、法律事实)各提出一个关键词组成组合;

s05,从kgmodel中获取与待搜索关键词匹配的主题词及该主题词的关联词(如图3所示,kgmodel中包括:上位主题suptopic、下位主题subtopic及标签同义词label)(其中,主题词属性包括:主题词名称和主题词权值),形成主题词库;(权值说明:权值范围为(0,1]。匹配到的主题词权值为1.0,其1层上位主题(下位主题)和上位主题(下位主题)的标签同义词的权值为0.5,其n层上位主题(下位主题)的上位主题(下位主题)及其相应的标签同义词的权值为0.5n;为方便说明,实施例的主题层数为3层,主题层数可依据需要设定)

s06,对于同一案由的主题词库中的主题词及其关联词的权值以实际语义关联情况为准,可以对其权值在权值范围内进行适当调整;

s07,获取主题词库的子集组合,例如:主题词库中主题词个数为m,则依次形成元素个数为m,m-1,m-2…2的子集组合;

s08,从n个子集组合中各取出一个元素(主题词)形成最终用于搜索的主题词组合;

s09,以最终用于搜索的主题词组合中的个数(优先),和主题词组合中关键词总权重(其次)为依据对所有的组合进行排序;

s10,使用组合排序的主题词组合在法律条文数据库中进行搜索并对搜索结果进行排序显示。搜索时,将主题词组合中的每一个主题词在法律条文文档中对应的位置(法律条文数据库导入时,法律知识图谱中所有的法律主题词会在法律条文数据库文档中搜索一遍,记录主题词在法律条文文档中出现的位置,存放在xml文档中)做交集,按照文档中出现主题词的次数对法律条文进行排序,出现次数最多的法律条文排在搜索结果的最前面呈现。

为进一步阐述上述方法,以下结合具体法律应用场景进行描述:

一、场景描述

(一)案件:

a房地产公司与b建筑公司签订建设工程施工合同,约定由b公司为a公司承建一栋商品房。合同签订后,为筹集工程建设资金,a公司与c银行签订借款合同,由a公司向c银行贷款3000万元,同时a公司以其开发的住宅建设用地的使用权做为抵押,为上述债务进行担保。后因a公司不能偿还c银行贷款,c银行欲对a公司的住宅建设用地及开发的商品房行使抵押权。

(二)司法人员需要查询问题:

c银行能否对a公司开发的商品房行使抵押权?

(三)用于搜索的关键词(输入关键词):

“商品房”,“行使抵押权”

二、具体步骤

步骤1:导入实施例中需要使用的法律知识图谱(由领域专家在mindmanager工具中构建)(如图3所示);

步骤2:通过对法律知识图谱文件的解析和转换,自动为法律知识图谱构建模型,形成主题词库;

步骤3:导入法律条文数据库,数据库中有法律条文文档;

步骤4:输入实施例中用于搜索的关键词:“商品房,行使抵押权”;

步骤5:自动计算“商品房”一词和kgmodel形成的主题词库中的主题词的相似度,获得与“商品房”一词匹配的主题词及该主题词的关联词;“行使抵押权”类似,依次自动进行匹配。匹配结果见表a-关键词匹配结果表;

表a-关键词匹配结果表

步骤6:根据案由的实际语义关联情况对关键词匹配结果中的权值进行调整,此处不做更改;例如:物业的权值为0.5,若搜索人员认为该词在本案中与案情相关性不大,可将其权值更改为区间(0,0.5)的任意值,然后进行查询;

步骤7:使用关键词匹配结果及修改后的权值(未修改时,使用匹配到的原始权值)进行组合;其中,若关键词没有匹配到与之完全相同的主题词,如上述的“行使抵押权”一词,匹配时未能找到完全匹配的主题词,在组合时会将用户输入的“行使抵押权”一词的权值赋为0.9,插入到主题词库中;

步骤8:获取主题词库的子集组合:当获得主题词个数为k(k>1)时依次形成元素为k,k-1,…,2,共(2^k)-k种集合组合;当k=1时获得1种集合组合,即其匹配到的主题词集合本身;当k不为1时,从上述(2^k)-k种集合组合中各取出一个元素(主题词)形成一种最终用于搜索的主题词组合。如上述2元集合组合中,假设一种二元集合组合为(a,b),其中a集合中元素为{a1,a2}、b集合中元素为{b1,b2},则会形成的主题词组合为[a1b1]、[a1b2]、[a2b1]、[a2b2];

步骤9:最终用于搜索的主题词组合中的个数为k,主题词组合中关键词总权重依照法律数据库有所变化,排序时以主题词组合的个数(优先)和总权重(其次)为依据对所有的词组组合进行排序;

步骤10:使用组合排序的主题词组合在法律条文数据库中进行搜索。搜索时,将用户输入的待搜索词(“商品房”“行使抵押权”)形成的主题词组合中的每一个主题词在法律条文文档中对应的位置(法律条文数据库导入时,法律知识图谱中所有的法律主题词会在法律条文数据库文档中搜索一遍,记录主题词在法律条文文档中出现的位置,存放在xml文档中)做交集,按照文档中出现主题词的次数对法律条文进行排序,出现次数最多的法律条文排在搜索结果的最前面呈现。

综上,本发明使用法律知识图谱的解析和转换生成的法律知识图谱模型可以获取待搜索关键词在知识图谱中对应的主题词,并获取这些主题词的关联词,即上位主题、下位主题、标签同义词进行检索,根据主题词及其关联词构成的搜索词组合能够使法律条文搜索结果从无到有、从有到优,即搜索结果覆盖范围更全面、更精确;本发明还可以根据同一类案由的案件实际情况进行主题词权值调整,并且根据主题词权值组合对搜索结果进行排序推送,能够帮助司法人员和其他法律条文搜索人员快速和准确地获得与案件相关的所有法律条文,增强了法律条文检索结果的实用性。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1