一种法律数据库构建方法及法律检索服务方法

文档序号:6548547阅读:214来源:国知局
一种法律数据库构建方法及法律检索服务方法
【专利摘要】本发明提供一种法律数据库构建方法,包括:1)对于一个新的法律文本,按条目拆分所接收的法律文本,得到相应的法律条目文档并创建相应的唯一标识;2)对每个法律条目文档进行分词,对于分词所得的每个词项,在基于内容的倒排索引中建立或更新该词项所对应的唯一一条记录,所述基于内容的倒排索引的每条记录均包括:内容中出现该条记录所对应词项的每个法律条目文档及相应的索引信息;3)回到步骤1)处理下一个法律文本直至所有法律文本均处理完毕。本发明还提供了相应的检索服务方法。本发明使得一次检索即可获得精确到法律条目的检索结果。
【专利说明】一种法律数据库构建方法及法律检索服务方法
【技术领域】
[0001]本发明涉及计算机文本信息检索,具体地说,本发明涉及一种法律数据库构建方法及法律检索服务方法。
【背景技术】
[0002]信息检索是指将记录信息的资料按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。利用信息检索技术,人们可以更加容易的从海量的资料中寻找到需要的知识,提高了知识获取的效率。
[0003]法律检索系统是将信息检索技术作用于法律法规文本的一种应用,可以帮助各级人大机关、党政机关,法院、检察院、律师事务所等法律从业机构的工作人员,快速找到所需的法律法规信息。同时,法律检索系统也向社会大众提供法律检索服务。
[0004]目前的法律检索系统,如全国人大的“中国法律法规检索系统”,北京大学的“北大法宝”等,都是针对法律法规全文及其标题、日期、发布部门、法规分类、效力级别、时效性等元数据组合信息进行检索,返回的检索结果以法律法规全文为基本单位。然而用户往往需要找到案情可能适用的法条,所以在获得检索结果后,用户还需要进一步地自行查找相关法条。
[0005]另一方面,用户往往期望找到与案情相关的所有相关法条,目前的法律检索都是对关键字的精确匹配,如果关键字不够准确,检索出的结果就可能存在遗漏,有的相关法条可能不在检索结果范围之内。因此为找到更多的相关法条,用户往往需要尝试使用多种关键字或关键字组合,进行多次、反复检索,才能最终找到所需的多个相关法律条目。因此,现有法律检索的便捷性亟待提高。
[0006]因此,当前迫切需要一种能够帮助用户更快速地找到所需的法律法规信息的法律检索服务方案。

【发明内容】

[0007]因此,本发明的任务是克服现有技术的不足,提供一种能够帮助用户更快速地找到所需的法律法规信息的法律检索服务方案。
[0008]本发明提供了一种法律数据库构建方法,包括下列步骤:
[0009]I)法律数据库接收一个新的法律文本,按条目拆分所接收的法律文本,得到相应的法律条目文档并创建相应的唯一标识;
[0010]2)对每个法律条目文档进行分词,对于分词所得的每个词项,在基于内容的倒排索引中建立或更新该词项所对应的唯一一条记录,所述基于内容的倒排索引的每条记录均包括:内容中出现该条记录所对应词项的每个法律条目文档及相应的索引信息;
[0011]3)回到步骤I)接收下一个法律文本并进行相应的处理,直至所有法律文本均处
理完毕。
[0012]其中,所述步骤2)中,所述索引信息包括:所对应词项的逆文档频率,以及所对应词项出现在每个法律条目文档的词频;其中,所述逆文档频率是基于法律数据库中的法律条目文档的逆文档频率。
[0013]其中,所述步骤2)包括下列子步骤:
[0014]21)遍历拆分得到的每个法律条目文档,对于当前法律条目文档,对其进行分词;
[0015]22)遍历分词得到的所有词项,对每一个词项,计算当前词项出现在所述当前法律条目文档中的词频,在基于内容的倒排索引中查找对应于所述当前词项的记录,如果查找到已存的所述当前词项的记录,在记录中增加所述当前法律条目文档的标识,以及所述当前词项在所述当前法律条目文档中出现的词频,并更新所述当前词项的逆文档频率;如果未查找到已存的所述当前词项的记录,则在所述基于内容的倒排索引的词典中增加所述当前词项,同时增加一条新的记录,所述新的记录包括所述当前词项的逆文档频率,所述当前法律条目文档的标识,以及所述当前词项在所述当前法律条目文档中出现的词频。
[0016]本发明还提供了一种基于上述法律数据库的法律检索服务方法,包括下列步骤:
[0017]4)获取作用于内容域的检索向量;
[0018]5)对于检索向量中的每个关键词,根据基于内容的倒排索引,找到内容中出现该关键词的每个法律条目文档及相应的索引信息;
[0019]6)根据相应的索引信息对命中的法律条目文档进行排序。
[0020]其中,所述步骤5)中,所述索引信息包括:所对应词项的逆文档频率,以及所对应词项出现在每个法律条目文档的词频;其中,所述逆文档频率是基于法律数据库中的法律条目文档的逆文档频率。
[0021]其中,所述步骤6)包括下列子步骤:
[0022]61)对于步骤5)中命中的每个法律条目文档,得到维度与所述检索向量一致的法律条目文档向量,所述法律条目文档向量的每个元素对应于一个关键词,每个元素的值根据步骤5)所找到的该关键词的逆文档频率,以及该法律条目文档的内容中出现该关键词的词频得出;
[0023]62)将法律条目文档向量和检索向量的相似度作为相应法律条目文档的检索相似度,根据所述检索相似度对各个命中的法律条目文档进行排序。
[0024]其中,所述步骤62)中,所述的法律条目文档向量和检索向量的相似度为法律条目文档向量和检索向量的余弦相似度。
[0025]其中,所述步骤6)中,所述法律条目文档向量中,每个元素的值为步骤5)所找到的该元素所对应的关键词的逆文档频率,和该法律条目文档的内容中出现该元素所对应的关键词的词频的乘积。
[0026]其中,所述法律条目文档包括元信息和内容,所述元信息包括法律条目所属法律文本的标题,以及法律条目在所属法律文本中的所属章节和编号。
[0027]其中,所述步骤6)还包括:将命中的法律条目文档的所属法律作为命中法律,根据各个命中的法律条目文档的所述检索相似度,得出每个命中法律的检索相似度对各个命中法律进行排序,然后依排序显示每个命中法律中的命中的各个法律条目文档的内容和元信息。
[0028]其中,所述法律检索服务方法还包括步骤:
[0029]7)对于每个命中法律,根据该命中法律与所述法律数据库中其它法律的相似度,查找并显示该命中法律的相关法律;
[0030]所述相关法律根据法律之间的相似度确定,其中,两个法律之间的相似度按下述方法得出:对所有法律标题进行分词获得一系列词项,并根据词性提取出标题中的属于主语结构、谓语结构和宾语结构的词项,用所提取出的词项构成特征子空间,将所有法律标题都转换为所述特征子空间上的词项向量的表述形式,将两个法律标题所对应的两个词项向量的在所述特征子空间的相似度作为所述两个法律之间的相似度。
[0031]其中,所述步骤7)中,对于每个命中法律,显示该命中法律与其相关法律的关联关系图,所述关联关系图包括:一系列点和连接各点的边,每个点代表所述命中法律或者一个该命中法律的一个相关法律,每条边上显示其两个端点所对应的两个法律之间的相似度。
[0032]与现有技术相比,本发明具有下列技术效果:
[0033]1、一次检索即可获得精确到法律条目的检索结果。
[0034]2、不仅能获得与检索语句匹配的法律条目,还可以进一步获得所有相关法律,从而帮助用户更全面地找到与案情相关的所有法条,降低了法律法规信息的检索难度。
【专利附图】

【附图说明】
[0035]以下,结合附图来详细说明本发明的实施例,其中:
[0036]图1示出了本发明一个实施例的整体流程示意图;
[0037]图2示出了本发明一个实施例中建立以法律条目文档为存储单元的法律数据库的流程示意图;
[0038]图3示出了本发明一个实施例中的倒排索引中词典与索引记录表的结构实例;
[0039]图4示出了本发明一个实施例中的检索服务的流程示意图;
[0040]图5示出了本发明一个实施例中的关联检索服务的流程示意图;
[0041]图6示出了本发明一个实施例中的命中法律及其相关法律的关联关系图示例。
【具体实施方式】
[0042]根据本发明的一个实施例提供了一种法律检索服务方法,如图1所示,它包括三个部分。第一部分是:建立以法律条目文档为存储单元的法律数据库,以及相应的倒排索弓I。第二部分是:接收检索语句,基于法律数据库及相应的倒排索引,返回精确到法律条目的检索结果。第三部分是:基于第二部分的检索结果,进一步查找检索结果所属法律的相关法律,并将所找到的相关法律加入检索结果。下面对这三个部分分别进行详细描述。
[0043]一、建立以法律条目文档为存储单元的法律数据库,以及相应的倒排索引。现有技术中,通常由整部法律构成一个法律文档,法律数据库通常以法律文档为单位存储法律数据。而本实施例中,法律数据库中以法律条目文档为基本存储单元。即每个法律条目各自构成一个文档。为便于理解,下面以《中华人民共和国全国人民代表大会及地方各级人民代表大会选举法》这一法律文档为例进行说明。该法律文档中,其文本主要包括:标题,题注,目录,正文。
[0044]图2示出了本发明一个实施例中建立以法律条目文档为存储单元的法律数据库的流程示意图,参考图2,将法律文档依次输入法律数据库,对于每个法律文档,执行下列步骤11至14。
[0045]步骤11:对法律文档结构进行识别及拆分。通过预先定义的规则,识别法律文档的结构信息,如篇、章、节;进一步识别并定位法律文本中的每一条目,并将其按条目一一拆分。其中,将正文按条目拆分为N个子文档,以《中华人民共和国全国人民代表大会及地方各级人民代表大会选举法》的法律文档为例,其条目共有66条,所以,将其拆分为66个子文档。其中,每个子文档均包括:法律条文内容,所属法律标题及其在所属法律中的层次结构。例如:《中华人民共和国全国人民代表大会及地方各级人民代表大会选举法》第一条所对应的子文档存储有法律条文内容:根据中国人民政治协商会议共同纲领第十二条,中华人民共和国全国人民代表大会及地方各级人民代表大会由各民族人民用普选方法产生之;所属法律标题:中华人民共和国全国人民代表大会及地方各级人民代表大会选举法;在所属法律中的层次结构:第一章第一条。
[0046]步骤12:对拆分好的子文档(即法律条目文档)建立索引。经过拆分后,将每一个条目作为一个子文档,在内容域上进行分词(即对子文档的内容部分进行分词),对于分词得到的每个词项(重复出现的词汇被视作同一词项),统计其词频(tf)及逆文档频率(idf),并在此基础建立倒排索引。倒排索引分为词典和倒排记录表两部分。图3示出了一个倒排索引中词典与索引记录表的结构实例。如图3所示,对于一条记录,由一个词项作为其唯一标识,存储在倒排索引的词典中。同时,词典中还存储倒排记录表中对应记录的链接以及该条记录的词项在法律数据库中的逆文档频率,需注意的是该逆文档频率是基于法律数据库中的所有法律条目文档所计算的逆文档频率,而非常见的基于法律文档所计算的逆文档频率。在倒排记录表中,每条记录以链表的形式存储,包含了所有出现该词项的法律条目,如图3的倒排记录表中对应于词项I的记录,其四个节点分别代表法律条目文档1,2,3,4,这表示法律条目文档1,2,3,4中都出现了词项I,对应于词项2的记录,其两个节点分别代表法律条目文档5,6表示法律条目文档5,6中都出现了词项2。其中,每个代表法律条目文档的节点均记录法律条目的id,词项出现在该法律条目子文档中的频率,以及词项出现在该法律条目子文档中的位置等其他信息。
[0047]步骤13:对法律的标题,以及发布时间,发布机构等其它信息域建立索引。其中,对标题进行分词而后建立相应的倒排索引,其它各域不进行分词,而是将每一个域的整体内容作为一个词项。例如:发布机构为中央人民政府委员会时,在该倒排索引中,“中央人民政府委员会”整体作为一个词项。
[0048]步骤14:将内容域、标题域以及发布时间,发布机构等其它元数据信息域的多个倒排索引以文件的形式存储在系统中。
[0049]二、接收检索语句,基于法律数据库及相应的倒排索引,返回精确到法律条目的检索结果。本实施例可以提供多域组合检索服务。同时,它可以将属于同一部法律法规的多条相关条目归为一类,并组合显示。通常来说,检索服务分可为简单和高级两种模式。简单模式是在标题和内容域上检索相同的检索语句,该模式下用户直接输入检索语句即可。高级模式则可以通过元数据信息域支持对于元数据的枚举筛选,该模式下用户需要指定需要检索的域以及在该域上输入检索语句或选择枚举值。例如“内容:消费权益保障&标题:保护法&发布机构(枚举值):全国人民代表大会”。检索服务返回检索相关的条目内容与其元数据信息。检索语句可以是词汇(如“经济”)、词汇集合(如“经济政策”)或短语(如“经济政策”)。针对不同的信息域,通常会有不同的检索服务方式,例如,对内容域和标题域,检索语句通常需要进行分词,而其它元信息域的检索语句则不做分词处理,直接把检索语句作为相应元信息域的关键词即可。本实施例的精确到法律条目的检索主要是指作用于内容域的检索服务上,因此下文中主要对作用于内容域的检索服务进行描述,其余与本发明主旨无关的部分,本文中不再赘述。
[0050]图4示出了本发明一个实施例中的检索服务的流程示意图,参考图4,检索服务包括下列步骤21至24。
[0051]步骤21:接收作用于内容域的检索语句。如前文所述,检索语句可以是词汇(如“经济”)、词汇集合(如“经济政策”)或短语(如“经济政策”)。
[0052]步骤22:对检索语句进行分词,获得相应的一个或多个检索关键词,组成检索向量。
[0053]步骤23:在内容域上,对于每个关键词,基于该域的倒排索引,找到该关键词的逆文档频率,出现该关键词的每个法律条目文档,以及该关键词在相应法律条目文档中的词频。倒排索引中存储了法律数据库中属于该域的所有词项的索引记录,查找到关键词对应的词项的索引,就可得到所需的信息。例如关键词为“经济”和“政策”时,在倒排索引分别查找到词项“经济”的索引记录以及“政策”的索引记录,这样就可以从“经济”的索引记录中得到词项“经济”的逆文档频率,含有“经济”的每个法律条目文档,以及“经济”在每个法律条目文档中出现的词频。同样地,从“政策”的索引记录中,获取词项“政策”的逆文档频率,含有“政策”的每个法律条目文档,以及“政策”在每个法律条目文档中出现的词频。此时,对词项“经济”和“政策”的法律条目文档列表取并集,就获得了该域上所有的与检索相关的文档。如果所选择的是高级检索模式,则在所有域上基于对应的一个或多个关键词进行检索。
[0054]步骤24:计算查找到的每个法律条目文档的检索相关度,根据检索相关度对查找到的各法律条目文档进行排序,其中检索相关度越大,排序越靠前。然后将排序后的所述查找到的各法律条目文档的信息作为检索结果。其中,对于仅作用于内容域的检索,基于步骤23得到维度与所述检索向量一致的法律条目文档向量,所述法律条目文档向量的每个元素对应于一个关键词,每个元素的值根据步骤23所找到的该关键词的逆文档频率,以及该法律条目文档的内容中出现该关键词的词频得出。可以直接将法律条目文档向量和检索向量的相似度作为相应法律条目文档的在内容域的检索相似度,根据所述检索相似度对各个命中的法律条目文档进行排序。这样就能呈现出检索语句在内容域上的综合检索结果。所述的法律条目文档向量和检索向量的相似度为法律条目文档向量和检索向量的余弦相似度。所述法律条目文档向量中,每个元素的值为步骤23所找到的该元素所对应的关键词的逆文档频率和该法律条目文档的内容中出现该元素所对应的关键词的词频的乘积。
[0055]而对于高级模式的检索,一个法律条目文档的检索相关度是该法律条目文档对应于各个域的相关度的线性加权和,一个法律条目文档对应于一个域的相关度等于在文本的向量空间模型下,该域上的条目文档的向量表示和检索内容的向量表示(即检索向量)的余弦相似度。条目文档的向量表示中,用词项的逆文档频率与该词项在该法律条目文档中的词频的乘积作为每一维的数值,检索内容的向量表示中,则只用词项的词频作为每一维的数值。这样就能呈现出检索语句的综合检索结果,并且其排序考虑了各个域,及各域上多个关键词的不同影响。
[0056]进一步地,在一个实施例中,根据步骤24中查找到的法律条目文档(即命中的法律条目文档)的所属法律,以法律为基础的对法律条目文档进行整合归类。计算整个法律文本的检索相关度并基于整个法律文本的检索相关度参与检索相关度排序,整个法律文本的检索相关度等于所查找到的属于它的各个法律条目文档的检索相关度之和。这样就将检索获得的条目列表按照法律进行整合归类,并在原有的条目相关度的基础上,重新计算法律的相关度值,重新排序,达到以法律为单位集中显示,并仅列出该部法律中相关条目而非全文,且法律中的条目按相关度有序的呈现效果。这种方案能够使得检索结果更有逻辑性,更加美观且便于用户浏览。
[0057]三、基于第二部分的检索结果,进一步查找检索结果所属法律的相关法律,并将所找到的相关法律加入检索结果。这一部分实质上是一种关联检索服务,它针对法律法规这种具有一定规范化结构的文本,进行关联度的计算,并提取出关联的图形化描述,从而更加直观地展示法律法规直接的关联,以便于用户查阅与检索结果相关联的信息。
[0058]图5示出了本发明一个实施例中的关联检索服务的流程示意图,参考图5,关联检索服务包括下列步骤31至34。
[0059]步骤31:法律特征提取。由于法律文本具有一定的规范化结构,特别是其命名,很大程度上表明了法律法规所关心的领域和主题。因此,可以通过对其标题进行分析,获取法律主题,并将其用特征向量子空间下的向量表示。其中,根据对法律法规标题的分析,其标题的语法结构相对简单,标题中的主语、宾语(名词部分)和谓语(动词部分)基本涵盖了法律法规主要表达的内容。通过分词以及词性分析,能够容易的找到标题中的主、谓、宾语成分,并将其提取为代表标题的特征。
[0060]下面结合具体三篇法律标题的具体例子进行说明。首先经过中文分词,将法律的标题拆分成一个个词项。其中,对于法律I的标题:中华人民共和国外商投资企业和外国企业所得税法,其分词结果为:
[0061]中华人民共和国外商投资企业和外国企业所得税法
[0062]对于法律2的标题:关于外国投资者并购境内企业的规定,其分词结果
[0063]为:
[0064]关于外国投资者并购境内企业的规定
[0065]对于法律3的标题:关于电子专利申请的规定,其分词结果为:
[0066]关于电子专利申请的规定
[0067]这三篇法律标题组成的向量空间为所有词项所构成的集合,具体如下:{并购,的,电子,法,关于,规定,和,境内,企业,申请,所得税,投资,投资者,外国,外商,中华人民共和国,专利}。
[0068]将每篇法律标题均用属于上述向量空间的向量表示,向量中每个元素代表一个词项,该元素的值代表相应的词频。
[0069]具体地三篇法律标题的向量表示如下:
[0070]
【权利要求】
1.一种法律数据库构建方法,包括下列步骤: 1)对于一个新的法律文本,按条目拆分所接收的法律文本,得到相应的法律条目文档并创建相应的唯一标识; 2)对每个法律条目文档进行分词,对于分词所得的每个词项,在基于内容的倒排索引中建立或更新该词项所对应的唯一一条记录,所述基于内容的倒排索引的每条记录均包括:内容中出现该条记录所对应词项的每个法律条目文档及相应的索引信息; 3)回到步骤I)处理下一个法律文本直至所有法律文本均处理完毕。
2.根据权利要求1所述的法律数据库构建方法,其特征在于,所述步骤2)中,所述索引信息包括:所对应词项的逆文档频率,以及所对应词项出现在每个法律条目文档的词频;其中,所述逆文档频率是基于法律数据库中的法律条目文档的逆文档频率。
3.根据权利要求2所述的法律数据库构建方法,其特征在于,所述步骤2)包括下列子步骤: 21)遍历拆分得到的每个法律条目文档,对于当前法律条目文档,对其进行分词; 22)遍历分词得到的所有词项,对每一个词项,计算当前词项出现在所述当前法律条目文档中的词频,在基于内容的倒排索引中查找对应于所述当前词项的记录,如果查找到已存的所述当前词项的记录, 在记录中增加所述当前法律条目文档的标识,以及所述当前词项在所述当前法律条目文档中出现的词频,并更新所述当前词项的逆文档频率;如果未查找到已存的所述当前词项的记录,则在所述基于内容的倒排索引的词典中增加所述当前词项,同时增加一条新的记录,所述新的记录包括所述当前词项的逆文档频率,所述当前法律条目文档的标识,以及所述当前词项在所述当前法律条目文档中出现的词频。
4.一种基于权利要求1所述法律数据库构建方法的法律检索服务方法,包括下列步骤: 4)获取作用于内容域的检索向量; 5)对于检索向量中的每个关键词,根据基于内容的倒排索引,找到内容中出现该关键词的每个法律条目文档及相应的索引信息; 6)根据相应的索引信息对命中的法律条目文档进行排序。
5.根据权利要求4所述的法律检索服务方法,其特征在于,所述步骤5)中,所述索引信息包括:所对应词项的逆文档频率,以及所对应词项出现在每个法律条目文档的词频;其中,所述逆文档频率是基于法律数据库中的法律条目文档的逆文档频率。
6.根据权利要求5所述的法律检索服务方法,其特征在于,所述步骤6)包括下列子步骤: 61)对于步骤5)中命中的每个法律条目文档,得到维度与所述检索向量一致的法律条目文档向量,所述法律条目文档向量的每个元素对应于一个关键词,每个元素的值根据步骤5)所找到的该关键词的逆文档频率,以及该法律条目文档的内容中出现该关键词的词频得出; 62)将法律条目文档向量和检索向量的相似度作为相应法律条目文档在内容域的检索相似度,根据所述检索相似度对各个命中的法律条目文档进行排序。
7.根据权利要求6所述的法律检索服务方法,其特征在于,所述步骤62)中,所述的法律条目文档向量和检索向量的相似度为法律条目文档向量和检索向量的余弦相似度。
8.根据权利要求7所述的法律检索服务方法,其特征在于,所述步骤6)中,所述法律条目文档向量中,每个元素的值为步骤5)所找到的该元素所对应的关键词的逆文档频率,和该法律条目文档的内容中出现该元素所对应的关键词的词频的乘积。
9.根据权利要求6所述的法律检索服务方法,其特征在于,所述法律条目文档包括元信息和内容,所述元信息包括法律条目所属法律文本的标题,以及法律条目在所属法律文本中的所属章节和编号。
10.根据权利要求9所述的法律检索服务方法,其特征在于,所述步骤6)还包括:将命中的法律条目文档的所属法律作为命中法律,根据各个命中的法律条目文档的所述检索相似度,得出每个命中法律的检索相似度对各个命中法律进行排序,然后依排序显示每个命中法律中的命中的各个法律条目文档的内容和元信息。
11.根据权利要求10所述的法律检索服务方法,其特征在于,所述法律检索服务方法还包括步骤: 7)对于每个命中法律,根据该命中法律与所述法律数据库中其它法律的相似度,查找并显示该命中法律的相关法律; 所述相关法律根据法律之间的相似度确定,其中,两个法律之间的相似度按下述方法得出:对所有法律标题进行分词获得一系列词项,并根据词性提取出标题中的属于主语结构、谓语结构和宾语结构的词项,用所提取出的词项构成特征子空间,将所有法律标题都转换为所述特征子空间上的词项向量的表述形式,将两个法律标题所对应的两个词项向量的在所述特征子空间的相似度作为所述两个法律之间的相似度。
12.根据权利要求11 所述的法律检索服务方法,其特征在于,所述步骤7)中,对于每个命中法律,显示该命中法律与其相关法律的关联关系图,所述关联关系图包括:一系列点和连接各点的边,每个点代表所述命中法律或者一个该命中法律的一个相关法律,每条边上显示其两个端点所对应的两个法律之间的相似度。
【文档编号】G06F17/30GK104008171SQ201410242810
【公开日】2014年8月27日 申请日期:2014年6月3日 优先权日:2014年6月3日
【发明者】刘婕, 张程, 赵晓芳 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1