一种基于法律专家知识库的上下文推理方法与流程

文档序号:18257990发布日期:2019-07-24 10:26阅读:164来源:国知局
一种基于法律专家知识库的上下文推理方法与流程

本发明涉及法律文本分析技术领域,具体是一种基于法律专家知识库的上下文推理方法。



背景技术:

法律领域中存在大量的自然语言文本,智能化需要做好自然语言理解的工作,而上下文推理是NLU中一个至关重要的领域,上下文推理可以直观地理解为解决基于上下文的推理机制的理解问题。处理好法律文本的上下文推理才能真正意义上实现人工智能在法律文本领域的各项应用,如智能问答、智能摘要等。目前在法律领域,并没有实质意义上的法律文本上下文推理的技术方案。

中国专利CN105808568A和CN 105677671A分别从效率和不确定性两个方法介绍了两种通用的上下文推理方法,通过分布式提高上下文推理效率,针对不确定性问题采用独特的推理方法提高准确率。但是,现有技术中的这些推理方法具有以下缺点,即目前法律文本领域未有完善易用的上下文推理方法,法律领域是一个专业领域,通用的方法在该领域并不可行。究其原因,一是法律领域的文本存在一个文本里有多法律意图(要素)的可能性,一个法律事实可能对应多个诉讼请求,不是简单的一对一推理;二是,法律文本中的多个法律意图(要素)存在递进关系,可以形成一个有向的概念图;三是,法律文本中存在多个法律主体,多个法律事件的复杂关系。

因此,本发明提供了一种基于法律专家知识库的上下文推理方法,以解决上述背景技术中提出的问题。



技术实现要素:

本发明的目的在于提供一种基于法律专家知识库的上下文推理方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种基于法律专家知识库的上下文推理方法,其特征在于,其包括以下步骤:

(1)构建语义向量空间,分为语义向量空间构建和语义向量空间映射,其包括语义向量空间构建和语义空间映射;

(2)法律实体识别;

(3)法律文本语义分析;

(4)隐含语义推理,其包括获取候选知识点、树构建法构建知识路径、获取候选隐含语义和推理结果评估分析;

(5)专家知识库更新;

其中,在所述步骤(4)中,获取候选知识点采用语义空间向量获取候选节点、树构建法构建知识路径这两个步骤获取候选的知识路径;

且获取候选隐含语义是针对候选知识点,结合专家知识库中的已有知识决策路径和语义分析结果,采用多种推理方法进行候选隐含语义推理;

其多种推理方法至少包括基于PMI的节点评分方法、一阶谓词逻辑推理方法、贝叶斯推理方法、神经网络推理方法。

进一步,作为优选,在所述步骤(1)中,所述语义向量空间构建是通过基于法律文本语料库构建一个法律语义向量库,将文本单元映射到语义空间上的向量,文本单元之间的语义相似度是根据对应向量在语义空间中的距离进行比较,语义接近的词;构建语义向量的训练数据的选择原则是法律相关文本,如裁判文书、法律法规、相关普法文章,作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库,以供其它模块在语义映射时使用。

进一步,作为优选,在所述步骤(1)中,语义空间映射是将专家知识库中表示专家知识的文本映射为语义空间中的向量,具体步骤如下:

(i)对专家知识库的知识图谱中的边/节点(这里的边是指知识图谱中实体节点与实体节点之间的关系及其自身的属性,节点是指知识图谱中的实体及其自身的相关属性中的词语进行过滤处理,去除其中无语义的停用词;

(ii)对经步骤(i)操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义向量空间中的映射向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/节点的总体语义向量。

进一步,作为优选,在所述步骤(2)的法律实体识别中,是针对待处理的法律文本进行分词处理,去除停用词后使用实体识别模型进行实体标注识别;同时,该模型还具有未知实体发现的作用,针对模型中不存在的实体,通过总结实体特征,发现具有相同特征的新法律实体;

其中,所述实体识别模型是构建法律文本及其标注的法律实体语料,通过相关算法进行机器学习训练,得到用于实体标注识别和新实体发现的模型。

进一步,作为优选,在所述步骤(3)的法律文本语义分析中,使用语义分析工具进行语义分析,语义分析的结果包括词性结果、句法分析结果、依存关系分析结果,上述语义分析结果将作为后续候选知识路径构建的辅助判断信息,这里的知识点和知识路径是等同的。

进一步,作为优选,在所述步骤(4)中,语义空间向量获取候选节点是将实体识别的结果映射到语义向量空间中,同专家知识库中的语义向量进行比较,结合语义分析结果,取相似度最高的多个专家知识库知识实体节点,通过树构建法构建知识路径,作为候选知识点。

进一步,作为优选,在所述步骤(4)中的树构建法构建知识路径中,构建方法如下:

①选择法律实体 e1 –工作为树根,其中,e1是上述多个专家知识库实体节点的一个;

②第一过程为直接关联,首先在专家知识库中选择关系 r1 可以一步跳到 e1 的法律实体 e2 ,其中 e2 的约束条件为:一步跳到e1 ,并且同时在法律文本和专家知识中出现;

③第二过程为多跳关联,其中,多跳关联是指在专家知识中选择关系 r2 可以链接 e2 和 e3;

④第三个过程外部关联,这步扩大的链接知识库的范围,这个过程的e4 仅在专家知识中,并且是e3的邻居,e3的邻居就是可以一步跳到e3,这个过程通过有用的外部信息的收集来完善上下文中的路径;

⑤第四个过程上下文关联,上一个过程发散了知识库的范围,将范围收敛来确保外部知识确实对任务有用,具体实现是在专家知识中选择关系 r4 可以通过 e3或e4 链接e3或e4 和e5,e5 同时属于专家知识和上下文。

进一步,作为优选,在所述步骤(4)中,获取候选隐含语义是针对候选知识点,结合专家知识库中的已有知识决策路径和语义分析结果,采用多种推理方法进行候选隐含语义推理;具体的推理方法包括:

(a)、基于PMI的节点评分方法

基于上述树构建产生的对于在法律文本上下文中的节点打分函数计算为:

|C| 是上下文的长度, count(c) 函数是法律实体在法律文本中的次数;

对于不在文中的节点 ,通过逻辑一致路径更为频繁出现的启发,评分函数使用的是计算点互信息PMI,通过 e4 和 e{1-3} 的点信息:

其中路径指专家知识库和语义知识库中的知识路径,并对计算的PMI做归一化--NPMI:

又因为不同分支、不同层级的节点不存在竞争,对同层的兄弟节点进行标准化:

获取节点的初始分数后,采用一种启发式的累计节点打分方法,累计节点打分方法是一种自底向上的迭代,从叶子节点开始,叶子节点不需要更新,更新公式为:

其中e为非叶子节点,f(e)是节点的函数,计算方法为选择该节点e的孩子节点中c-score最高的两个,取两者的平均值;

最后计算知识路径的得分,采用知识路径的各个节点c-score的累加值:

设定一个阈值,认为score(p)小于该阈值的知识路径为无效路径;

(aa)、一阶谓词逻辑推理方法是基于专家知识库和语义知识库,将与候选知识点关联的知识转化为谓词公式,转化方法如下:定义谓词及个体,确定每个谓词及个体的确切含义;根据所要表达的事物或概念,为每个谓词中的变元赋以特定的值;根据所要表达的知识的语义,用适当的连接符号将各个谓词连接起来,形成谓词公式;根据知识库对上述方法产生的谓词公式求真值,保留真值为True的知识,过滤真值为False的知识;

(aaa)、贝叶斯推理方法,是对条件概率公式进行变形,可以得到如下形式:

其中,公式中有四个概率即P(A|B)、P(B|A)、P(A)和P(B),分别称之为后验概率、似然条件、先验概率和归一化常数;

P(B|A)/P(B)称为“可能性函数”,是一个调整因子,使得预估概率更接近真实概率,条件概率可以理解为下面的式子:

先预估一个“先验概率”,然后加入实验结果,看这个实验到底是增强还是消弱了“先验概率”,由此得到更接近事实的“后验概率”,也就是推理结果;

(aaaa)、神经网络推理方法是以语义向量化的专家知识库、语义知识库和法律文本语料作为训练语料,采用循环神经网络算法训练的法律文本隐含语义神经网络推理模型;通过该模型,输入实体识别和语义分析结果,可以得到可能的隐含语义及其置信度。

进一步,作为优选,在所述步骤(5)专家知识库更新中,具体步骤如下:

(b)专家知识自动生成

根据新实体发现和隐含语义推理结果,根据实体关系和实体关联度组合生成可能的新知识点,使用以下公式计算可能的新知识点分数,对于大于一定阈值,阈值通常为0.8的知识点,进入步骤(bb);

其中truth为一阶谓词逻辑推理结果,取值为0或1,pmi为基于PMI的打分推理方法结果,bayes为贝叶斯推理结果,nn为神经网络推理结果,、和分别为上述三个结果的权重,通常取1/3;

(bb)专家知识审核:由法律专家团队针对上述步骤中生成的筛选后的知识点进行审核和二次编辑;

(bbb)专家知识入库:将经过审核的知识点加入原有的专家知识库中,更新语料库,重新构建语义向量空间和专家知识权重。

与现有技术相比,本发明的有益效果是:

(1)本发明基于专家知识库,通过实体识别、语义分析,根据上下文推理理解法律文本中的隐含语义内容,并将推理过程中产生的新实体和不包含在专家知识库的推理结果经过人工审核整理后加入专家知识库,并从相应的语料库中得到每一条专家知识、每一个法律实体的权重,这里的专家知识库是法律领域的专业知识库,采用基于本体的建模方式,是一个有向无环的贝叶斯网络图,图的每个节点都带有该节点在一条知识决策路径(知识点)的权重,外部法律文本通过基于向量空间的映射方法产生自适应权重,该权重影响后续的推理分析;这里的上下文是在自然语言中的空间上或者时间上有直接关联的前后文本;这里的上下文推理方法为多推理引擎综合的推理方法,包括一阶谓词逻辑推理、贝叶斯推理、神经网络推理等;这里隐含语义内容是指在法律文本中未直接提及的、但对理解该法律文本至关重要的法律要素、法律意图等。这里隐含语义的推理体现在两个方面:一、法律实体概念(要素、意图等)与具体描述该概念的关键词(或组合)之间能够通过推理动态匹配;二、语义缺省的推理补全,针对法律文本中缺省表达的法律要素,通过基于专家知识库的上下文推理方法进行补全;

(2)本发明是针对法律文本领域的上下文推理方法,能够有效解决法律文本语言理解中的部分上下文推理问题,本发明采用的基于法律专家知识库的推理方法,在法律领域具有天然的专业优势,推理的对象是法律文本中的隐含语义,也就是文本中未直接描述的部分,对法律知识的专业程度要求更高。

附图说明

图1为一种基于法律专家知识库的上下文推理方法的流程结构示意图;

图2为一种基于法律专家知识库的上下文推理方法中的树构建法构建知识路径的结构示意图。

具体实施方式

请参阅图1~2,本发明实施例中,一种基于法律专家知识库的上下文推理方法,其包括以下步骤:

(1)语义向量空间,分为语义向量空间构建和语义向量空间映射。

(1.1)语义向量空间构建:基于法律文本语料库构建一个法律语义向量库,将文本单元映射到语义空间上的向量,文本单元之间的语义相似度可以根据对应向量在语义空间中的距离进行比较,语义接近的词,它们对应的语义向量在空间上的距离也会很近,这样就克服了词语间直接比较时受到的词语变形、同义词变化、语法形式变化的影响。

语义向量的训练方法有Word2Vec、ESA (Explicit semanticanalysis)、LSA (Latent semantic analysis)、共现词频率特征等多种,本发明采用Word2Vec方法(https://code.google.com/p/word2vec)。

构建语义向量的训练数据的选择原则是法律相关文本,如裁判文书、法律法规、相关普法文章等,作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库,以供其它模块在语义映射时使用。

(1.2)语义空间映射:将专家知识库中表示专家知识的文本映射为语义空间中的向量,具体步骤如下:

(1.2.1)对专家知识库中的边/节点(实体间关系/实体)中的词语进行过滤处理,去除其中无语义的停用词;

(1.2.2)对经上步操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/节点的总体语义向量。

(2)法律实体识别

针对待处理的法律文本进行分词处理,去除停用词后使用实体识别模型进行实体标注识别;同时,该模型还具有未知实体发现的作用,针对模型中不存在的实体,通过总结实体特征,发现具有相同特征的新法律实体。

实体识别模型:构建法律文本及其标注的法律实体语料,通过相关算法进行机器学习训练,得到用于实体标注识别和新实体发现的模型。

(3)法律文本语义分析

使用语义分析工具进行语义分析,语义分析的结果包括词性结果、句法分析结果、依存关系分析结果等,基于上述结果,采用语义规则和法律关系相结合的方式生成可能的知识点(实体组、实体关系组等)。

(4)隐含语义推理

(4.1)获取候选知识点

采用以下两个步骤获取候选的知识路径(知识点):

(4.1.1))语义空间向量获取候选节点:实体识别的结果映射到语义向量空间中,同专家知识库中的语义向量进行比较,结合语义分析结果,取相似度最高的多个专家知识库知识节点,通过树构建法构建知识路径,作为候选知识点;

(4.1.2)树构建法构建知识路径,其包括以下步骤:

①选择法律实体 e1 –工作为树根;

②第一过程为直接关联,首先在专家知识库中选择关系 r1 可以一步跳到 e1 的法律实体 e2 (这里 e2 的约束条件为:一步跳到e1 ,并且同时在法律文本和专家知识中出现)如图中的试用期、劳动合同等等;

③第二过程为多跳关联,也在专家知识中选择关系 r2 可以链接 e2 和 e3 ,其中 e3 的约束的条件和e2一样,其中,这里的多跳体现在从根节点e1出发,需要经过2跳(一跳以上)的实体才能到达目标实体e3,e1与e3的关联为多跳关联;其中 e3 的约束的条件和e2一样,一步从e2跳到e3,并且同时在法律文本和专家知识库中出现;

④第三个过程外部关联,这步扩大的链接知识库的范围,这个过程的e4 仅在专家知识中,并且是e3的邻居(就是可以一步跳到e3),这个过程通过有用的外部信息的收集来完善上下文中的路径;

⑤第四个过程上下文关联,上一个过程发散了知识库的范围,本过程需要将范围收敛来确保外部知识确实对任务有用,具体实现是在专家知识中选择关系 r4 可以通过 e3或e4 链接e3或e4 和e5,e5 同时属于专家知识和上下文。

(4.2)获取候选隐含语义

针对候选知识点,结合专家知识库中的已有知识决策路径和语义分析结果,采用多种推理方法进行候选隐含语义推理。包括以下方法:

(4.2.1)基于PMI的节点评分方法

基于上述树构建产生的对于在法律文本上下文中的节点打分函数计算为:

|C| 是上下文的长度, count(c) 函数是法律实体在法律文本中的次数。

对于不在文中的 节点 ,通过逻辑一致路径更为频繁出现的启发,评分函数使用的是计算点互信息(Pointwise Mutual Information,PMI)。通过 e4 和 e{1-3} 的点信息:

其中路径指专家知识库和语义知识库中的知识路径。这里有一个关键,因为PMI受低频的值影响很大,所以需要对计算的PMI做归一化--NPMI(normalized PMI):

又因为不同分支、不同层级的节点不存在竞争,可以对同层的兄弟节点进行标准化:

获取节点的初始分数后,在知识路径中,节点的重要度与其后代也有关系,这里采用一种启发式的累计节点打分方法,这是一种自底向上的迭代,从叶子节点开始,叶子节点不需要更新,更新公式为:

其中e为非叶子节点,f(e)是节点的函数,计算方法为选择该节点e的孩子节点中c-score最高的两个,取两者的平均值。

最后计算知识路径的得分,采用知识路径的各个节点c-score的累加值:

设定一个阈值,认为score(p)小于该阈值的知识路径为无效路径。

(4.2.2)一阶谓词逻辑推理方法:

基于专家知识库和语义知识库,将与候选知识点关联的知识转化为谓词公式,转化方法如下:定义谓词及个体,确定每个谓词及个体的确切含义;根据所要表达的事物或概念,为每个谓词中的变元赋以特定的值;根据所要表达的知识的语义,用适当的连接符号将各个谓词连接起来,形成谓词公式。

根据知识库对上述方法产生的谓词公式求真值,保留真值为True的知识,过滤真值为False的知识。

(4.2.3)贝叶斯推理方法

对条件概率公式(贝叶斯定理)进行变形,可以得到如下形式:

这里公式中有四个概率即P(A|B)、P(B|A)、P(A)和P(B),我们分别称之为后验概率(也就是有了一定先验知识的情况下得出的判断)、似然条件(因为B已经发生了,你判断A是否发生的逻辑一定要使得B发生)、先验概率(没有经过先验知识左右的纯的A发生的概率)和归一化常数(所有的判断都是建立在B已经发生了的基础上进行的,所以一切概率要以B发生为基准)。

本发明把P(B|A)/P(B)称为“可能性函数”,这是一个调整因子,使得预估概率更接近真实概率。

所以,条件概率可以理解为下面的式子:

这就是贝叶斯推断的含义。我们先预估一个“先验概率”,然后加入实验结果,看这个实验到底是增强还是消弱了“先验概率”,由此得到更接近事实的“后验概率”,也就是推理结果。本发明中,专家知识库本身就是一个贝叶斯网络,根据法律文本中各个实体在知识库中的先验概率,以及从法律文本语料中统计得来的调整因子值,计算隐含语义的后验概率值,以后验概率值大于0.6为可信推理结果。

(4.2.4)神经网络推理方法

以语义向量化的专家知识库、语义知识库和法律文本语料作为训练语料,采用循环神经网络算法训练的法律文本隐含语义神经网络推理模型;通过该模型,输入实体识别和语义分析结果,可以得到可能的隐含语义及其置信度(概率)。

(3)推理结果评估分析

综合分析上述四个推理方法的推理结果,保留三个方法及以上的交集部分作为正确推理结果,保留两个方法交集部分作为待咨询(评审)项,用以二次咨询用户或通过人工进行评审,最终得到法律文本隐含语义的推理结果。

(5)专家知识库更新

专家知识库更新的具体步骤如下:

(5.1)专家知识自动生成

根据法律实体识别步骤的新实体发现和步骤隐含语义推理中的隐含语义推理结果,根据实体关系和实体关联度组合生成可能的新知识点,使用以下公式计算可能的新知识点分数,对于大于一定阈值(通常为0.8)的知识点,进入步骤5.2;

其中truth为一阶谓词逻辑推理结果,取值为0或1,pmi为基于PMI的打分推理方法结果,bayes为贝叶斯推理结果,nn为神经网络推理结果,、和分别为上述三个结果的权重,通常取1/3。

(5.2)专家知识审核

由法律专家团队针对上述步骤中生成的筛选后的知识点进行审核和二次编辑

(5.3)专家知识入库

将经过审核的知识点加入原有的专家知识库中,更新语料库,重新构建语义向量空间和专家知识权重。

本发明基于专家知识库,通过实体识别、语义分析,根据上下文推理理解法律文本中的隐含语义内容,并将推理过程中产生的新实体和不包含在专家知识库的推理结果经过人工审核整理后加入专家知识库,并从相应的语料库中得到每一条专家知识、每一个法律实体的权重,这里的专家知识库是法律领域的专业知识库,采用基于本体的建模方式,是一个有向无环的贝叶斯网络图,图的每个节点都带有该节点在一条知识决策路径(知识点)的权重,外部法律文本通过基于向量空间的映射方法产生自适应权重,该权重影响后续的推理分析;这里的上下文是在自然语言中的空间上或者时间上有直接关联的前后文本;这里的上下文推理方法为多推理引擎综合的推理方法,包括一阶谓词逻辑推理、贝叶斯推理、神经网络推理等;这里隐含语义内容是指在法律文本中未直接提及的、但对理解该法律文本至关重要的法律要素、法律意图等。这里隐含语义的推理体现在两个方面:一、法律实体概念(要素、意图等)与具体描述该概念的关键词(或组合)之间能够通过推理动态匹配;二、语义缺省的推理补全,针对法律文本中缺省表达的法律要素,通过基于专家知识库的上下文推理方法进行补全。

此外,本发明是针对法律文本领域的上下文推理方法,能够有效解决法律文本语言理解中的部分上下文推理问题,本发明采用的基于法律专家知识库的推理方法,在法律领域具有天然的专业优势,推理的对象是法律文本中的隐含语义,也就是文本中未直接描述的部分,对法律知识的专业程度要求更高。

以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1