一种法律知识图谱构建系统及方法与流程

文档序号:23923391发布日期:2021-02-09 19:57阅读:171来源:国知局
一种法律知识图谱构建系统及方法与流程

[0001]
本发明涉及数据处理技术领域,具体涉及一种法律知识图谱构建系统及方法。


背景技术:

[0002]
随着人工智能技术的不断发展,知识图谱也逐渐兴起,知识图谱的应用甚至成了大数据时代的标志。就本质而言,知识图谱是语义网络,也是一种基于图、节点和边组成的数据结构,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。也就是说,知识图谱可以把不同种类的信息连接起来而得到关系网络,从而提供从“关系”的角度去分析问题的能力。
[0003]
对于法律语言来说,具有高度的专业性、知识性和逻辑性,直接利用机器学习算法建构的数学模型无法适用于法律文本,而且灵活性较差。对此,中国专利cn108073673a公开了一种基于机器学习的法律知识图谱构建方法,包括步骤:s1、识别更新后的法律法规,并生成带有法律特征的文本语料库;s2、利用文本语料库以及法律法规库识别法律实体和/或法律关系,进行法律规则处理并生成法律知识特征库;s3、梳理建立法律规则模型,利用法律规则模型识别法律概念,并作为法律知识特征存储于法律知识特征库;s4、基于文本语料库进行语意理解和/或识别文本意图,对文本语料上下文语境分析抽取文本特征并存储于法律知识特征库;s5、利用法律知识特征库进行机器学习训练,并对机器学习训练后的法律特征存储于法律知识特征库;s6、利用自然语言理解模块抽取得到的文本特征、特征机器学习模块得到的法律知识特征和/或知识工程模块识别得到的法律概念,识别法律知识点,并通过法律概念框架建立法律知识点的关联;s7、展示通过已进行关联处理的法律知识点的法律知识图谱并保存所述法律知识图谱。这样,可以准确识别法律知识,从而构建具有价值的法律知识图谱。
[0004]
对于法律而言,都存在着时间效力,比如说,新法律的制定、颁布、实施,以及旧法律的修正、修订、废除。现有技术在构建法律知识图谱时,没有考虑新法律和旧法律之间的衔接适用关系,无法确保法律知识的准确性。


技术实现要素:

[0005]
本发明提供一种法律知识图谱构建系统及方法,解决了现有技术在构建法律知识图谱时,没有考虑新法律和旧法律之间的衔接适用关系,无法确保法律知识的准确性的技术问题。
[0006]
本发明提供的基础方案为:一种法律知识图谱构建系统,包括:
[0007]
更新单元,用于触发更新请求,从权威法律数据库中获取发布的更新的法律法规,并根据更新的法律法规对法律法规库中原始的法律法规进行更新;
[0008]
预处理单元,用于识别更新后的法律法规,生成带有法律特征的文本语料库;并利用文本语料库以及法律法规库识别法律实体和/或法律关系,生成法律知识特征库;
[0009]
识别单元,用于建立法律规则模型,利用法律规则模型识别法律概念;并基于文本
语料库进行语意理解,对文本语料上下文进行语境分析,抽取文本特征;
[0010]
训练单元,用于将法律概念、文本特征作为法律知识特征存储于法律知识特征库,利用法律知识特征库进行机器学习训练,并将学习训练后的法律特征存储于法律知识特征库;
[0011]
生成单元,用于利用文本特征、法律知识特征和/或法律知识概念识别法律知识点,通过法律概念框架建立法律知识点的关联,并生成法律知识图谱。
[0012]
本发明的工作原理及优点在于:在构建法律知识图谱之前,从权威法律数据库中获取发布的更新的法律法规,并根据更新的法律法规对原始的法律法规进行更新。更新完毕后,首先,识别更新后的法律法规,得到文本语料库和法律知识特征库;接着,利用法律规则模型识别法律概念,基于语意理解得到文本特征;再接着,采用机器学习训练算法对法律知识特征库进行学习训练;最后,利用文本特征、法律知识特征和/或法律知识概念识别法律知识点,通过法律概念框架建立法律知识点的关联,生成法律知识图谱。通过这样的方式,预先对法律法规库进行更新,确保了新法律和旧法律的衔接,从而提高了构建的法律知识图谱的准确性;利用机器学习训练算法训练法律知识特征,能够有效建立法律知识的关联,从而有利于构建有价值的法律知识图谱。
[0013]
本发明预先对法律法规库进行更新,确保了新法律和旧法律的衔接,解决了现有技术在构建法律知识图谱时,没有考虑新法律和旧法律之间的衔接适用关系,无法确保法律知识的准确性的技术问题。
[0014]
进一步,更新单元包括:
[0015]
查找子单元,用于登录权威法律数据库,并查找更新的法律法规;
[0016]
定位子单元,用于在法律法规库中进行定位,得到更新的法律法规对应的原始的法律法规;
[0017]
替换子单元,用于调用更新的法律法规,对定位的原始的法律法规进行替换。
[0018]
有益效果在于:通过这样的方式,在权威法律数据库中获取不断发布的更新的法律法规,并将法律法规库中对应的原始的法律法规替换掉,从而快速、准确地对法律法规库进行数据更新
[0019]
进一步,更新单元还包括:
[0020]
对比子单元,用于将更新的法律法规与定位的原始的法律法规进行对比,得到两者不一致的关键信息;
[0021]
补充子单元,用于根据关键信息在权威法律数据库中查找对应的司法解释,并将查找到的司法解释补充到法律法规库中。
[0022]
有益效果在于:当新法律制定、颁布、实施,或者旧法律被废除、修正、修订,为了便于各级法院准确适用,最高人民法院通常都会起草相应的司法解释对其中的某些问题进行释明,通过这样的方式,可确保法律法规库中数据的完整性和有效性。
[0023]
进一步,定位子单元进行定位具体为:提取更新的法律法规的法条的位置数据,基于位置数据在法律法规库中查找具有相应法条的原始的法律法规,位置数据包括章、节、条、款和项。
[0024]
有益效果在于:由于我国的法律法规在起草的时候是按照章、节、条、款、项的体系进行编撰的,故而通过这样的方式,可以精确、快速地进行查找和定位。
[0025]
进一步,替换子单元对定位的原始的法律法规进行替换具体为:如果定位到原始的法律法规,根据更新的法律法规对原始的法律法规进行修订;如果没有定位到原始的法律法规,根据位置数据将更新的法律法规添加到原始的法律法规的对应位置处。
[0026]
有益效果在于:修订,是指做简单的文字性修改;添加,是指将新法律中存在而旧法律中不存在的内容整体补充到旧法律中与新法律对应的位置处;通过这样的方式,在不同的情况下采用不同的更新方式,有利于提高更新的效率。
[0027]
本发明还提供一种法律知识图谱构建方法,包括步骤:
[0028]
s1、从权威法律数据库中获取发布的更新的法律法规,并根据更新的法律法规对法律法规库中原始的法律法规进行更新;
[0029]
s2、识别更新后的法律法规,生成带有法律特征的文本语料库;并利用文本语料库以及法律法规库识别法律实体和/或法律关系,生成法律知识特征库;
[0030]
s3、建立法律规则模型,利用法律规则模型识别法律概念;并基于文本语料库进行语意理解,对文本语料上下文进行语境分析,抽取文本特征;
[0031]
s4、将法律概念、文本特征作为法律知识特征存储于法律知识特征库,利用法律知识特征库进行机器学习训练,并将学习训练后的法律特征存储于法律知识特征库;
[0032]
s5、利用文本特征、法律知识特征和/或法律知识概念识别法律知识点,通过法律概念框架建立法律知识点的关联,并生成法律知识图谱。
[0033]
本发明的工作原理及优点在于:在构建法律知识图谱之前,从权威法律数据库中获取发布的更新的法律法规,并根据更新的法律法规对原始的法律法规进行更新。更新完毕后,首先,识别更新后的法律法规,得到文本语料库和法律知识特征库;接着,利用法律规则模型识别法律概念,基于语意理解得到文本特征;再接着,采用机器学习训练算法对法律知识特征库进行学习训练;最后,利用文本特征、法律知识特征和/或法律知识概念识别法律知识点,通过法律概念框架建立法律知识点的关联,生成法律知识图谱。这样预先对法律法规库进行更新,确保了新法律和旧法律的衔接,从而提高了构建的法律知识图谱的准确性。
[0034]
进一步,s1具体包括:
[0035]
s11、登录权威法律数据库,并查找更新的法律法规;
[0036]
s12、在法律法规库中进行定位,得到更新的法律法规对应的原始的法律法规;
[0037]
s13、调用更新的法律法规,对定位的原始的法律法规进行替换。
[0038]
有益效果在于:获取不断发布的更新的法律法规,将对应的原始的法律法规替换掉,从而快速、准确地对法律法规库进行数据更新
[0039]
进一步,s1还包括:
[0040]
s14、将更新的法律法规与定位的原始的法律法规进行对比,得到两者不一致的关键信息;
[0041]
s15、根据关键信息在权威法律数据库中查找对应的司法解释,并将查找到的司法解释补充到法律法规库中。
[0042]
有益效果在于:由于司法解释会对其中新、旧法律适用的某些问题进行释明,这样可确保法律法规库中数据的完整性和有效性。
[0043]
进一步,s12中,进行定位具体为:提取更新的法律法规的法条的位置数据,基于位
置数据在法律法规库中查找具有相应法条的原始的法律法规,位置数据包括章、节、条、款和项。
[0044]
有益效果在于:我国的法律法规是按照章、节、条、款、项的体系进行编撰的,这样可以精确、快速地进行查找和定位。
[0045]
进一步,s13中,对定位的原始的法律法规进行替换具体为:如果定位到原始的法律法规,根据更新的法律法规对原始的法律法规进行修订;如果没有定位到原始的法律法规,根据位置数据将更新的法律法规添加到原始的法律法规的对应位置处。
[0046]
有益效果在于:不同的情况下采用不同的更新方式,有利于提高更新的效率。
附图说明
[0047]
图1为本发明一种法律知识图谱构建系统实施例的系统结构框图。
具体实施方式
[0048]
下面通过具体实施方式进一步详细的说明:
[0049]
实施例1
[0050]
本发明一种法律知识图谱构建系统实施例基本如附图1所示,包括:
[0051]
更新单元,用于触发更新请求,从权威法律数据库中获取发布的更新的法律法规,并根据更新的法律法规对法律法规库中原始的法律法规进行更新;
[0052]
预处理单元,用于识别更新后的法律法规,生成带有法律特征的文本语料库;并利用文本语料库以及法律法规库识别法律实体和/或法律关系,生成法律知识特征库;
[0053]
识别单元,用于建立法律规则模型,利用法律规则模型识别法律概念;并基于文本语料库进行语意理解,对文本语料上下文进行语境分析,抽取文本特征;
[0054]
训练单元,用于将法律概念、文本特征作为法律知识特征存储于法律知识特征库,利用法律知识特征库进行机器学习训练,并将学习训练后的法律特征存储于法律知识特征库;
[0055]
生成单元,用于利用文本特征、法律知识特征和/或法律知识概念识别法律知识点,通过法律概念框架建立法律知识点的关联,并生成法律知识图谱。
[0056]
在本实施例中,更新单元、预处理单元、识别单元、训练单元与生成单元均集成在服务器上,通过软件/程序/代码实现其功能。
[0057]
具体实施过程如下:
[0058]
s1、从权威法律数据库中获取发布的更新的法律法规,并根据更新的法律法规对法律法规库中原始的法律法规进行更新。
[0059]
在开始构建法律知识图谱以前,需要对法律法规库中原始的法律法规进行更新。在本实施例中,更新单元包括查找子单元、定位子单元和替换子单元。
[0060]
首先,查找子单元登录权威法律数据库,并查找更新的法律法规。比如说,权威法律数据库的数量大、可靠性高,都包括法律法规子数据库、司法解释子数据库、案例子数据库、裁判文书子数据库等多个子数据库。当系统接收到构建法律知识图谱的请求以后,查找子单元就触发更新请求,在获得访问授权的前提下,登录权威法律数据库,并在法律法规库的子数据库中查找的更新的法律法规以及司法解释。如果查找的更新的法律法规以及司法
解释的更新数据为空,结束进程;反之,如果查找的更新的法律法规以及司法解释的更新数据不为空,进入下一步。
[0061]
接着,定位子单元在法律法规库中进行定位,得到更新的法律法规对应的原始的法律法规。具体而言,提取查找得到的更新的法律法规的法条的位置数据,基于位置数据在法律法规库中查找具有相应法条的原始的法律法规,位置数据包括章、节、条、款和项。比如说,如果查找得到的更新数据是“合同法第12条第1款”,其内容为“合同的内容由当事人约定,一般包括以下条款:(一)当事人的名称或者姓名和住所;(二)标的;(三)数量;(四)质量;(五)价款或者报酬;(六)履行期限、地点和方式;(七)违约责任;(八)解决争议的方法。”,则提取的位置数据就为“合同法:第2章,第12条,第1款”。也即,根据“合同法:第2章,第12条,第1款”的位置信息在法律法规库中寻找对应的原始的法律法规,其内容为“合同的内容由当事人约定,一般包括以下条款:(一)当事人的名称或者姓名和住所;(二)标的;(三)数量;(四)质量;(五)价款或者报酬;(六)履行期限、地点和方式;(七)违约责任;(八)解决争议的方法。”。
[0062]
最后,替换子单元调用更新的法律法规,对定位的原始的法律法规进行替换。这里分为两种情况:
[0063]
(1)如果定位到原始的法律法规,根据更新的法律法规对原始的法律法规进行修订。比如说,根据“合同的内容由当事人约定,一般包括以下条款:(一)当事人的名称或者姓名和住所;(二)标的;(三)数量;(四)质量;(五)价款或者报酬;(六)履行期限、地点和方式;(七)违约责任;(八)解决争议的方法;(九)当事人约定的其他条款。”的内容对“合同的内容由当事人约定,一般包括以下条款:(一)当事人的名称或者姓名和住所;(二)标的;(三)数量;(四)质量;(五)价款或者报酬;(六)履行期限、地点和方式;(七)违约责任;(八)解决争议的方法。”的内容进行修正,也即,在其基础上增加“(九)当事人约定的其他条款”。
[0064]
(2)如果没有定位到原始的法律法规,根据位置数据将更新的法律法规添加到原始的法律法规的对应位置处。比如说,根据“合同法:第2章,第12条,第1款”的位置信息在法律法规库中没有寻找到对应的原始的法律法规,也即原始的法条如果只有第1款,没有第2款,这时就将“当事人可以参照各类合同的示范文本订立合同”作为第2款进行添加。
[0065]
s2、识别更新后的法律法规,生成带有法律特征的文本语料库;并利用文本语料库以及法律法规库识别法律实体和/或法律关系,生成法律知识特征库。
[0066]
对原始法律数据进行识别,具体而言,识别法律属性、文本段落,同时进行语句拆分、和/或分词,从而得到带有法律特征的文本语料库。获得文本语料库后,结合更新后的法律法规库,对具有法律意义的实体进行识别,利用命名实体识别的技术提取出法律实体。比如说,既要识别“共同财产”的表述,也要识别“共同财产”的同义表述。
[0067]
进而,利用提取到的法律实体,继续使用法律法规库,采取具有法律逻辑的分析方法对实体间的关系总结提取,进而建立起法律实体之间法律意义上的关联关系,对法律实体关系进行识别。比如说,对于实体“正当防卫”与“故意伤害”之间存在着互斥关系,“正当防卫”是“合法的”,“故意伤害”是“非法的”。法律实体、实体关系以及处理后的规则共同被提取并放入法律知识特征库,生成法律知识特征库。
[0068]
s3、建立法律规则模型,利用法律规则模型识别法律概念;并基于文本语料库进行语意理解,对文本语料上下文进行语境分析,抽取文本特征。
[0069]
首先,对法学知识建立规则模型,利用正则表达式,将具有法律含义的实体转化为可被计算机识别的结构化数据。比如说,“不当得利”的表述为:“没有法律根据取得利益,致使他人损害的,为不当得利”,“无法律根据”、“利益与损失的因果”、“一方受损”、“一方得利”即为构成要件,从而得到“不当得利”这个法律概念,将法律概念与法律规则模型得到的数据提取后放入法律知识特征库。
[0070]
然后,通过分词算法对文本中的词汇进行提取,并采用tf-idf算法进行特征选择得到文本特征,并将生成的文本特征放入到法律知识特征库。
[0071]
s4、利用法律知识特征库进行机器学习训练,并将学习训练后的法律特征存储于法律知识特征库。
[0072]
对法律知识特征库中的文本语料、法律实体和/或法律关系、法律概念以及法律规则模型得到的数据等法律特征,采用随机森林算法进行机器训练学习,并将学习训练后的法律特征存储于法律知识特征库。比如说,“以非法占有为目的”的表述,“欲据为己有”,就可以被补充进“盗窃罪”、“侵占罪”的知识特征库中。
[0073]
s5、利用文本特征、法律知识特征和/或法律知识概念识别法律知识点,通过法律概念框架建立法律知识点的关联,并生成法律知识图谱。
[0074]
法律领域中的结构,也就是法学框架,比如说,刑法中的“四要件”、“三阶层”、“二阶层”,要形成法律知识之间的动态关联就需要这些框架作为支撑,法律知识根据框架建立关联关系,就可形成整个法律体系,从而得到法律知识图谱。比如说,对于“自首”而言,有了“向监狱机关投案,并如实供述自己或同案犯的罪行”作为补充,就需要将“自首”及其相关替代性的、类似的表述归入进“刑法总则”之中。
[0075]
实施例2
[0076]
与实施例1不同之处仅在于,更新单元还包括对比子单元和补充子单元,在替换子单元调用更新的法律法规对定位的原始的法律法规进行替换后,还将对应的司法解释补充到法律法规库。
[0077]
首先,对比子单元将更新的法律法规与定位的原始的法律法规进行对比,得到两者不一致的关键信息。比如说,将“标的包括交付货物、支付价款和提供劳务”与“标的,包括交付货物、支付价款”进行对比,得到“提供劳务”这个不一致的关键信息。然后,补充子单元根据关键信息在权威法律数据库中查找对应的司法解释,并将查找到的司法解释补充到法律法规库中。比如说,对应的司法解释为“提供劳务,是指以劳动形式为他人提供某种特殊价值的服务”,就将包括该内容的司法解释补充到法律法规库中。
[0078]
实施例3
[0079]
与实施例2不同之处仅在于,通过交互式询问对用户进行角色识别,也即确定用户是研究型教师,还是普通型教师,并根据用户的角色决定是否将司法解释补充到法律法规库中;其中,研究型教师是法学水平很高,爱好且擅于研究、分析疑难案件的教师,普通型教师是指法学水平一般,对疑难案件没有兴趣的教师,而司法解释通常是对复杂或者疑难案件的事实、证据与法律适用作出的规定。
[0080]
在本实施例中,服务器上还搭载有麦克风、摄像头和facereader软件。在用户开始构建法律知识图谱前,通过引导式询问用户某些问题,比如说,“您是否有兴趣研究复杂、疑难的案件呢?”。与此同时,摄像头拍摄用户回答问题时的面部表情的照片,并将照片发送到
服务器上,facereader软件对用户的面部表情进行分析。
[0081]
facereader软件能够对用户的面部表情进行自动分析:如果用户回答问题时的面部表情为“愉快”或者“自然”,说明用户有兴趣研究复杂、疑难的案件,该用户为研究型教师,故而将司法解释补充到法律法规库中;如果用户回答问题时的面部表情为“悲伤”、“害怕”、“厌恶”、“愤怒”或者“轻蔑”,说明用户没有兴趣研究复杂、疑难的案件,该用户为普通型教师,故而不将司法解释补充到法律法规库中。通过这样的方式,能够对用户预先进行分类,从而提高构建法律知识图谱的针对性。
[0082]
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1