一种法律本体知识库自动构建方法与流程

文档序号：11386644阅读：294来源：国知局

本发明涉及知识工程技术领域，特别是指一种法律本体知识库自动构建方法。

背景技术：

知识本体是对概念体系明确的、形式化的、可共享的规范说明。本体定义了组成主题领域的词汇表的基本术语及其关系，以及结合这些术语和关系来定义词汇表外延的规则。知识库是知识工程中结构化，易操作，易利用，全面有组织的知识集群，是针对某一领域问题求解的需要，采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。本体知识库将信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。本体知识库给互联网语义搜索带来了活力，同时也在智能问答、大数据分析与决策中显示出强大威力，已经成为互联网基于知识的智能服务的基础设施。随着大数据时代的到来，将大数据转化为知识，增强对互联网资源的内容理解，将促进当代信息处理技术从信息服务向知识服务转变。

构建法律特定领域本体知识库对整合法律知识、挖掘法律热点、预测法律事件、构建法律领域专家系统等将起到重要作用，但是，现有技术中，还没有构建好的法律本体知识库。

技术实现要素：

本发明要解决的技术问题是提供一种法律本体知识库自动构建方法，以解决现有技术所存在的缺少法律本体知识库的问题。

为解决上述技术问题，本发明实施例提供一种法律本体知识库自动构建方法，包括：

利用网络法律文本数据统计法律审判文书中的专业高频词，并根据统计得到的专业高频词构建法律领域词表；

根据构建的法律领域词表对法律审判文书去停用词后并进行分词；

根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类，提取每一次分类中每一类别的主题词语，并将每一类别的主题词语按照分类层次顺序进行划分，得到主题词语间的层次关系；

根据提取的主题词语及得到的主题词语间的层次关系，构建法律本体知识库。

进一步地，所述利用网络法律文本数据统计法律审判文书中的专业高频词，并根据统计得到的专业高频词构建法律领域词表包括：

利用网络法律文本数据统计民事、刑事、行政审判文书专业高频词；

根据统计的民事、刑事、行政审判文书专业高频词，结合预设的输入法词典构建法律领域词表。

进一步地，所述民事审判文书专业高频词包括：民事审判、民事案件、民事纠纷、民事权益、财产、人身、公民、未成年人、民事权利能力、民事行为能力、监护、宣告失踪、宣告死亡、选民资格、认定财产无主、返还财产、个体工商户、农村承包经营户、债权、债务、个人合伙、法人、企业法人、社会团体法人、联营、民事法律行为、民事权利、民事责任、代理、委托代理、法定代理、指定代理、财产所有权、留置权、买卖、出租、抵押、转让、借贷关系、不当得利、知识产权、著作权、专利权、商标专用权、人身权、健康权、姓名权、肖像权、荣誉权、发现权、发明权、名誉权、婚姻、离婚、抚养、收养、扶养、遗产、继承、遗嘱、遗赠、遗赠扶养协议、房地产、房屋承租中的一种或多种。

进一步地，所述刑事审判文书专业高频词包括：刑事、刑事审判、刑事案件、犯罪、大案要案、经济犯罪、少年犯罪、刑事类推、刑事责任、犯罪客体、犯罪主体、刑事责任能力、刑事责任年龄、法人犯罪、正当防卫、紧急避险、犯罪既遂、犯罪预备、犯罪未遂、犯罪中止、共同犯罪、犯罪集团、刑罚、管制、拘役、有期徒刑、无期徒刑、死刑、罚金、剥夺政治权利、没收财产、驱逐出境、量刑、累犯、自首、数罪并罚、刑期计算、刑期折抵、缓刑、减刑、假释、追诉时效、赦免、反革命、组织越狱、间谍、特务、放火、爆炸、投毒、危害公共安全、破坏交通工具、破坏交通设备、破坏通讯设备、破坏电力设备、交通肇事、重大责任事故、走私、投机倒把、逃套外汇、伪造货币、伪造有价证券、伪造有价票证、偷税、抗税、假冒商标、假冒专利、盗伐林木、滥伐林木、故意杀人、过失杀人、故意伤害、过失重伤、卖淫嫖娼、刑讯逼供、诬告陷害、强奸妇女、奸淫幼女、卖淫、拐卖人口、绑架妇女儿童、拐卖妇女儿童、非法拘禁、非法搜查、侮辱、诽谤、报复陷害、伪证、侵犯通信自由、破坏选举、侵犯财产、抢劫、抢夺、敲诈勒索、盗窃、惯窃、诈骗、惯骗、贪污、挪用公款、绑架勒索、妨害公务、拒不执行判决裁定、扰乱社会秩序、流氓、脱逃、窝藏、包庇、制造贩卖假药、招摇撞骗、赌博、淫秽物品、毒品、窝赃、销赃、破坏珍贵文物、偷越国边境、侮辱国旗国徽、传授犯罪方法、妨害婚姻家庭、重婚、破坏军人婚姻、虐待、遗弃、拐骗儿童、渎职、受贿、行贿、介绍贿赂、泄露国家秘密、玩忽职守、徇私枉法、私放罪犯、破坏邮电通讯、军人违反职责、走私毒品、贩卖毒品、运输毒品中的一种或多种。

进一步地，所述行政审判文书专业高频词包括：行政审判、行政案件、国家行政机关、国家公务员、行政行为、行政责任、行政处分、行政处罚、行政处理、行政赔偿、行政复议、公安、海关、商检、土地管理、地质矿产、能源、行政执行、交通缉查、野生动植物保护、计划生育、渔业、盐业、水利资源、盐政、行政强制措施、路征、技术监督、专利、畜牧、房屋拆迁、河道、邮电、科技、交通、卫生、医药、环境保护、工业、经贸、农业、林业、文化、教育、统计、体育、民政、城市规划、城乡建设、计量、物价、工商、劳动、文物、财政、审计、税务、水利、企业管理、铁路、民航、人事、新闻出版、广播影视、旅游、气象中的一种或多种。

进一步地，所述根据构建的法律领域词表对法律审判文书去停用词后并进行分词包括：

利用构建的法律领域词表自定义去停用词词典和分词词典；

根据自定义的去停用词词典和分词词典，利用java中文分词器ansj对法律审判文书去停用词后并进行分词。

进一步地，所述根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类，提取每一次分类中每一类别的主题词语，并将每一类别的主题词语按照分类层次顺序进行划分，得到主题词语间的层次关系包括：

利用已分词的法律审判文书数据，应用lda主题模型对法律审判文书进行主题分类，提取每一类别主题词语；

对每一类别下的法律审判文书应用lda主题模型继续进行主题分类，提取每一类别的主题词语，并将每一类别的主题词语按照分类层次顺序进行划分，直至符合预设的终止迭代条件，则停止迭代。

进一步地，所述应用lda主题模型对法律审判文书进行主题分类，提取每一类别主题词语包括：

对法律审判文书按照最大主题概率选择主题；

根据选择的主题对法律审判文书进行主题分类，并通过lda主题模型得到每一类别主题词语。

进一步地，所述直至符合预设的终止迭代条件，则停止迭代包括：

在应用lda主题模型不断迭代按主题分类和提取主题词语过程中，判断主题分类结果中是否有预设比例的数据的最大主题概率小于预设的阈值；

若是，则判定不能按照主题继续分类，停止迭代。

进一步地，所述根据提取的主题词语及得到的主题词语间的层次关系，构建法律本体知识库包括：

将提取的主题词语作为法律本体知识库的本体、得到的主题词语间的层次关系作为法律本体知识库的子父类关系，形成本体-子父类关系-本体的三元组结构，完成法律本体知识库的构建。

本发明的上述技术方案的有益效果如下：

上述方案中，通过利用网络法律文本数据统计法律审判文书中的专业高频词，并根据统计得到的专业高频词构建法律领域词表；根据构建的法律领域词表对法律审判文书去停用词后并进行分词；根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类，提取每一次分类中每一类别的主题词语，并将每一类别的主题词语按照分类层次顺序进行划分，得到主题词语间的层次关系；根据提取的主题词语及得到的主题词语间的层次关系，构建法律本体知识库。

附图说明

图1为本发明实施例提供的法律本体知识库自动构建方法的流程示意图；

图2为本发明实施例提供的第一次分类得到的法律本体知识库中实体词语及其关系层次示意图；

图3为本发明实施例提供的对第一次分类得到的分类0进行主题分类，得到的实体词语及其关系层次示意图；

图4为本发明实施例提供的对第一次分类得到的分类1进行主题分类，得到的实体词语及其关系层次示意图；

图5为本发明实施例提供的对第一次分类得到的分类2进行主题分类，得到的实体词语及其关系层次示意图；

图6为本发明实施例提供的对第二次分类得到的分类0进行主题分类，得到的实体词语及其关系层次示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的缺少法律本体知识库的问题，提供一种法律本体知识库自动构建方法。

如图1所示，本发明实施例提供的法律本体知识库自动构建方法，包括：

步骤101，利用网络法律文本数据统计法律审判文书中的专业高频词，并根据统计得到的专业高频词构建法律领域词表；

步骤102，根据构建的法律领域词表对法律审判文书去停用词后并进行分词；

步骤103，根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类，提取每一次分类中每一类别的主题词语，并将每一类别的主题词语按照分类层次顺序进行划分，得到主题词语间的层次关系；

步骤104，根据提取的主题词语及得到的主题词语间的层次关系，构建法律本体知识库。

本发明实施例所述的法律本体知识库自动构建方法，通过利用网络法律文本数据统计法律审判文书中的专业高频词，并根据统计得到的专业高频词构建法律领域词表；根据构建的法律领域词表对法律审判文书去停用词后并进行分词；根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类，提取每一次分类中每一类别的主题词语，并将每一类别的主题词语按照分类层次顺序进行划分，得到主题词语间的层次关系；根据提取的主题词语及得到的主题词语间的层次关系，构建法律本体知识库。

在前述法律本体知识库自动构建方法的具体实施方式中，进一步地，所述利用网络法律文本数据统计法律审判文书中的专业高频词，并根据统计得到的专业高频词构建法律领域词表包括：

利用网络法律文本数据统计民事、刑事、行政审判文书专业高频词；

根据统计的民事、刑事、行政审判文书专业高频词，结合预设的输入法词典构建法律领域词表。

本实施例中，先获取网络法律文本数据，利用获取的网络法律文本数据统计民事、刑事、行政专业高频词，所述高频词指出现次数超过预定阈值或使用次数超过预定阈值的词语，并结合预设的输入法词典构建法律领域词表，优选地，所述预设的输入法词典为搜狗输入法词典。

本实施例中，统计得到的民事、刑事、行政审判文书专业高频词有268个，在实际应用中，统计得到的民事、刑事、行政审判文书专业高频词与获取的网络法律文本数据有关。

在前述法律本体知识库自动构建方法的具体实施方式中，进一步地，所述民事审判文书专业高频词包括：民事审判、民事案件、民事纠纷、民事权益、财产、人身、公民、未成年人、民事权利能力、民事行为能力、监护、宣告失踪、宣告死亡、选民资格、认定财产无主、返还财产、个体工商户、农村承包经营户、债权、债务、个人合伙、法人、企业法人、社会团体法人、联营、民事法律行为、民事权利、民事责任、代理、委托代理、法定代理、指定代理、财产所有权、留置权、买卖、出租、抵押、转让、借贷关系、不当得利、知识产权、著作权、专利权、商标专用权、人身权、健康权、姓名权、肖像权、荣誉权、发现权、发明权、名誉权、婚姻、离婚、抚养、收养、扶养、遗产、继承、遗嘱、遗赠、遗赠扶养协议、房地产、房屋承租中的一种或多种。

在前述法律本体知识库自动构建方法的具体实施方式中，进一步地，所述刑事审判文书专业高频词包括：刑事、刑事审判、刑事案件、犯罪、大案要案、经济犯罪、少年犯罪、刑事类推、刑事责任、犯罪客体、犯罪主体、刑事责任能力、刑事责任年龄、法人犯罪、正当防卫、紧急避险、犯罪既遂、犯罪预备、犯罪未遂、犯罪中止、共同犯罪、犯罪集团、刑罚、管制、拘役、有期徒刑、无期徒刑、死刑、罚金、剥夺政治权利、没收财产、驱逐出境、量刑、累犯、自首、数罪并罚、刑期计算、刑期折抵、缓刑、减刑、假释、追诉时效、赦免、反革命、组织越狱、间谍、特务、放火、爆炸、投毒、危害公共安全、破坏交通工具、破坏交通设备、破坏通讯设备、破坏电力设备、交通肇事、重大责任事故、走私、投机倒把、逃套外汇、伪造货币、伪造有价证券、伪造有价票证、偷税、抗税、假冒商标、假冒专利、盗伐林木、滥伐林木、故意杀人、过失杀人、故意伤害、过失重伤、卖淫嫖娼、刑讯逼供、诬告陷害、强奸妇女、奸淫幼女、卖淫、拐卖人口、绑架妇女儿童、拐卖妇女儿童、非法拘禁、非法搜查、侮辱、诽谤、报复陷害、伪证、侵犯通信自由、破坏选举、侵犯财产、抢劫、抢夺、敲诈勒索、盗窃、惯窃、诈骗、惯骗、贪污、挪用公款、绑架勒索、妨害公务、拒不执行判决裁定、扰乱社会秩序、流氓、脱逃、窝藏、包庇、制造贩卖假药、招摇撞骗、赌博、淫秽物品、毒品、窝赃、销赃、破坏珍贵文物、偷越国边境、侮辱国旗国徽、传授犯罪方法、妨害婚姻家庭、重婚、破坏军人婚姻、虐待、遗弃、拐骗儿童、渎职、受贿、行贿、介绍贿赂、泄露国家秘密、玩忽职守、徇私枉法、私放罪犯、破坏邮电通讯、军人违反职责、走私毒品、贩卖毒品、运输毒品中的一种或多种。

在前述法律本体知识库自动构建方法的具体实施方式中，进一步地，所述行政审判文书专业高频词包括：行政审判、行政案件、国家行政机关、国家公务员、行政行为、行政责任、行政处分、行政处罚、行政处理、行政赔偿、行政复议、公安、海关、商检、土地管理、地质矿产、能源、行政执行、交通缉查、野生动植物保护、计划生育、渔业、盐业、水利资源、盐政、行政强制措施、路征、技术监督、专利、畜牧、房屋拆迁、河道、邮电、科技、交通、卫生、医药、环境保护、工业、经贸、农业、林业、文化、教育、统计、体育、民政、城市规划、城乡建设、计量、物价、工商、劳动、文物、财政、审计、税务、水利、企业管理、铁路、民航、人事、新闻出版、广播影视、旅游、气象中的一种或多种。

在前述法律本体知识库自动构建方法的具体实施方式中，进一步地，所述根据构建的法律领域词表对法律审判文书去停用词后并进行分词包括：

利用构建的法律领域词表自定义去停用词词典和分词词典；

根据自定义的去停用词词典和分词词典，利用java中文分词器ansj对法律审判文书去停用词后并进行分词。

本实施例中，可以利用构建的法律领域词表自定义去停用词词典newwordfilter.dic和分词词典legalword.dic，并根据自定义的去停用词词典newwordfilter.dic和分词词典legalword.dic，利用java中文分词器ansj对法律审判文书去停用词后并进行分词，为自动构建法律本体知识库做准备。

本实施例中，所述中文分词器ansj是基于java实现的，利用自定义的去停用词词典实现去停用词代码如下：

本实施例中，调用自定义分词词典的代码如下：

本实施例中，利用已分词的法律审判文书数据，可以应用隐含狄利克雷分布(latentdirichletallocation，lda)主题模型对法律审判文书进行主题分类，并提取每一类别主题词语；然后对每一类别下的法律审判文书继续应用lda主题模型进行主题分类并提取每一类别的主题词语，同时将每一类别的主题词语按照分类层次顺序进行划分，直至符合预设的终止迭代条件，则停止迭代。

本实施例中，所述lda是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。每篇文章的每个词都是通过"以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语"这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。这样就可以通过主题得到文章的主题词语。所以应用lda主题模型，对法律审判文书按照最大概率选择某主题，然后按照主题对法律审判文书进行主题分类，并通过lda主题模型得到每一类别主题词语；然后对每一类别下的审判文书分别继续应用lda主题模型进行主题分类并得到每一类别(子类别)的主题词语。同理，分类后在每一类别(子类别)中继续应用lda主题模型分类并得到每一类别的主题词语，并将每一类别的主题词语按照分类层次顺序进行划分。

本实施例中，应用所述lda主题模型，对2000份民事、刑事、行政审判文书进行第一次分类并得到每一类别的主题词语。将主题数定为3(每次分类的类别数为3)，并取前20个概率最高的词语作为每一类别主题词语；分类后，得到的三个主题下的主题词语及其概率如下：

topic0：

上诉0.020716457203748394

被告人0.015358624096518602

土地0.013313991406572972

补偿0.011940953395806564

管理0.011463374957279117

拆迁0.009224726026681711

人民法院0.009090407090845867

依法0.008612828652318421

判决0.008582979999910454

审理0.008299417802034784

政府0.008045704256567077

原告0.00783676368971132

裁定0.007791990711099372

认定0.007642747449059544

证实0.007045774400900236

人民0.006702514898208634

临时0.00662789326718872

某甲0.006553271636168806

人民币0.006329406743109066

标准0.006210012133477204

topic1:

公司0.06931993926904303

诉讼0.020827735689207656

本案0.017832326507314325

二审0.014348395656271011

再审0.01391129732071576

合同0.01370560398633682

规定0.013242793983984202

民事0.012240038978886866

判决0.01215004814509608

一审0.011597247308952674

法院0.011584391475553991

申请0.010825897305031645

申请人0.010530213136861918

人民法院0.010183105635097455

法律0.009643160632352734

证据0.008936089795425125

代理0.008370433125883035

认定0.007984758123922521

协议0.007907623123530418

有限公司0.007869055623334367

topic2:

商标0.04003179012285558

公司0.028305286471471677

上诉0.027311845132234835

一审0.021623906484055266

申请0.01940327290223174

起诉0.016052843287550623

出生0.013559500318485606

证据0.01324783244735248

旅游0.01194272323698251

要求0.01188428551114505

规定0.011221991284987154

专利0.011144074317203873

行政0.010910323413854027

权利0.010715530994395824

判决0.010248029187696133

技术0.01018959146185867

争议0.01017011221991285

委员会0.009975319800454647

产品0.009605214203484059

认定0.009468859509863314

本实施例中，第一次分类得到的法律本体知识库中实体词语及其关系层次，如图2所示。

本实施例中，将主题0(topic0)、主题1(topic1)、主题2(topic2)的文书分为三类，分别记为分类0，分类1，分类2，然后进行第二轮分类：

本实施例中，第二次分类，对第一次分类得到的分类0进行主题分类，得到的三个主题下的主题词语及其概率如下：

topic0:

补偿0.025827294598994424

管理0.02316208779335283

上诉0.022909973636062408

土地0.021361272384135536

拆迁0.020857044069554694

原告0.017471511100226184

公司0.016643136011986227

临时0.01581476092374627

支付0.01549061415008716

一审0.014518173829109821

合同0.012933456268998602

被告0.012825407344445566

政府0.012465244262602107

标准0.012465244262602107

行政0.011744918098915189

管委会0.01156483655799346

协议0.010808494086122196

本案0.010628412545200467

约定0.010052151614250934

规定0.00972800484059182

topic1:

被告人0.039311415137042616

人民法院0.020743457335267113

裁定0.020466323636733147

审理0.019773489390398243

罪犯0.01857257669675107

刑事0.015662672862144462

判决0.015246972314343517

依法0.014923649666053893

判处0.014646515967519931

执行0.014046059620696345

中华人民共和国0.011828990032424644

认定0.01155185633389068

被害人0.010443321539754828

机关0.009750487293419922

法律0.0096581093939086

故意0.0096581093939086

上诉0.00961192044415294

有期徒刑0.009427164645130298

发生0.009057653047085015

审判员0.009011464097329355

topic2:

公司0.025217530195625056

上诉0.01833414463476224

银行0.012971949253095623

没有0.01137469956493961

证明0.010804253247741032

人民币0.010576074720861603

证言0.010461985457421887

情况0.010119717667102741

项目0.009929568894703216

工程0.009207003559585019

证实0.008902765523745778

账户0.008560497733426632

证人0.008294289452067297

证据0.008028081170707961

现金0.007571724116949101

吴起0.007533694362469196

工作0.0071533968176701445

辩护人0.0065829505004715684

职务0.006468861237031854

认定0.006392801728072043

本实施例中，对第一次分类得到的分类0进行主题分类，得到的实体词语及其关系层次，如图3所示。

本实施例中，第二次分类，对第一次分类得到的分类1进行主题分类，得到的三个主题下的主题词语及其概率如下：

topic0:

诉讼0.03758776353541387

二审0.03037409869990828

再审0.03030881666519782

申请人0.023927497772250565

本案0.02302986979498177

申请0.02226280588713389

规定0.019863691111524563

一审0.019618883481360348

民事0.019178229747064755

判决0.0167464739541002

法院0.015783563942120948

中华人民共和国0.015147064103693984

公司0.014788012912786466

时效0.013939346461550515

上诉0.013727179848741526

证据0.013319167131801165

法律0.013221244079735479

代理0.012796910854117502

期间0.01253578271527567

人民法院0.01206248796362485

topic1:

公司0.09230282265274267

工程0.016336205438475256

人民法院0.014668999144650686

合同0.014209913353597543

提供0.01203529644860897

证明0.010295602924618114

执行0.010223115694451829

有限公司0.009739867493343256

产品0.008894183141403257

高级0.0085075845805164

仲裁0.007541088178299257

判决0.007444438538077543

协议0.007444438538077543

认定0.0073236264878004

裁定0.007251139257634114

本案0.007251139257634114

签订0.007178652027467828

房屋0.007106164797301543

证据0.007106164797301543

上诉0.007082002387246114

topic2:

公司0.07835860181090756

合同0.019682281289988175

转让0.01802201273142524

协议0.013324667541344738

财产0.013243678831170936

双方0.012231319953998414

支付0.011785882048042503

土地0.011502421562434197

判决0.010530557040348576

规定0.010145860667023018

本案0.010064871956849216

技术0.009740917116154008

证据0.008546333641090432

共同0.008303367510569027

法律0.008262873155482126

约定0.00797941266987382

夫妻0.007817435249526217

款项0.007371997343570307

证明0.007108784035505451

申请0.006724087662179893

本实施例中，对第一次分类得到的分类1进行主题分类，得到的实体词语及其关系层次，如图4所示。

本实施例中，第二次分类，对第一次分类得到的分类2进行主题分类，得到三个主题下的主题词语及其概率如下：

topic0:

专利0.046073634052009656

要求0.03962050471163914

权利0.037270027137332

技术0.03427851022457745

公司0.023081689779696147

产品0.01735507168956602

证据0.015132801982948354

申请0.01457723455629394

公开0.014363554776811472

特征0.012825060364537705

说明书0.012269492937883288

判决0.011030150216884978

二审0.010944678305091991

决定0.009833543451783158

复审0.009705335584093677

认定0.009662599628197183

审查0.009577127716404196

设计0.009064296245646274

效果0.008807880510267313

专利权0.00863693668668134

topic1:

商标0.1053547720902788

公司0.04951387305716853

申请0.02668937494132951

争议0.020493770869932548

委员会0.01821400313803323

本案0.013976317236385094

证据0.013466722096313482

二审0.013252155721546487

认定0.012796202175166626

判决0.01239389022247851

再审0.012045219863482145

规定0.011991578269790396

裁定0.01183065348871515

异议0.010865104802263676

构成0.010194584881116818

申请人0.00957770655366171

中华人民共和国0.009524064959969962