本发明涉及知识工程技术领域,特别是指一种法律本体知识库自动构建方法。
背景技术:
知识本体是对概念体系明确的、形式化的、可共享的规范说明。本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。知识库是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一领域问题求解的需要,采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。本体知识库将信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。本体知识库给互联网语义搜索带来了活力,同时也在智能问答、大数据分析与决策中显示出强大威力,已经成为互联网基于知识的智能服务的基础设施。随着大数据时代的到来,将大数据转化为知识,增强对互联网资源的内容理解,将促进当代信息处理技术从信息服务向知识服务转变。
构建法律特定领域本体知识库对整合法律知识、挖掘法律热点、预测法律事件、构建法律领域专家系统等将起到重要作用,但是,现有技术中,还没有构建好的法律本体知识库。
技术实现要素:
本发明要解决的技术问题是提供一种法律本体知识库自动构建方法,以解决现有技术所存在的缺少法律本体知识库的问题。
为解决上述技术问题,本发明实施例提供一种法律本体知识库自动构建方法,包括:
利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;
根据构建的法律领域词表对法律审判文书去停用词后并进行分词;
根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;
根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。
进一步地,所述利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表包括:
利用网络法律文本数据统计民事、刑事、行政审判文书专业高频词;
根据统计的民事、刑事、行政审判文书专业高频词,结合预设的输入法词典构建法律领域词表。
进一步地,所述民事审判文书专业高频词包括:民事审判、民事案件、民事纠纷、民事权益、财产、人身、公民、未成年人、民事权利能力、民事行为能力、监护、宣告失踪、宣告死亡、选民资格、认定财产无主、返还财产、个体工商户、农村承包经营户、债权、债务、个人合伙、法人、企业法人、社会团体法人、联营、民事法律行为、民事权利、民事责任、代理、委托代理、法定代理、指定代理、财产所有权、留置权、买卖、出租、抵押、转让、借贷关系、不当得利、知识产权、著作权、专利权、商标专用权、人身权、健康权、姓名权、肖像权、荣誉权、发现权、发明权、名誉权、婚姻、离婚、抚养、收养、扶养、遗产、继承、遗嘱、遗赠、遗赠扶养协议、房地产、房屋承租中的一种或多种。
进一步地,所述刑事审判文书专业高频词包括:刑事、刑事审判、刑事案件、犯罪、大案要案、经济犯罪、少年犯罪、刑事类推、刑事责任、犯罪客体、犯罪主体、刑事责任能力、刑事责任年龄、法人犯罪、正当防卫、紧急避险、犯罪既遂、犯罪预备、犯罪未遂、犯罪中止、共同犯罪、犯罪集团、刑罚、管制、拘役、有期徒刑、无期徒刑、死刑、罚金、剥夺政治权利、没收财产、驱逐出境、量刑、累犯、自首、数罪并罚、刑期计算、刑期折抵、缓刑、减刑、假释、追诉时效、赦免、反革命、组织越狱、间谍、特务、放火、爆炸、投毒、危害公共安全、破坏交通工具、破坏交通设备、破坏通讯设备、破坏电力设备、交通肇事、重大责任事故、走私、投机倒把、逃套外汇、伪造货币、伪造有价证券、伪造有价票证、偷税、抗税、假冒商标、假冒专利、盗伐林木、滥伐林木、故意杀人、过失杀人、故意伤害、过失重伤、卖淫嫖娼、刑讯逼供、诬告陷害、强奸妇女、奸淫幼女、卖淫、拐卖人口、绑架妇女儿童、拐卖妇女儿童、非法拘禁、非法搜查、侮辱、诽谤、报复陷害、伪证、侵犯通信自由、破坏选举、侵犯财产、抢劫、抢夺、敲诈勒索、盗窃、惯窃、诈骗、惯骗、贪污、挪用公款、绑架勒索、妨害公务、拒不执行判决裁定、扰乱社会秩序、流氓、脱逃、窝藏、包庇、制造贩卖假药、招摇撞骗、赌博、淫秽物品、毒品、窝赃、销赃、破坏珍贵文物、偷越国边境、侮辱国旗国徽、传授犯罪方法、妨害婚姻家庭、重婚、破坏军人婚姻、虐待、遗弃、拐骗儿童、渎职、受贿、行贿、介绍贿赂、泄露国家秘密、玩忽职守、徇私枉法、私放罪犯、破坏邮电通讯、军人违反职责、走私毒品、贩卖毒品、运输毒品中的一种或多种。
进一步地,所述行政审判文书专业高频词包括:行政审判、行政案件、国家行政机关、国家公务员、行政行为、行政责任、行政处分、行政处罚、行政处理、行政赔偿、行政复议、公安、海关、商检、土地管理、地质矿产、能源、行政执行、交通缉查、野生动植物保护、计划生育、渔业、盐业、水利资源、盐政、行政强制措施、路征、技术监督、专利、畜牧、房屋拆迁、河道、邮电、科技、交通、卫生、医药、环境保护、工业、经贸、农业、林业、文化、教育、统计、体育、民政、城市规划、城乡建设、计量、物价、工商、劳动、文物、财政、审计、税务、水利、企业管理、铁路、民航、人事、新闻出版、广播影视、旅游、气象中的一种或多种。
进一步地,所述根据构建的法律领域词表对法律审判文书去停用词后并进行分词包括:
利用构建的法律领域词表自定义去停用词词典和分词词典;
根据自定义的去停用词词典和分词词典,利用java中文分词器ansj对法律审判文书去停用词后并进行分词。
进一步地,所述根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系包括:
利用已分词的法律审判文书数据,应用lda主题模型对法律审判文书进行主题分类,提取每一类别主题词语;
对每一类别下的法律审判文书应用lda主题模型继续进行主题分类,提取每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,直至符合预设的终止迭代条件,则停止迭代。
进一步地,所述应用lda主题模型对法律审判文书进行主题分类,提取每一类别主题词语包括:
对法律审判文书按照最大主题概率选择主题;
根据选择的主题对法律审判文书进行主题分类,并通过lda主题模型得到每一类别主题词语。
进一步地,所述直至符合预设的终止迭代条件,则停止迭代包括:
在应用lda主题模型不断迭代按主题分类和提取主题词语过程中,判断主题分类结果中是否有预设比例的数据的最大主题概率小于预设的阈值;
若是,则判定不能按照主题继续分类,停止迭代。
进一步地,所述根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库包括:
将提取的主题词语作为法律本体知识库的本体、得到的主题词语间的层次关系作为法律本体知识库的子父类关系,形成本体-子父类关系-本体的三元组结构,完成法律本体知识库的构建。
本发明的上述技术方案的有益效果如下:
上述方案中,通过利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;根据构建的法律领域词表对法律审判文书去停用词后并进行分词;根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。
附图说明
图1为本发明实施例提供的法律本体知识库自动构建方法的流程示意图;
图2为本发明实施例提供的第一次分类得到的法律本体知识库中实体词语及其关系层次示意图;
图3为本发明实施例提供的对第一次分类得到的分类0进行主题分类,得到的实体词语及其关系层次示意图;
图4为本发明实施例提供的对第一次分类得到的分类1进行主题分类,得到的实体词语及其关系层次示意图;
图5为本发明实施例提供的对第一次分类得到的分类2进行主题分类,得到的实体词语及其关系层次示意图;
图6为本发明实施例提供的对第二次分类得到的分类0进行主题分类,得到的实体词语及其关系层次示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的缺少法律本体知识库的问题,提供一种法律本体知识库自动构建方法。
如图1所示,本发明实施例提供的法律本体知识库自动构建方法,包括:
步骤101,利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;
步骤102,根据构建的法律领域词表对法律审判文书去停用词后并进行分词;
步骤103,根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;
步骤104,根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。
本发明实施例所述的法律本体知识库自动构建方法,通过利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表;根据构建的法律领域词表对法律审判文书去停用词后并进行分词;根据已分词的法律审判文书数据对法律审判文书数据进行迭代分类,提取每一次分类中每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分,得到主题词语间的层次关系;根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库。
在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述利用网络法律文本数据统计法律审判文书中的专业高频词,并根据统计得到的专业高频词构建法律领域词表包括:
利用网络法律文本数据统计民事、刑事、行政审判文书专业高频词;
根据统计的民事、刑事、行政审判文书专业高频词,结合预设的输入法词典构建法律领域词表。
本实施例中,先获取网络法律文本数据,利用获取的网络法律文本数据统计民事、刑事、行政专业高频词,所述高频词指出现次数超过预定阈值或使用次数超过预定阈值的词语,并结合预设的输入法词典构建法律领域词表,优选地,所述预设的输入法词典为搜狗输入法词典。
本实施例中,统计得到的民事、刑事、行政审判文书专业高频词有268个,在实际应用中,统计得到的民事、刑事、行政审判文书专业高频词与获取的网络法律文本数据有关。
在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述民事审判文书专业高频词包括:民事审判、民事案件、民事纠纷、民事权益、财产、人身、公民、未成年人、民事权利能力、民事行为能力、监护、宣告失踪、宣告死亡、选民资格、认定财产无主、返还财产、个体工商户、农村承包经营户、债权、债务、个人合伙、法人、企业法人、社会团体法人、联营、民事法律行为、民事权利、民事责任、代理、委托代理、法定代理、指定代理、财产所有权、留置权、买卖、出租、抵押、转让、借贷关系、不当得利、知识产权、著作权、专利权、商标专用权、人身权、健康权、姓名权、肖像权、荣誉权、发现权、发明权、名誉权、婚姻、离婚、抚养、收养、扶养、遗产、继承、遗嘱、遗赠、遗赠扶养协议、房地产、房屋承租中的一种或多种。
在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述刑事审判文书专业高频词包括:刑事、刑事审判、刑事案件、犯罪、大案要案、经济犯罪、少年犯罪、刑事类推、刑事责任、犯罪客体、犯罪主体、刑事责任能力、刑事责任年龄、法人犯罪、正当防卫、紧急避险、犯罪既遂、犯罪预备、犯罪未遂、犯罪中止、共同犯罪、犯罪集团、刑罚、管制、拘役、有期徒刑、无期徒刑、死刑、罚金、剥夺政治权利、没收财产、驱逐出境、量刑、累犯、自首、数罪并罚、刑期计算、刑期折抵、缓刑、减刑、假释、追诉时效、赦免、反革命、组织越狱、间谍、特务、放火、爆炸、投毒、危害公共安全、破坏交通工具、破坏交通设备、破坏通讯设备、破坏电力设备、交通肇事、重大责任事故、走私、投机倒把、逃套外汇、伪造货币、伪造有价证券、伪造有价票证、偷税、抗税、假冒商标、假冒专利、盗伐林木、滥伐林木、故意杀人、过失杀人、故意伤害、过失重伤、卖淫嫖娼、刑讯逼供、诬告陷害、强奸妇女、奸淫幼女、卖淫、拐卖人口、绑架妇女儿童、拐卖妇女儿童、非法拘禁、非法搜查、侮辱、诽谤、报复陷害、伪证、侵犯通信自由、破坏选举、侵犯财产、抢劫、抢夺、敲诈勒索、盗窃、惯窃、诈骗、惯骗、贪污、挪用公款、绑架勒索、妨害公务、拒不执行判决裁定、扰乱社会秩序、流氓、脱逃、窝藏、包庇、制造贩卖假药、招摇撞骗、赌博、淫秽物品、毒品、窝赃、销赃、破坏珍贵文物、偷越国边境、侮辱国旗国徽、传授犯罪方法、妨害婚姻家庭、重婚、破坏军人婚姻、虐待、遗弃、拐骗儿童、渎职、受贿、行贿、介绍贿赂、泄露国家秘密、玩忽职守、徇私枉法、私放罪犯、破坏邮电通讯、军人违反职责、走私毒品、贩卖毒品、运输毒品中的一种或多种。
在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述行政审判文书专业高频词包括:行政审判、行政案件、国家行政机关、国家公务员、行政行为、行政责任、行政处分、行政处罚、行政处理、行政赔偿、行政复议、公安、海关、商检、土地管理、地质矿产、能源、行政执行、交通缉查、野生动植物保护、计划生育、渔业、盐业、水利资源、盐政、行政强制措施、路征、技术监督、专利、畜牧、房屋拆迁、河道、邮电、科技、交通、卫生、医药、环境保护、工业、经贸、农业、林业、文化、教育、统计、体育、民政、城市规划、城乡建设、计量、物价、工商、劳动、文物、财政、审计、税务、水利、企业管理、铁路、民航、人事、新闻出版、广播影视、旅游、气象中的一种或多种。
在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述根据构建的法律领域词表对法律审判文书去停用词后并进行分词包括:
利用构建的法律领域词表自定义去停用词词典和分词词典;
根据自定义的去停用词词典和分词词典,利用java中文分词器ansj对法律审判文书去停用词后并进行分词。
本实施例中,可以利用构建的法律领域词表自定义去停用词词典newwordfilter.dic和分词词典legalword.dic,并根据自定义的去停用词词典newwordfilter.dic和分词词典legalword.dic,利用java中文分词器ansj对法律审判文书去停用词后并进行分词,为自动构建法律本体知识库做准备。
本实施例中,所述中文分词器ansj是基于java实现的,利用自定义的去停用词词典实现去停用词代码如下:
本实施例中,调用自定义分词词典的代码如下:
本实施例中,利用已分词的法律审判文书数据,可以应用隐含狄利克雷分布(latentdirichletallocation,lda)主题模型对法律审判文书进行主题分类,并提取每一类别主题词语;然后对每一类别下的法律审判文书继续应用lda主题模型进行主题分类并提取每一类别的主题词语,同时将每一类别的主题词语按照分类层次顺序进行划分,直至符合预设的终止迭代条件,则停止迭代。
本实施例中,所述lda是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。每篇文章的每个词都是通过"以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语"这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。这样就可以通过主题得到文章的主题词语。所以应用lda主题模型,对法律审判文书按照最大概率选择某主题,然后按照主题对法律审判文书进行主题分类,并通过lda主题模型得到每一类别主题词语;然后对每一类别下的审判文书分别继续应用lda主题模型进行主题分类并得到每一类别(子类别)的主题词语。同理,分类后在每一类别(子类别)中继续应用lda主题模型分类并得到每一类别的主题词语,并将每一类别的主题词语按照分类层次顺序进行划分。
本实施例中,应用所述lda主题模型,对2000份民事、刑事、行政审判文书进行第一次分类并得到每一类别的主题词语。将主题数定为3(每次分类的类别数为3),并取前20个概率最高的词语作为每一类别主题词语;分类后,得到的三个主题下的主题词语及其概率如下:
topic0:
上诉0.020716457203748394
被告人0.015358624096518602
土地0.013313991406572972
补偿0.011940953395806564
管理0.011463374957279117
拆迁0.009224726026681711
人民法院0.009090407090845867
依法0.008612828652318421
判决0.008582979999910454
审理0.008299417802034784
政府0.008045704256567077
原告0.00783676368971132
裁定0.007791990711099372
认定0.007642747449059544
证实0.007045774400900236
人民0.006702514898208634
临时0.00662789326718872
某甲0.006553271636168806
人民币0.006329406743109066
标准0.006210012133477204
topic1:
公司0.06931993926904303
诉讼0.020827735689207656
本案0.017832326507314325
二审0.014348395656271011
再审0.01391129732071576
合同0.01370560398633682
规定0.013242793983984202
民事0.012240038978886866
判决0.01215004814509608
一审0.011597247308952674
法院0.011584391475553991
申请0.010825897305031645
申请人0.010530213136861918
人民法院0.010183105635097455
法律0.009643160632352734
证据0.008936089795425125
代理0.008370433125883035
认定0.007984758123922521
协议0.007907623123530418
有限公司0.007869055623334367
topic2:
商标0.04003179012285558
公司0.028305286471471677
上诉0.027311845132234835
一审0.021623906484055266
申请0.01940327290223174
起诉0.016052843287550623
出生0.013559500318485606
证据0.01324783244735248
旅游0.01194272323698251
要求0.01188428551114505
规定0.011221991284987154
专利0.011144074317203873
行政0.010910323413854027
权利0.010715530994395824
判决0.010248029187696133
技术0.01018959146185867
争议0.01017011221991285
委员会0.009975319800454647
产品0.009605214203484059
认定0.009468859509863314
本实施例中,第一次分类得到的法律本体知识库中实体词语及其关系层次,如图2所示。
本实施例中,将主题0(topic0)、主题1(topic1)、主题2(topic2)的文书分为三类,分别记为分类0,分类1,分类2,然后进行第二轮分类:
本实施例中,第二次分类,对第一次分类得到的分类0进行主题分类,得到的三个主题下的主题词语及其概率如下:
topic0:
补偿0.025827294598994424
管理0.02316208779335283
上诉0.022909973636062408
土地0.021361272384135536
拆迁0.020857044069554694
原告0.017471511100226184
公司0.016643136011986227
临时0.01581476092374627
支付0.01549061415008716
一审0.014518173829109821
合同0.012933456268998602
被告0.012825407344445566
政府0.012465244262602107
标准0.012465244262602107
行政0.011744918098915189
管委会0.01156483655799346
协议0.010808494086122196
本案0.010628412545200467
约定0.010052151614250934
规定0.00972800484059182
topic1:
被告人0.039311415137042616
人民法院0.020743457335267113
裁定0.020466323636733147
审理0.019773489390398243
罪犯0.01857257669675107
刑事0.015662672862144462
判决0.015246972314343517
依法0.014923649666053893
判处0.014646515967519931
执行0.014046059620696345
中华人民共和国0.011828990032424644
认定0.01155185633389068
被害人0.010443321539754828
机关0.009750487293419922
法律0.0096581093939086
故意0.0096581093939086
上诉0.00961192044415294
有期徒刑0.009427164645130298
发生0.009057653047085015
审判员0.009011464097329355
topic2:
公司0.025217530195625056
上诉0.01833414463476224
银行0.012971949253095623
没有0.01137469956493961
证明0.010804253247741032
人民币0.010576074720861603
证言0.010461985457421887
情况0.010119717667102741
项目0.009929568894703216
工程0.009207003559585019
证实0.008902765523745778
账户0.008560497733426632
证人0.008294289452067297
证据0.008028081170707961
现金0.007571724116949101
吴起0.007533694362469196
工作0.0071533968176701445
辩护人0.0065829505004715684
职务0.006468861237031854
认定0.006392801728072043
本实施例中,对第一次分类得到的分类0进行主题分类,得到的实体词语及其关系层次,如图3所示。
本实施例中,第二次分类,对第一次分类得到的分类1进行主题分类,得到的三个主题下的主题词语及其概率如下:
topic0:
诉讼0.03758776353541387
二审0.03037409869990828
再审0.03030881666519782
申请人0.023927497772250565
本案0.02302986979498177
申请0.02226280588713389
规定0.019863691111524563
一审0.019618883481360348
民事0.019178229747064755
判决0.0167464739541002
法院0.015783563942120948
中华人民共和国0.015147064103693984
公司0.014788012912786466
时效0.013939346461550515
上诉0.013727179848741526
证据0.013319167131801165
法律0.013221244079735479
代理0.012796910854117502
期间0.01253578271527567
人民法院0.01206248796362485
topic1:
公司0.09230282265274267
工程0.016336205438475256
人民法院0.014668999144650686
合同0.014209913353597543
提供0.01203529644860897
证明0.010295602924618114
执行0.010223115694451829
有限公司0.009739867493343256
产品0.008894183141403257
高级0.0085075845805164
仲裁0.007541088178299257
判决0.007444438538077543
协议0.007444438538077543
认定0.0073236264878004
裁定0.007251139257634114
本案0.007251139257634114
签订0.007178652027467828
房屋0.007106164797301543
证据0.007106164797301543
上诉0.007082002387246114
topic2:
公司0.07835860181090756
合同0.019682281289988175
转让0.01802201273142524
协议0.013324667541344738
财产0.013243678831170936
双方0.012231319953998414
支付0.011785882048042503
土地0.011502421562434197
判决0.010530557040348576
规定0.010145860667023018
本案0.010064871956849216
技术0.009740917116154008
证据0.008546333641090432
共同0.008303367510569027
法律0.008262873155482126
约定0.00797941266987382
夫妻0.007817435249526217
款项0.007371997343570307
证明0.007108784035505451
申请0.006724087662179893
本实施例中,对第一次分类得到的分类1进行主题分类,得到的实体词语及其关系层次,如图4所示。
本实施例中,第二次分类,对第一次分类得到的分类2进行主题分类,得到三个主题下的主题词语及其概率如下:
topic0:
专利0.046073634052009656
要求0.03962050471163914
权利0.037270027137332
技术0.03427851022457745
公司0.023081689779696147
产品0.01735507168956602
证据0.015132801982948354
申请0.01457723455629394
公开0.014363554776811472
特征0.012825060364537705
说明书0.012269492937883288
判决0.011030150216884978
二审0.010944678305091991
决定0.009833543451783158
复审0.009705335584093677
认定0.009662599628197183
审查0.009577127716404196
设计0.009064296245646274
效果0.008807880510267313
专利权0.00863693668668134
topic1:
商标0.1053547720902788
公司0.04951387305716853
申请0.02668937494132951
争议0.020493770869932548
委员会0.01821400313803323
本案0.013976317236385094
证据0.013466722096313482
二审0.013252155721546487
认定0.012796202175166626
判决0.01239389022247851
再审0.012045219863482145
规定0.011991578269790396
裁定0.01183065348871515
异议0.010865104802263676
构成0.010194584881116818
申请人0.00957770655366171
中华人民共和国0.009524064959969962
相关0.009443602569432339
行政0.00882672424197723
提交0.00845123308613499
topic2:
上诉0.07846932751310445
一审0.049236989462761865
起诉0.04644614201119917
出生0.04186628978299372
旅游0.03871764137610247
行政0.01696334329212659
原告0.016784442814462317
公司0.015603699661878098
处罚0.012741292019249692
规定0.011560548866665474
原审0.011417428484534054
科技0.010916507147074083
行为0.010129345045351273
被告0.009449523230227026
作出0.009127502370431329
旅行社0.007803638835715691
证明0.006730235969730039
法定0.006336654918868633
进行0.006336654918868633
决定0.006300874823335778
本实施例中,对第一次分类得到的分类2进行主题分类,得到的实体词语及其关系层次,如图5所示。
本实施例中,第三次分类,以第二次分类得到topic0主题类别(分类0)为例,对第二次分类得到的分类0进行主题分类,得到的分类结果如下:
topic0:
拆迁0.02838756716488881
管理0.02680255503954605
补偿0.026327051401943222
上诉0.02490054048913474
临时0.019987002900572187
原告0.019352998050435083
支付0.017767985925092326
一审0.01681697864988667
公司0.015390467737078186
合同0.015390467737078186
管委会0.015231966524543911
被告0.014597961674406808
标准0.014439460461872531
协议0.013171450761598324
房屋0.013171450761598324
约定0.012378944698926945
面积0.01142793742372129
政府0.010952433786118463
履行0.010635431361049911
本案0.010635431361049911
topic1:
被告人0.03511978747776071
人民法院0.019034388632984813
依法0.018790670468670025
审理0.018303234140040453
判决0.015622334332577804
裁定0.015622334332577804
刑事0.015134898003948233
判处0.013428870853744728
认定0.01269771636080037
中华人民共和国0.01196656186785601
被害人0.01196656186785601
执行0.010747971046282079
罪犯0.010504252881967293
上诉0.010260534717652507
人民币0.010016816553337719
有期徒刑0.009773098389022933
犯罪0.009529380224708147
意见0.009529380224708147
审判员0.00928566206039336
证实0.009041943896078574
topic2:
吴起0.040996668115312176
工程0.03354649117360981
项目0.030028352062250362
公司0.027544959748349574
建设0.015955795616812565
科技0.01574884625732083
情况0.011816808426977918
职务0.011816808426977918
没有0.011609859067486185
同意0.011609859067486185
账户0.010989010989010988
证言0.010989010989010988
上诉0.010989010989010988
合同0.010989010989010988
行贿0.010782061629519257
湖南0.009747314832060594
经理0.008091719956126736
投资0.007884770596635003
出资0.007470871877651539
分红0.007263922518159806
本实施例中,对第二次分类得到的分类0进行主题分类,形成的层次关系如图6所示。
在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述直至符合预设的终止迭代条件,则停止迭代包括:
在应用lda主题模型不断迭代按主题分类和提取主题词语过程中,判断主题分类结果中是否有预设比例的数据的最大主题概率小于预设的阈值;
若是,则判定不能按照主题继续分类,停止迭代。
本实施例中,lda主题模型中每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。因此,可以看作一篇文档按照一定概率选择了某一主题,该主题又对应一些单词分布,本实施例中将文档最大选择概率的主题作为文档的主题。所以,在应用lda主题模型不断迭代按主题分类和提取主题词语过程中,需设置合理的临界值,例如,可以假设所述预设比例为30%,预设的阈值为0.5,即:在应用lda主题模型不断迭代按主题分类和提取主题词语过程中,需判断主题分类结果中是否有30%的数据的最大主题概率小于<0.5,若是,则判断不能按照主题继续分类,停止迭代。
在前述法律本体知识库自动构建方法的具体实施方式中,进一步地,所述根据提取的主题词语及得到的主题词语间的层次关系,构建法律本体知识库包括:
将提取的主题词语作为法律本体知识库的本体、得到的主题词语间的层次关系作为法律本体知识库的子父类关系,形成本体-子父类关系-本体的三元组结构,完成法律领域本体知识库的构建。
本实施例中,将迭代分类过程中提取的主题词语作为法律本体知识库的本体,将每一次分类得到的主题词语间的层次关系作为法律本体知识库的子父类关系,形成本体(实体词语)-子父类关系-本体(实体词语)的三元组结构,从而自动构建法律本体知识库。
本实施例所述的自动构建法律本体知识库的方法不仅可以应用于法律领域本体知识库的构建,也适用于其他特定领域本体知识库的构建,具体的,统计其他特定领域的专业高频词,构建其他特定领域词表,基于构建的其他特定领域词表,自动构建其他特定领域的本体知识库。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。