本发明涉及知识工程技术领域,特别是指一种法律知识图谱自动构建方法。
背景技术:
知识图谱(knowledgegraph,kg)旨在描述客观世界的概念、实体、事件及其之间的关系。知识图谱将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答、大数据分析与决策中显示出强大威力,已经成为互联网基于知识的智能服务的基础设施。知识图谱与大数据和深度学习一起,成为推动人工智能发展的核心驱动力之一。
知识图谱研究,一方面探索从互联网语言资源中获取知识的理论和方法;另一方面促进知识驱动的语言理解研究。随着大数据时代的到来,研究从大数据中挖掘隐含的知识理论与方法,将大数据转化为知识,增强对互联网资源的内容理解,将促进当代信息处理技术从信息服务向知识服务转变。
构建法律知识图谱对整合法律知识,挖掘法律热点,对法律事件预测,构建法律领域专家系统等将起到重要作用。但是,在现有的技术中,还没有构建好的法律知识图谱。
技术实现要素:
本发明要解决的技术问题是提供一种法律知识图谱自动构建方法,以解决现有技术所存在的缺少法律知识图谱的问题。
为解决上述技术问题,本发明实施例提供一种法律知识图谱自动构建方法,包括:
获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词;
根据分词后的语料,分别抽取三类审判文书的主题词,对抽取的主题词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语主题词作为法律知识图谱的实体概念;
获取与抽取的每一名词或名词短语主题词关系相近的词,对获取的相近词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语相近词作为法律知识图谱的实体概念;
同属于主题词的实体概念之间形成主题关系,每一主题词实体概念与其相近词实体概念构成相近关系,根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,构建法律知识图谱。
进一步地,所述获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词包括:
从网络上爬取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料;
使用现代汉语法律语域词表结合预先设定的输入法法律词典构造法律领域词典;
根据构造的法律领域词典对所述语料去停用词和进行分词。
进一步地,所述预先设定的输入法法律词典包括:搜狗输入法法律词典。
进一步地,所述根据构造的法律领域词典对所述语料去停用词和进行分词包括:
根据构造的法律领域词典,利用结巴分词工具对所述语料去停用词和进行分词。
进一步地,所述分词后的语料,分别抽取三类审判文书的主题词包括:
对分词后的民事、刑事、行政三类审判文书,应用lda主题模型,分别抽取三类审判文书的主题词。
进一步地,所述对抽取的主题词进行词性标注和过滤包括:
利用java开源工具ansj去掉抽取的所述主题词中无意义的词语,所述无意义的词语包括:人名、地名;
去掉所述主题词中无意义的词语后,使用结巴分词工具进行词性标注和过滤,保留名词或名词短语主题词。
进一步地,所述获取与抽取的每一名词或名词短语主题词关系相近的词包括:
将分词后的民事、刑事、行政三类审判文书,分别作为训练集使用word2vec模型进行训练,得到法律领域民事、刑事、行政词汇的训练模型;
应用所述训练模型,获取与抽取的每一名词或名词短语主题词关系相近的词。
进一步地,所述对获取的相近词进行词性标注和过滤包括:
利用java开源工具ansj去掉获取的所述相近词中无意义的词语,所述无意义的词语包括:人名、地名;
去掉所述相近词中无意义的词语后,使用结巴分词工具进行词性标注和过滤,保留名词或名词短语相近词。
进一步地,在根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,构建法律知识图谱之后,所述方法还包括:
利用可视化工具将构建的所述法律知识图谱可视化显示。
进一步地,所述可视化工具包括:neo4j图形数据库。
本发明的上述技术方案的有益效果如下:
上述方案中,获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词;根据分词后的语料,分别抽取三类审判文书的主题词,对抽取的主题词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语主题词作为法律知识图谱的实体概念;获取与抽取的每一名词或名词短语主题词关系相近的词,对获取的相近词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语相近词作为法律知识图谱的实体概念;根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,完成法律知识图谱的构建。
附图说明
图1为本发明实施例提供的法律知识图谱自动构建方法的流程示意图;
图2为本发明实施例提供的针对民事类审判文书所列举的实体概念及其关系的知识图谱可视化示意图;
图3为本发明实施例提供的针对刑事类审判文书所列举的实体概念及其关系的知识图谱可视化示意图;
图4为本发明实施例提供的针对行政类审判文书所列举的实体概念及其关系的知识图谱可视化示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的缺少法律知识图谱的问题,提供一种法律知识图谱自动构建方法。
如图1所示,本发明实施例提供的法律知识图谱自动构建方法,包括:
s101,获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词;
s102,根据分词后的语料,分别抽取三类审判文书的主题词,对抽取的主题词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语主题词作为法律知识图谱的实体概念;
s103,获取与抽取的每一名词或名词短语主题词关系相近的词,对获取的相近词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语相近词作为法律知识图谱的实体概念;
s104,同属于主题词的实体概念之间形成主题关系,每一主题词实体概念与其相近词实体概念构成相近关系,根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,构建法律知识图谱。
本发明实施例所述的法律知识图谱自动构建方法,获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词;根据分词后的语料,分别抽取三类审判文书的主题词,对抽取的主题词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语主题词作为法律知识图谱的实体概念;获取与抽取的每一名词或名词短语主题词关系相近的词,对获取的相近词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语相近词作为法律知识图谱的实体概念;根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,完成法律知识图谱的构建。
本实施例中,所述民事、刑事、行政三类审判文书具有鲜明的法律语言特点,审判文书中的主题词是值得信赖的,能够反映审判文书内容主题,因此,从审判文书中获取的主题词可以作为法律知识图谱的实体概念。
本实施例中,作为一可选实施例,所述获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词包括:
从网络上爬取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料;
使用现代汉语法律语域词表结合预先设定的输入法法律词典构造法律领域词典;
根据构造的法律领域词典对所述语料去停用词和进行分词。
本实施例中,作为又一可选实施例,所述预先设定的输入法法律词典包括:搜狗输入法法律词典。
本实施例中,作为再一可选实施例,所述根据构造的法律领域词典对所述语料去停用词和进行分词包括:
根据构造的法律领域词典,利用结巴分词工具对所述语料去停用词和进行分词。
在前述法律知识图谱自动构建方法的具体实施方式中,进一步地,所述分词后的语料,分别抽取三类审判文书的主题词包括:
对分词后的民事、刑事、行政三类审判文书,应用隐含狄利克雷分布(latentdirichletallocation,lda)主题模型,分别抽取三类审判文书的主题词。
本实施例中,对分词后的民事、刑事、行政三类审判文书,基于lda主题模型,选取主题数和主题词数,分别抽取三类审判文书的主题词。lda是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。每篇文章的每个词都是通过"以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语"这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。这样就可以通过主题得到文章的主题词。
本实施例中,所述lda主题模型抽取的主题词包括名词、名词短语、动词以及动词短语等,但知识图谱中的实体概念应该为名词或名词短语,所以还需对应用lda主题模型抽取的主题词进行词性标注和过滤。
在前述法律知识图谱自动构建方法的具体实施方式中,进一步地,所述对抽取的主题词进行词性标注和过滤包括:
利用java开源工具ansj去掉抽取的所述主题词中无意义的词语,所述无意义的词语包括:人名、地名;
去掉所述主题词中无意义的词语后,使用结巴分词工具进行词性标注和过滤,保留名词或名词短语主题词。
在前述法律知识图谱自动构建方法的具体实施方式中,进一步地,所述获取与抽取的每一名词或名词短语主题词关系相近的词包括:
将分词后的民事、刑事、行政三类审判文书,分别作为训练集使用词向量(word2vec)模型进行训练,得到法律领域民事、刑事、行政词汇的训练模型;
应用所述训练模型,获取与抽取的每一名词或名词短语主题词关系相近的词,根据过滤结果,抽取名词或名词短语相近词作为法律知识图谱的实体概念。
本实施例中,将分词后的民事、刑事、行政三类审判文书,分别作为训练集使用word2vec模型进行训练,得到法律领域民事、刑事、行政词汇的训练模型;应用所述训练模型,获取与抽取的每一名词或名词短语主题词关系相近的词,并对获取的相近词进行词性标注和过滤。
本实施例中,以抽取的第一名词或第一名词短语主题词为例,获取与抽取的第一名词或第一名词短语主题词关系相近的词具体步骤可以包括:
使用word2vec将分词后得到的词语和抽取的第一名词或第一名词短语主题词进行量化,计算分词后得到的词语与抽取的第一名词或第一名词短语主题词之间的距离,若二者之间的距离小于预先设定的距离阈值,则当前的词语是与抽取的第一名词或第一名词短语主题词关系相近的词;接着,按照此方法,继续确认其他词语是否是与抽取的第一名词或第一名词短语主题词关系相近的词。
本实施例中,所述word2vec模型利用深度学习的思想,可以通过训练,把对审判文书内容的处理简化为k维向量空间中的向量运算,其基本思想是通过训练将每个词映射成k维实数向量(k一般为模型中的超参数),通过词之间的距离来判断词之间的语义相似度。与lda主题模型相比,word2vec模型利用了词的上下文,语义信息更加丰富。
本实施例中,将lda主题模型和word2vec模型结合,能够将基于词频和基于词语上下文语义相结合抽取实体概念,既考虑了审判文书中的词语频率特征,又应用了上下文语义,所抽取的实体概念更具有代表意义,更合理的表达知识。
在前述法律知识图谱自动构建方法的具体实施方式中,进一步地,所述对获取的相近词进行词性标注和过滤包括:
利用java开源工具ansj去掉获取的所述相近词中无意义的词语,所述无意义的词语包括:人名、地名;
去掉所述相近词中无意义的词语后,使用结巴分词工具进行词性标注和过滤,保留名词或名词短语相近词。
本实施例中,在根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,构建法律知识图谱之后,作为一可选实施例,可以利用可视化工具将构建的所述法律知识图谱可视化显示;优选地,所述可视化工具包括:neo4j图形数据库。
本实施例中,利用neo4j图形数据库将构建的所述法律知识图谱可视化显示包括:将构建的法律知识图谱中的主题词实体概念、相近词实体概念以及其之间的关系(主题词-主题关系-主题词之间的关系,主题词-相近关系-相近词之间的关系)存储在neo4j图形数据库中,通过所述neo4j图形数据库将构建的所述法律知识图谱可视化显示。
本实施例中,所述neo4j是一个高性能的nosql图形数据库,neo4j将结构化数据存储在网络中,因此可以将法律知识图谱可视化,从而直观、形象地反映法律知识和概念,实现知识和信息的可视化。
综上,从网络上爬取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,使用现代汉语法律语域词表结合搜狗输入法法律词典法律词典构造法律领域词典,对所述语料去停用词和进行分词;对分词后的民事、刑事、行政三类审判文书,应用lda主题模型,分别抽取三类审判文书的主题词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语主题词作为法律知识图谱的实体概念;将分词后的民事、刑事、行政三类审判文书作为训练集,应用word2vec模型,获取与抽取的每一名词或名词短语主题词关系相近的词,对获取的相近词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语相近词作为法律知识图谱的实体概念;lda主题模型和word2vec模型结合,将词频和词语上下文语义相结合,所抽取的实体概念更具有代表意义,更合理的表达知识;根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,构建法律知识图谱,并可以使用可视化工具实现法律知识图谱的可视化显示。
本实施例中,结合具体的例子,对所述法律知识图谱自动构建方法进行详细说明:
a11,从网络上爬取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料。
a12,使用现代汉语法律语域词表结合搜狗输入法法律词典构造法律领域词典,使用结巴分词分词工具对语料去停用词和进行分词,为应用lda主题模型做准备。
a13,对分词后的刑事、民事、行政三类审判文书应用lda主题模型提取主题词。
本实施例中,假设,可以对每类审判文书抽取40个主题词,例如,对民事审判文书抽取的主题词及其概率权值如下:
被告0.04538822855714997
原告0.043316588428150726
公司0.018895531919818322
合同0.013633310234119633
诉讼0.01251309001621634
判决0.01108851772997859
规定0.010230449503707916
责任0.010005382427964789
上诉0.009858321554609905
借款0.009341690312563182
民事0.009330181200735407
有限公司0.009316114508501462
支付0.00906419283849353
证据0.008995138167526888
中华人民共和国0.007661359985708241
人民法院0.007553941608649022
承担0.007507905161337927
法律0.007410717105903395
本案0.007202274302800385
约定0.007144728743661517
审理0.007130662051427572
赔偿0.007069280121679446
代理0.0070513770588362425
证明0.006947795052386281
履行0.006740631039486356
利息0.006273872615359985
请求0.005982308449056388
委托人0.0059388295821514656
事故0.0058812840230125975
保险0.005873611281794082
执行0.005854429428747793
双方0.005738059520266971
予以0.005359537620153529
期间0.005312222382639349
应当0.005181785781924582
受理0.004997639992680205
申请0.0049426520139475094
提供0.004911961049073446
依法0.004741881952063015
认为0.004729094050032155
对刑事审判文书抽取的主题词及其概率权值如下:
被告人0.04468756653212941
判决0.013898544185240131
机关0.013463702893840556
审理0.012932857680963156
公诉0.011521035306289217
执行0.011357263910827038
刑事0.010803829539954854
犯罪0.010385930117051368
人民法院0.009521894823750918
罪犯0.009194352032826564
有期徒刑0.00916046829583439
被害人0.008725627004434815
处罚0.008584444766967422
指控0.008262549265541763
证据0.008143956186069152
证实0.007918064606121322
判处0.007810766105646103
依法0.007692173026173492
人民0.007421103130236095
规定0.0072629790242726144
罚金0.0072347425767791355
上诉0.006918494364852173
某甲0.006737781100893909
人民币0.006653071758413473
中华人民共和国0.006641777179416081
予以0.006348118125483902
刑期0.006014928045060852
证明0.005517966569175626
认为0.005489730121682147
羁押0.005484082832183451
提出0.00547278825318606
减刑0.005354195173713449
法律0.005354195173713449
检察院0.005275133120731708
鉴定0.005201718357248663
刑法0.005184776488752576
判决书0.005004063224794311
应当0.004902412013817788
上述0.004902412013817788
公安局0.00469910959186474
对行政审判文书抽取的主题词及其概率权值如下:
执行0.07607003223815077
申请0.0299420399204335
行政0.01917312572878798
原告0.016755264421428082
规定0.015949310652308115
法律0.013702928870292888
人民法院0.013068454626517595
被告0.012142465189656355
裁定0.011542286850949997
作出0.0108049248919679
中华人民共和国0.009913231360175596
上诉0.008781466492900748
证据0.008627134920090542
诉讼0.00792406886617738
有限公司0.007906920913642911
履行0.007872625008573976
决定0.00785547705603951
代理0.007838329103505041
依法0.007563961862953564
本案0.007529665957884629
送达0.00739248233760889
政府0.007375334385074423
法定0.007306742574936553
人民0.0071009671445229445
强制0.006878043761574869
民事0.006860895809040401
裁定书0.006723712188764662
处罚0.006620824473557858
公司0.0062264215652651075
财产0.0062264215652651075
申请人0.006140681802592771
审判员0.005986350229782564
发生0.0058491666095068255
程序0.005832018656972358
行为0.005814870704437891
委托0.005591947321489815
商标0.00542046779614514
认为0.005403319843610674
认定0.005248988270800467
证明0.005077508745455793
a14,利用java开源工具ansj去掉抽取的所述主题词中无意义的词语,所述无意义的词语包括:人名、地名;
a15,去掉所述主题词中无意义的词语后,使用结巴分词工具进行词性标注过滤,保留名词或名词短语主题词,从保留的名词或名词短语主题词中,抽取名词或名词短语主题词作为法律知识图谱的实体概念。
本实施例中,针对上文民事审判文书抽取的主题词,过滤后保留的名词或名词短语主题词实体概念包括:民事、原告、被告、公司、合同、规定、责任、借款、证据、中华人民共和国、人民法院、赔偿、利息、委托人、事故、保险;
针对上文刑事审判文书抽取的主题词,过滤后保留的名词或名词短语主题词实体概念包括:刑事、被告人、判决、机关、罪犯、有期徒刑、人民法院、有期徒刑、被害人、证据、处罚、公安局、罚金、检察院、证据、刑期;
针对上文行政审判文书抽取的主题词,过滤后保留的名词或名词短语主题词实体概念包括:行政、原告、被告、规定、证据、诉讼、政府、程序、商标、财产、申请人、行为、中华人民共和国、有限公司。
a16,将分词后的民事、刑事、行政三类审判文书,分别作为训练集使用word2vec模型进行训练,得到法律领域民事、刑事、行政词汇的训练模型;应用所述训练模型,获取与抽取的每一名词或名词短语主题词关系相近的词。
应用所述训练模型,民事类主题词实体概念“合同”得到关系相近词及其概率权值包括:
签订0.5763912
约定0.48097914
协议0.37736425
订立0.3705411
公司0.3696574
租赁0.36512932
双方0.35705388
刘德金0.34434897
气泡0.328522
明确0.32501125
涉案0.32185695
协议书0.31391016
买卖0.3088458
乐业0.30489194
之间0.30382612
证明0.2990941
终止0.29683605
二手0.29514572
种田0.29396233
追索0.28939554
续订0.28641993
解除0.28595838
有限公司0.28574145
书面0.28361073
分期付款0.28282937
提供0.2827272
进驻0.2825332
阁楼0.2816434
钢材0.2810969
乙方0.2808927
个人0.27966338
通知0.27827317
补充0.27381954
商品房0.2735057
在先0.27306673
形式0.2725207
支付0.27117527
养殖户0.26940143
必须0.2674929
民事类主题词实体概念“保险”得到关系相近词及其概率权值包括:
投保0.56694895
人寿0.5114369
湛江0.48388714
黄泛区0.4794967
平安0.46968624
葫芦岛0.46316242
股份公司0.4605423
承保0.4594842
第三者0.45929018
太平洋0.45355806
阳光0.45028463
责任险0.42831764
云梦0.41445065
莱西0.41428867
郸城0.4068216
泰安0.40472373
大地0.39746445
永安0.3968292
扶绥0.3896513
理赔0.38841742
高密0.38796845
机动车0.38347688
限额0.3812008
支公司0.38062343
财险0.37823787
股份0.37744236
秦凤英0.37533227
王东亮0.37525466
三者0.37188548
王泽娥0.36597794
宁波0.36417973
超载0.36360556
承德市0.3632158
洛阳0.35979813
姚北0.35928556
卡面0.3588715
新乡0.3568592
赔付0.35668504
民事类主题词实体概念“事故”得到关系相近词及其概率权值包括:
机动车0.64636284
道路0.59133244
受伤0.58880615
相撞0.5638595
交警0.55251616
受损0.5505517
安全0.54463726
警察0.5340148
丧生0.53361696
交通0.5322209
孟召霞0.52191746
损坏0.5216344
认定书0.5169376
保险期0.51690906
孙文云0.5163057
李艳华0.5088402
李育爱0.5043047
秦凤英0.5039391
碰撞0.4961797
逃逸0.49591517
王东亮0.4918255
王泽娥0.48844925
张水兰0.48542893
汤淑媛0.48374018
连环0.4697476
刘新国0.46883675
迁安市0.467965
梁栋锋0.46751007
欧定明0.46699777
公安0.46476513
赵继庆0.45994714
责任事故0.45580548
肇事0.45535287
驾车0.45335504
黑狗0.4530668
巡逻0.4528954
大队0.45050552
民事类主题词实体概念“借款”得到关系相近词及其概率权值包括:
杨文德0.53020227
约定0.5103647
贷款0.5056032
到期0.4983407
借据0.49800384
归还0.48050326
陈乐平0.4619061
本金0.45753172
借款人0.45016727
还款0.4425541
用途0.43778557
偿还0.43593448
提前0.41843352
担保人0.4159059
流动资金0.41377255
本息0.41336417
款项0.40746012
月利率0.40664664
计息0.40537024
方天益0.4042288
利息0.40377522
乔景伟0.4011478
杨秀华0.4001807
石彪0.39721152
陈喜山0.39458355
转账0.39407754
个人0.3935814
郑华富0.38994315
金融0.38959554
截止0.38876835
谭永峰0.38827744
陈丽艳0.38779706
李金停0.38715848
王旭纯0.38537905
借条0.38101554
签订0.3808062
邓仙兰0.38042617
载明0.3793149
刘爱丽0.3779271
a17,利用java开源工具ansj去掉获取的所述相近词中无意义的词语,所述无意义的词语包括:人名、地名;去掉所述相近词中无意义的词语后,使用结巴分词工具进行词性标注和过滤,保留名词或名词短语相近词,从保留的名词或名词短语相近词中,抽取名词或名词短语相近词作为法律知识图谱的实体概念。
本实施例中,列举与民事类主题词“合同”实体概念关系相近的实体概念:约定、协议、公司、书面、租赁、有限公司、买卖、分期付款、乙方、个人、商品房、形式、通知;
列举与民事类主题词“保险”实体概念关系相近的实体概念:人寿、平安、太平洋、阳光、责任险、股份公司、第三者、理赔、机动车、财险、赔付、股份;
列举与民事类主题词“事故”实体概念关系相近的实体概念:事故:机动车、道路、交警、丧生、警察、认定书、保险期、责任、安全、逃逸、肇事;
列举与民事类主题词“借款”实体概念关系相近的实体概念:贷款、借据、到期、本金、借款人、还款、本息、款项、个人、借条、担保人、利率、利息;
进一步,道理同上,本案例列举与刑事类主题词“判决”实体概念关系相近的实体概念:中华人民共和国、缴纳、刑期、责任人员、刑法、原判、并处、敲诈、规定、裁定、通告、最高人民法院、解释;
列举与刑事类主题词“罪犯”实体概念关系相近的实体概念:监狱、服刑、减刑、悔改、改造、考核、受刑、法官、刑罚、刑事制裁;
列举与刑事类主题词“证据”实体概念关系相近的实体概念:事实、异议、材料、体系、法庭、矛盾、庭审、定案、意图、权属;
列举与刑事类主题词“处罚”实体概念关系相近的实体概念:自首、情节、罪行、嫌疑人、情形、同案犯、犯罪分子、过失、犯罪、性质、初犯;
进一步,道理同上,本案例列举与行政类主题词“政府”实体概念关系相近的实体概念:山区、开支、补偿费、财政所、地租、搬迁、报销、境内、城市规划、土地;
列举与行政类主题词“商标”实体概念关系相近的实体概念:报销、注册证、声誉、信贷员、代理商、科技、范围、费用、补偿;
列举与行政类主题词“程序”实体概念关系相近的实体概念:审判、政治权利、条件、合法、公开、简易、幅度、标准、最高人民法院;
列举与行政类主题词“有限公司”实体概念关系相近的实体概念:合同、股份、诉讼费、支票、保险金、管理费、费用、经理、支公司。
a18,根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,自动构建法律知识图谱;
a19,使用neo4j图形数据库,对得到的法律知识图谱可视化,为了方便清晰,本实施例仅对列举的主题词和相近词及其之间的关系进行可视化展示,如图2-图4所示,本实施例中,还可以使用neo4j图形数据库,对全部列举的实体概念及其关系进行知识图谱的可视化显示。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。