多语言刑事判决书知识图谱的构建方法与流程

文档序号:20017218发布日期:2020-02-25 10:47阅读:313来源:国知局
多语言刑事判决书知识图谱的构建方法与流程

本发明涉及计算语言学技术领域,具体涉及一种多语言刑事判决书知识图谱的构建方法。



背景技术:

随着计算机技术的高速发展与智慧化司法建设的不断推进,传统的人工阅卷、核验已经无法满足人们越来越高的要求。司法从业人员希望能够让机器为其带来更为便捷的工作服务与效率地提升。裁判文书的网络公开,使裁判文书作为一种研究材料或普法材料被越来越多的法律研究人员和人民群众所关注。

经调研发现,民族地区双语法官人员短缺、平均业务素养尚有差距。由于民族地区在涉及民族语文的刑事判决书时,法院为满足民族语使用者的需求而需要出具民族语版本的刑事判决书且公之于众,然而,由于民族语版本的刑事判决书的制作规范性尚无从检验,写作内容无从校对,导致民族语版本的刑事判决书表达不规范。这样既不利于维护司法形象,亦不便于广大民众了解相关信息。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种多语言刑事判决书知识图谱的构建方法,通过多语言刑事判决书文本知识图谱制作民族语版本的刑事判决书,解决了民族语版本的刑事判决书表达不规范的技术问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

本发明提供了一种多语言刑事判决书知识图谱的构建方法,所述方法由计算机执行,包括以下步骤:

s1、获取汉语刑事判决书语料库,对所述汉语刑事判决书语料库进行预处理;

构建由法学术语知识库、刑事判决书术语知识库和法律条文知识库组成的刑事判决书术语及法条本体知识库;

s2、基于经过预处理的汉语刑事判决书语料库和刑事判决书术语及法条本体知识库提取刑事判决书属性标签;

s3、对所述刑事判决书属性标签进行处理,形成刑事判决书属性标签体系和提取规则模板;

s4、基于所述刑事判决书属性标签体系和所述提取规则模板优化所述刑事判决书术语及法条本体知识库;

s5、基于经过优化的刑事判决书术语及法条本体知识库,获取刑事判决书自动标注模型;

s6、基于计算机模式匹配算法和所述刑事判决书自动标注模型对刑事判决书进行自动标注;

s7、对经过自动标注的刑事判决书进行信息抽取,构建汉语刑事判决书知识图谱;

s8、基于汉语和民族语的映射关系,构建与汉语刑事判决书知识图谱对应的民族语刑事判决书知识图谱;结合所述汉语刑事判决书知识图谱,形成汉语、民族语融合的刑事判决书知识图谱。

优选的,在步骤s1中,对所述汉语刑事判决书语料库进行预处理的具体过程为:

对所述汉语刑事判决书语料库中的一级案由进行标注;并对汉语刑事判决书语料库中的刑事判决书文本的内部结构进行划分。

优选的,所述步骤s3具体为:

对所述刑事判决书属性标签进行标注,提取规则,再进行校对,判断标注的文本内容和标注规则是否匹配,若匹配,则形成刑事判决书属性标签体系和提取规则模板,若不匹配,则返回,重新标注。

优选的,在步骤s4中,还包括:对刑事判决书术语及法条本体知识库进行进行标注,提取规则,再进行校对,判断标注的文本内容和标注规则是否匹配,若匹配,则形成刑事判决书属性标签体系和提取规则模板,若不匹配,则返回,重新标注。

优先的,所述步骤s6具体为:

s601、利用计算机模式匹配算法和所述刑事判决书自动标注模型将刑事判决书从非结构化的刑事判决书文本转换为结构化的刑事判决书文本;

s602、基于结构化的刑事判决书文本提取刑事判决书文本的属性化表示方法。

优选的,在步骤s7中,所述信息抽取具体包括:篇章结构分析、句级抽取和词级抽取。

(三)有益效果

本发明提供了一种多语言刑事判决书文本知识图谱构建方法。与现有技术相比,具备以下有益效果:

本发明通过经过预处理的汉语刑事判决书语料库和刑事判决书术语及法条本体知识库提取刑事判决书属性标签,然后通过对刑事判决书属性标签进行处理,形成刑事判决书属性标签体系和提取规则模板,再基于刑事判决书属性标签体系和提取规则模板优化完善刑事判决书术语及法条本体知识库,然后,根据刑事判决书术语及法条本体知识库,获取刑事判决书自动标注模型,刑事判决书自动标注模型结合计算机模式匹配算法对刑事判决书进行自动标注,将经过标注的刑事判决书进行信息抽取,构建汉语刑事判决书知识图谱;最后通过汉语和民族语的映射关系,构建与汉语刑事判决书知识图谱对应的民族语刑事判决书知识图谱,结合汉语刑事判决书知识图谱,形成汉语、民族语融合的刑事判决书知识图谱。通过本发明构建的汉语、民族语融合的刑事判决书知识图谱,能使现有刑事判决书的制作、校对获得更为客观合理的表达方式,助力于提升完善司法从业人员的教育培训方式与内容。同时本发明的方法能够更细致地提供规范化写作模式,实现专业知识跨语言对比查询,可广泛应用于汉语与民族语裁判文书与先进智能领域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一种多语言刑事判决书知识图谱的构建方法的框图;

图2为刑事判决书自动标注模型的框架;

图3为信息抽取流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种多语言刑事判决书知识图谱的构建方法,通过本发明构建的多语言刑事判决书知识图谱的构建方法为民族语刑事判决书提供规则的书写模板,解决了民族语刑事判决书表达不规范问题,实现客观合理的表达方式民族语刑事判决书。

本申请实施例中的技术方案为解决上述技术问题,总体思路如下:

本发明实施例通过经过预处理的汉语刑事判决书语料库和刑事判决书术语及法条本体知识库提取刑事判决书属性标签,然后通过对刑事判决书属性标签进行处理,形成刑事判决书属性标签体系和提取规则模板,再基于刑事判决书属性标签体系和提取规则模板优化完善刑事判决书术语及法条本体知识库,然后,根据刑事判决书术语及法条本体知识库,获取刑事判决书自动标注模型,刑事判决书自动标注模型结合计算机模式匹配算法对刑事判决书进行自动标注,将经过标注的刑事判决书进行信息抽取,构建汉语刑事判决书知识图谱;最后通过汉语和民族语的映射关系,构建与汉语刑事判决书知识图谱对应的民族语刑事判决书知识图谱,结合汉语刑事判决书知识图谱,形成汉语、民族语融合的刑事判决书知识图谱。通过本发明实施例构建的汉语、民族语融合的刑事判决书知识图谱,能使现有刑事判决书的制作、校对获得更为客观合理的表达方式,助力于提升完善司法从业人员的教育培训方式与内容。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种多语言刑事判决书知识图谱的构建方法,如图1所示,该方法包括以下步骤:

s1、获取汉语刑事判决书语料库,对所述汉语刑事判决书语料库进行预处理;

构建由法学术语知识库、刑事判决书术语知识库和法律条文知识库组成的刑事判决书术语及法条本体知识库;

s2、基于经过预处理的汉语刑事判决书语料库和刑事判决书术语及法条本体知识库提取刑事判决书属性标签;

s3、对所述刑事判决书属性标签进行处理,形成刑事判决书属性标签体系和提取规则模板;

s4、基于所述刑事判决书属性标签体系和所述提取规则模板优化所述刑事判决书术语及法条本体知识库;

s5、基于经过优化的刑事判决书术语及法条本体知识库,获取刑事判决书自动标注模型;

s6、基于计算机模式匹配算法和所述刑事判决书自动标注模型对刑事判决书进行自动标注;

s7、对经过自动标注的刑事判决书进行信息抽取,构建汉语刑事判决书知识图谱;

s8、基于汉语和民族语的映射关系,构建与汉语刑事判决书知识图谱对应的民族语刑事判决书知识图谱;结合所述汉语刑事判决书知识图谱,形成汉语、民族语融合的刑事判决书知识图谱。

通过本发明实施例构建的汉语、民族语融合的刑事判决书知识图谱,能使现有刑事判决书的制作、校对获得更为客观合理的表达方式,助力于提升完善司法从业人员的教育培训方式与内容。

下面对各个步骤进行详细描述,如图1~3所示。

需要说明的是,这里的民族语以蒙古语为例。

s1、获取汉语刑事判决书语料库,并对所述汉语刑事判决书语料库进行预处理。构建由法学术语知识库、刑事判决书术语知识库和法律条文知识库组成的刑事判决书术语及法条本体知识库。具体包括以下步骤:

s101、通过网络爬取或人工下载的方式获取刑事判决书语料,构建汉语刑事判决书语料库。

s102、对所述汉语刑事判决书语料库中的11种一级案由进行标注,并对汉语刑事判决书语料库中的刑事判决书文本的内部结构进行划分。

其中,11种一级案由是指:危害国家安全、危害公共安全、破坏社会主义市场经济秩序、侵犯公民人身权利民主权利、侵犯财产、妨害社会管理秩序、危害国防利益、贪污贿赂、渎职、军人违反职责和九七年十月以前刑事案由。

刑事判决书文本的内部结构划分成以下结构:首部、尾部和正文,其中,首部和尾部包含公诉机关、被告人、性别、出生日期、民族、文化程度、刑拘理由、控诉罪名等信息,正文包括事实、理由、判决结果这些信息。

s103、构建由法学术语知识库、刑事判决书术语知识库和法律条文知识库组成的刑事判决书术语及法条本体知识库。

s2、基于经过预处理的汉语刑事判决书语料库和刑事判决书术语及法条本体知识库提取刑事判决书属性标签。在具体实施过程,属性标签共149个,其中一级属性标签6个,二级属性标签24个,三级属性标签112个,四级属性标签7个。

s3、对所述刑事判决书属性标签进行处理,形成刑事判决书属性标签体系和提取规则模板。具体包括以下步骤:

对所述刑事判决书属性标签进行标注,提取规则,再进行校对,判断标注的文本内容和标注规则是否匹配,若匹配,则形成刑事判决书属性标签体系和提取规则模板,若不匹配,则返回,重新标注。

s4、基于所述刑事判决书属性标签体系和所述提取规则模板优化和完善刑事判决书术语及法条本体知识库。在具体实施过程中,需要刑事判决书术语及法条本体知识库对进行标注,提取规则,再进行校对,判断标注的文本内容和标注规则是否匹配,若匹配,则形成刑事判决书属性标签体系和提取规则模板,若不匹配,则返回,重新标注,和步骤s3形成一个循环过程。

s5、基于经过优化和完善的刑事判决书术语及法条本体知识库,获取刑事判决书自动标注模型。在具体实施过程中,刑事判决书自动标注模型包括以下结构如图2所示,包括以下结构:输入层、标注层和输出层。在输入层输入多个刑事判决书和法学术语知识库,在标注层对刑事判决书进入规则提取,规则提取后通过刑事判决书属性标签体系对多个刑事判决书进行属性标注,然后在输出层输出已经标注的刑事判决书,多个已经标注的刑事判决书,可形成已经标注的刑事判决书知识库。

s6、基于计算机模式匹配算法和所述刑事判决书自动标注模型对刑事判决书进行自动标注。具体包括以下步骤:

s601、利用计算机模式匹配算法和所述刑事判决书自动标注模型将刑事判决书从非结构化的刑事判决书文本转换为结构化的刑事判决书文本;

s602、基于结构化的刑事判决书文本提取刑事判决书文本的属性化表示方法。

s7、对经过自动标注的刑事判决书进行信息抽取,构建汉语刑事判决书知识图谱。

在具体实施过程中,如图3所示,对多个经过自动标注的刑事判决书进行信息抽取,信息抽取的过程包括篇章结构分析、句级抽取、词级抽取。首先,在篇章结构分析过程中,用计算机模式匹配算法将刑事判决书从非结构化的刑事判决书文本和结构化的刑事判决书文本进行划分。其中,非结构化的刑事判决书文本包括:正文信息、正文-事实信息和正文-理由信息。结构化的刑事判决书文本包括:首部、尾部、和正文-判断结果。

在句级抽取过程中,对刑事判决书文本的正文信息进行分句,通过计算机模式匹配算法将正文中的事实信息、理由信息进行匹配。其中,正文-事实信息包括控方指控信息、证据信息、法庭认定信息、辩护人意见、被告人悔罪信息、赔偿信息和犯罪预备信息。正文-理由信息包括:犯罪行为信息和法院认定信息。

在词级抽取过程中,结合篇章结构分析和句级抽取得到的信息,对这些信息进行规则提取,然后进行属性标注。最后将经过篇章结构分析、句级抽取、词级抽取的刑事判决书转化成xml文档并存储,构建成汉语刑事判决书知识图谱。

s8、基于汉语和民族语的映射关系,构建与汉语刑事判决书知识图谱对应的民族语刑事判决书知识图谱,形成汉语、民族语融合的刑事判决书知识图谱。在具体实施过程中,基于汉语和蒙古语的映射关系,将汉语刑事判决书知识图谱转化为蒙古语刑事判决书知识图谱,综合汉语刑事判决书知识图谱和蒙古语刑事判决书知识图谱,形成汉语、蒙古语融合的刑事判决书知识图谱。根据汉语、蒙古语融合的刑事判决书知识图谱为蒙古语提供规范化写作模式。

综上所述,与现有技术相比,具备以下有益效果:

1、通过本发明实施例构建的汉语、民族语融合的刑事判决书知识图谱,能使现有刑事判决书的制作、校对获得更为客观合理的表达方式,助力于提升完善司法从业人员的教育培训方式与内容。

2、本发明实施例利用计算机模式匹配的方法实现了对汉语、民族语双语刑事判决书文本的自动标注,提升了专业领域跨语言检索与双语审判辅助水平,可广泛应用于汉语与民族语裁判文书与先进智能领域。

需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1