一种基于文本相似度的裁判文书的证据链关系模型构建方法与流程

文档序号:15851562发布日期:2018-11-07 10:04阅读:456来源:国知局
一种基于文本相似度的裁判文书的证据链关系模型构建方法与流程

本发明涉及一种裁判文书说理分析技术,具体涉及一种基于文本相似度的裁判文书的证据链关系模型构建方法,属于自然语言处理技术领域。

背景技术

一直以来,我国的裁判文书普遍存在着说理不全、说理不透或者根本不说理的问题,法官在书写裁判文书时,重认定而轻说理。统计表明,90%以上的裁判文书在说理过程中仅仅做了对证据的罗列,只有不到10%的裁判文书分析了定案理由。裁判文书说理不够导致司法判决的公信力与说服力不足。当前,国家高度重视裁判文书说理质量,提出裁判文书说理改革。裁判文书说理改革是党的十八届三中、四中全会决定和人民法院四五改革纲要部署的一项重要任务,要积极推动这项改革,切实提高裁判文书说理的正当性和可接受性,为促进司法公正、提升司法公信提供制度保障。为了提高裁判文书说理水平,需要自动化工具对裁判文书说理质量进行评估。

裁判文书的说理技术研究主要基于对证据链的提取与分析,研究遵循法言法语及文书说理的自然语言处理技术,抽取裁判文书说理的相关语段,逆向构建证据链和文书说理逻辑关系,并通过计算机程序绘制可视化的证据链与文书说理逻辑图。对于历史大数据的处理,需要引入hadoop或spark等大数据处理技术部署信息抽取算法,保持较高的处理效率。

法律界关于证据链也有着充分的研究。证据的本质属性之一是相关性。与事实无关的证据无证明价值。除极少数直接证据之外,绝大多数证据不可能与事实直接关联,而需要相互排列组合。两个证据之间能够组合,意味着两者达成了稳定牢固的“链接”关系,形成了最基本的“证据链”。上海市人民检察院第二分院法律政策研究室的陈为钢的《刑事证据链研究》是国内对于证据链研究的代表作,他率先提出了证据链的链节、链体、链头和联结点的概念,并且定义了证据之间不同的联结方式。

对信息化裁判文书的处理需要用到自然语言处理技术,自然语言处理是计算机应用的一个分支,是人工智能的一部分,其目的是让计算机“理解”自然语言的内容。早期的自然语言处理算法主要是基于复杂的统计模型,大部分系统必须打造自己的语料库。近期的研究更加关注非监督式学习和半监督学习的算法,这种算法可以从没有人工标注理想结果的语料库中学习,然而非监督或者半监督式算法比监督学习要困难。最近几年,针对自然语言处理的深度学习算法纷纷出炉,并且应用在了自然语言处理的语言模型,语法分析等方面。在文本方面自然语言处理技术主要应用在基于自然语言理解的智能搜索引擎和智能检索、智能机器翻译、自动摘要与文本综合、文本分类与文件整理、智能自动作文系统、自动判卷系统、信息过滤与垃圾邮件处理等领域。



技术实现要素:

本发明是一种基于文本相似度的裁判文书的证据链关系模型构建方法,主要针对中文裁判文书中证据链关系模型构建任务,根据裁判文书说理的特征和法院文书词汇的特点,提出一种裁判文书文本预处理方法,提出一种4w1h关键要素的提取策略,提出一种构造证据链关系模型中联结的方法并提出一种计算证据链权重的算法。实现针对性地改善裁判文书预处理方法,优化关键要素提取技术,提高证据链中联结的计算正确率,使得证据链关系模型构建能有效运用于评估裁判文书的事实说理水平。

本发明公开了一种基于文本相似度的裁判文书的证据链关系模型构建方法,包括以下步骤:

步骤(1)对裁判文书进行预处理,包括裁判文书分段、提取分段后案件基本情况段中的事实段与事实段所对应的证据段、并提取每条证据的属性;

步骤(2)选择文书中的事实段与对应事实的证据段作为输入;

步骤(3)提取证据段与事实段中的“what”、“where”、“who”、“when”和“howmuch”这五类要素,作为关键要素;

步骤(4)针对证据与事实中的关键要素,使用文本相似度计算得到证据与证据、证据与事实的联结点;

步骤(5)计算裁判文书中每个证据链关系模型的权重;

步骤(6)使用excel表格展示裁判文书中构建的证据链关系模型;

步骤(7)在证据链建模工具中展示构建的证据链关系模型。

具体而言,步骤(1)对非结构化的裁判文书进行预处理,具体包括以下步骤:

步骤(1.1)根据输入的裁判文书的类型,使用相应的分段方法对文书文本进行分段,将非结构化的文书转换成半结构化的xml格式文件,xml文件中分为“文首”、“当事人”、“诉讼记录”、“案件基本情况”、“裁判分析过程”、“判决结果”和“文尾”七个主段落,证据段与事实段属于案件基本情况段中的子段落,在案件基本情况中,使用关键词匹配的方式提取事实段与证据段,;

步骤(1.2)从解析出的证据段提取证据属性,并将其存入证据属性节点,证据有如下属性:证据明细、证据种类、证据提交人和质证结论;

步骤(1.3)提取事实段对应的证据集,根据裁判文书结构,得到每个事实段对应的证据集。

步骤(2)中选择文书中的事实段与对应事实的证据段作为输入,具体包括以下步骤:

步骤(2.1)读取xml格式文书中的“认定事实”节点生成事实集;

步骤(2.2)读取xml格式文书中事实所在分组中的“证据信息”节点生成有事实关联点的证据集;并读取xml格式文书中没有“认定事实”节点的分组中的“证据信息”节点生成无事实关联点的证据集。

步骤(3)提取证据段与事实段中的“what”、“where”、“who”、“when”和“howmuch”这五类要素,作为关键要素:

步骤(3.1)生成裁判文书专用停用词;

步骤(3.2)对文本进行分词,分析文本的句法依存结构关系,提取句子中的主语和宾语并分析词性,词性为名词的作为what要素被提取,即文本中出现的物件信息;

步骤(3.3)对文本进行分词,并结合词性分析和句法结构关系,提取关键要素where,即信息中涉及到的地点;

步骤(3.4)对事实及证据信息进行分词,并分析词性,词性为名称的作为关键要素who被提取,即信息中涉及到的当事人;

步骤(3.5)使用正则表达式从事实及证据信息中提取关键要素when,即信息中涉及到的时间;

步骤(3.6)使用正则表达式从事实及证据信息中提取关键要素howmuch,即信息中涉及到的数量,主要包括涉案金额、数量等;

步骤(3.7)过滤掉关键要素中的停用词。

步骤(4)针对证据与事实中的关键要素,使用文本相似度计算得到证据与证据、证据与事实的联结点:

步骤(4.1)对训练集的裁判文书进行分词、过滤掉停用词的操作,并将分词后的结果加入到训练语料中;

步骤(4.2)使用训练语料,应用word2vec模型训练出word2vec词向量模型;

所属的(4.3)应用word2vec词向量模型分别计算证据与证据间、证据与事实间关键词的相似度,将相似程度高于给定参数的关键要素作为联结点提取出来。

步骤(5)中针对每个证据链关系模型,结合证据链关系模型中证据数量、证据种类以及证据的质证属性,分别计算每个证据链的权重,从而可以量化证据链的证明力。

步骤(6)中对构建出的证据链关系模型中的关键元素进行分析和提取,将系统中的数据结构转换成结构化的excel表格文件。

步骤(7)中将结构化的存储证据链关系模型的excel表格文件进行可视化显示,展示在系统的界面上。

本发明与现有技术相比,其显著优点是:使用正则表达式等技术分析提取出文书中各个段落和重要元素,避免了全篇幅使用文书引入其他无关信息的问题,减少无关的段落和词语对证据链关系模型构建结果的影响;使用先提取关键要素再计算的方法,关注事实与证据中的重点内容,降低证据事实关联计算和证据链头计算的复杂度;在提取关键要素时去除法院专用停用词及证据链头无关词语,减少噪声词语,进一步降低计算复杂度;在证据与证据、证据与事实的关系计算时使用文本相似度计算算法,提高证据链中证据链头与事实的联结点计算正确率,防止遗漏语义相同然而表述不同的关键要素;引入了证据链的权重计算,量化了证据链的证明力度显著优化了证据链关系模型构建方法。

附图说明

图1证据链关系模型结构图

图2证据链关系模型构建流程图

图3法院裁判文书示例

图4xml格式的法院裁判文书中证据事实相关节点示例

图5法院专用停用词表示例

图6权重为5的证据链示例

图7证据清单excel表格示例

图8事实清单excel表格示例

图9证据链关系模型图形化界面示例

具体实施方式

为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于基于文本相似度构建裁判文书的证据链关系模型,提出一种基于裁判文书的证据链关系模型构建方法,证据链关系模型的结构图如图1所示。通过使用特定的关键词匹配对裁判文书进行分段,提取事实段、证据段以及证据属性,避免了全篇幅使用文书引入其他无关信息的问题,降低证据链头计算的规模;通过去除提取的关键要素中停用词等噪音词语,提高证据链头计算正确率,显著优化证据链关系模型构建方法。发明概括来说主要包括以下步骤:

步骤(1)对裁判文书进行预处理,包括裁判文书分段、提取分段后案件基本情况段中的事实段与事实段所对应的证据段、并提取每条证据的属性;

步骤(2)选择文书中的事实段与对应事实的证据段作为输入;

步骤(3)提取证据段与事实段中的“what”、“where”、“who”、“when”和“howmuch”这五类要素,作为关键要素;

步骤(4)针对证据与事实中的关键要素,使用文本相似度计算得到证据与证据、证据与事实的联结点;

步骤(5)计算裁判文书中每个证据链关系模型的权重;

步骤(6)使用excel表格展示裁判文书中构建的证据链关系模型;

步骤(7)在证据链建模工具中展示构建的证据链关系模型。

上述一种面向裁判文书的证据链关系模型构建方法的详细工作流程如图2所示。这里以一篇故意杀人罪的刑事二审裁判文书的证据链关系模型构建作为例子,对上述步骤分别进行实例描述。

1.法院裁判文书通常是用doc格式进行存储,如图3中的doc文书格式。二审案件作为再次进行审理的案件,文书中不仅要书写本审内容,也要书写前审相关信息,因此二审文书文字多且内容复杂;然而裁判文书通常具有相应的书写规范,刑事文书更是如此。因此,可以使用特定的正则规则提取出文书中相关段落和重要元素,通过预处理将非结构化文书转换成半结构化的xml格式文件,具体步骤包括:

步骤(1.1)将裁判文书进行分段,裁判文书分为“文首”、“当事人”、“诉讼记录”、“案件基本情况”、“判决结果”和“文尾”七个主段落。解析裁判文书时,首先需要对文书进行分段处理,使用中文换行符对整篇文书进行段落划分,再根据段落的位置与每段首句中包含的关键词进行关键词匹配可以将文书划分为七个主段落;

步骤(1.2)根据法律标准,我们为证据定义了如下属性:证据明细、证据种类、证据提交人和质证结论。下面我们会详细介绍每种证据属性的提取方法。证据明细即为我们提取的证据段内容。证据种类的提取可以看成是对证据进行分类。法律标准中规定的证据种类有七种:被告人供述和辩解、被害人陈述、证人证言、书证、勘验检查笔录、鉴定结论和其他。提取证据种类时,使用关键词匹配来对证据进行分类。证据提交人的提取使用到了依存语法分析,提取出句子里的主谓关系和定中关系,证据的提交者往往是证据段的主语,通过分析句法得到该证据段的主语,并通过句法依存关系的定中关系找到修饰语和被修饰语提取主语中的被修饰语作为证据的提交人属性。质证结论分为两种,采信和不予采信。通过句子中的关键词匹配来对质证结论进行分类。如果句子中“不予采信”,“不属实”等否定意义的关键词,则该条证据的质证结论为不予采信,否则证据的质证结论为采信;

步骤(1.3)完成上述文本预处理后,我们得到了结构化的xml文件,在文件中可以很方便的读取到需要的证据段和事实段内容。在提取出的证据分组中,如果包含认定事实,则该事实与这个分组下的证据集关联起来。如果不包含认定事实段,那么该证据集被归类到没有关联到事实的证据集中。对于没有关联事实的证据集,我们使用关联计算,计算出与证据关联度最好的事实,将该证据归类到这条事实中,在本篇文书中,所有的证据都有对应的认定事实。

2.进行过预处理的裁判文书已经成为半结构化文本,如图4中所示,可以根据标签简单地读取到需要的内容,对于构建证据链关系模型而言,所需要的就是事实和证据,因此需要读取xml文件生成事实集和证据集,具体步骤包括:

步骤(2.1)读取xml格式文书中的每个“证据分组”,如果其中包含“认定事实”,则将该事实纳入事实集中,并进入(2.2.1);如果不包含“认定事实”,则进入(2.2.2);

步骤(2.2.1)读取和“认定事实”在同一“证据分组”中的“证据记录”,形成关联到具体事实的证据集;

步骤(2.2.2)读取没有“认定事实”的“证据分组”中的“证据记录”,形成没有关联到任何事实的无关联点证据集。

3.形成的事实集中每个事实的内容都是一个事实明细,证据集中每个证据的内容都是一个证据链节,事实明细和证据链节由多个词语组成,而其中很多词语都是无用的、不需要纳入计算的,因此需要对证据链节信息进行文本预处理并提取4w1h关键要素,具体步骤包括:

步骤(3.1)停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言文本之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。停用词通常在文本中出现的频率很高,但是这些词在自然语言处理中却没有太大的意义。停用词分为两类,一类是人类语言中所包含的功能词,例如“的”,“他”,“和”等词。另一类是具有实际意义但是对于特定领域没有太大参考价值的词,例如法律领域中的“被告”,“原告”,“证据”等词。这两类词在文本中出现的频率都比较高。为了构建符合上述要求的停用词表,我们选择了十万篇裁判文书作为我们的语料库并计算了每个词的tf-idf。tf词频表示词条在文档中出现的频率,idf逆文件频率的主要思想是,如果包含词条t的文档越少,则idf越大。所以tf越大,idf越小的词是停用词的可能性越大。在对文档中的词进行了tf-idf统计以后,我们再人工评审选择生成了一份针对法律裁判文书的停用词表;

步骤(3.2)what要素指的是事实段与证据段中出现的事物。在提取中我们使用正则匹配结合自然语言处理:针对具有固定结构的事物,使用正则匹配来提取。例如书名号之间的卷宗名、自然语言处理:使用hanlp作为中文依存句法分析工具,hanlp是基于条件随机场的序列标注算法和最大熵依赖语法来对中文语句进行句法分析的。这一步可以分为五个子步骤:首先,使用hanlp来分析句子的结构,得到句子中的的“主谓宾”,“定状补”等语法成分,并分析各个成分之间的关系。第二,根据根据上一步得到的语法成分,得到每个词语的描述语,通常是得到所有的定语,并且把定语和其描述语存进一个描述表中,例如:“黄色”用来修饰“上衣”,“塑料”用来修饰“热水瓶”。第三步,根据第一步中的句法结构,得到句子的主语和宾语。第四步,对句子中的主语和宾语进行分词,得到词性为名词的词语,并从上文存储的描述表中取出这些词语的描述词,将描述词与被描述词结合得到what要素。最后,对得到的要素进行停用词过滤;

步骤(3.3)who要素指的是证据与事实中的参与者,法律案件中的参与者不仅包括个人也包括公司和行政单位,所以在提取who要素时,不仅要考虑到人名的提取,还要考虑提取公司名称和行政单位名称。who要素具有以下特征:词性是名词,并且从内容上讲属于人名或者团体机构名称。who要素的提取主要应用了中文分词算法,使用ansj中文分词器对文本进行分词,并对分词后的词语进行词性分析,选取词性标注为nr和nt的词。nr代表了这个词是名词并且词的内容为人名,nt代表了这个词是名词并且词的内容为团体机构名;

步骤(3.4)where要素指的是证据与事实中出现的地点信息,例如案发地点或者目击地点等。where要素都是名词或者是地点词,并且绝大多数地点词都在“在”,“于”,“至”等类似介词后出现。where要素的提取使用到了中文分词算法与正则匹配相结合的算法,主要用到了两个方法:第一种是,使用ansj中文分词器对句子进行分词,提取出词性标注为ns的词,ns代表这个词是地点词,这些词语作为where要素被提取出来。第二种是,提取出现在我们预定义好的介词表后的名词,并且过滤掉其中词性为nr,nt和nz的词。nr代表人名,nt代表组织机构名,nz代表其他专有名词。把过滤后的词作为where要素提取出来;

步骤(3.5)when要素指的是证据或事实中出现的时间信息,例如案发时间,证人目击时间等。因为时间具有固定的格式,所以我们在做时间提取的时候,用正则匹配来提取when要素;

步骤(3.6)howmuch要素指的是证据或事实中出现的数量信息,例如贩卖毒品罪中的毒品数量、贪污受贿罪中的涉案金额等。因为数量信息具有固定的格式,所以我们在做数量提取的时候,用正则匹配来提取howmuch要素;

因为信息中的关键要素可能出现重复表述的情况,所以以上步骤中还需要考虑去重问题,确保每种关键要素中都没有重复的词语。

4.计算证据与证据的关联时,我们使用之前提取的五类关键要素作为证据联结点计算的要素,如果证据链节的要素可以通过我们定义的联结计算和其它证据链节的要素关联,则这个要素作为该证据的链头被提取出来,这两条或以上的证据通过该链头联结起来。在计算证据于证据的联结时,我们使用了两种方法:关键要素的相等计算和关键要素的相似度计算。关键要素的相等计算:在这个方法中,我们对证据中每类关键要素的值与其他证据中这类关键要素的值进行比较,如果值相等,那么该要素的值作为证据的链头被提取出来。这几条证据通过该链头联结。基于word2vec的关键要素相似度计算:在这个方法中,我们将证据中每类关键要素的值与其他证据中该类关键要素的值进行相似度比较,如果这两个要素的相似度大于我们指定的相似度,那么该要素作为证据的链头被提取出来。这几条证据通过该链头联结。如步骤(2)中所述可能存在无关联点的证据集,所以在计算证据链体的链头之前,还需要将证据与事实相互关联。证据是认定事实产生的依据,事实是由证据推导而成的。建立裁判文书中证据与事实的关联可以帮助我们判定裁判文书中的事实部分有否有充分的证据支持。证据与事实的联结计算分为正向联结和逆向联结。逆向联结是指对于文书中的事实文本与证据文本,不考虑其在文书中的结构关系,仅仅从事实文本和证据文本的内容层面建立起证据与事实的关系。具体做法是对每个事实文本与证据文本,分别提取它们的4w1h五大关键要素,计算事实的关键要素和证据关键要素的联结关系。关键要素的联结计算分为相等计算和相似度度量计算。对于what要素与where要素间的关系计算采用相似度计算的方法,对于其他要素的关系采用相等计算的方法。逆向计算的结果可以作为一个辅助参考来帮助判断裁判文书中的事实是否有充分的证据来证明。

5.计算证据链的权重时,我们询问了一些领域专家,得出的结论证据链的权重由其包含的证据数量,证据的种类以及证据之间关联的紧密程度所决定的。证据的种类有被告人供述和辩解、被害人陈述、证人证言、书证、勘验检查笔录、鉴定结论和其他这七种,我们对其进行分类,分为权威证据与非权威证据。权威证据包括:书证、勘验检查笔录和坚定结论,这些证据是由公安机关或者鉴定科等权威机构提交的,可信度更高,我们定义它的权重为1,剩下的四类证据可信度会相对较低,我们定义这条证据的权重为0.8。证据之间关联的紧密程度可以由3.3节中证据间关联计算得到,如果两条证据的关键元素是通过相等计算联结的,那么这两条证据联结会更紧密,我们定义该关联在权重的计算中为1,如果使用相似度计算联结的,那么证据间的紧密程度由关键要素间的相似度来定义,我们定义其在权重计算中的贡献是这两类关键要素的相似度。最后将与事实关联的证据链中每条证据的权重之和与证据链中证据间的紧密程度相加,我们可以得到每条证据链的权重。

6.通过上述步骤构建出的证据链关系模型是存储在系统的数据结构中的,不便于进行阅读、理解和存储,而且证据链关系模型的可视化显示需要借助正向构建证据链的工具实现,所以需要将证据链关系模型存储为一种便于阅读、理解、存储和数据交换的格式,本发明中采用excel表格格式,将系统中的数据结构转换成结构化的excel表格文件。输出的excel表格示例如图7、8所示。

7.将excel格式的证据链关系模型输入正向构建证据链的工具,通过提取、解析和自动排版后将其展示在系统的界面上,在界面中的展示效果如图9所示。

上面已经参考附图对根据本发明实施的一种面向裁判文书的证据链关系模型构建方法进行了详细描述。本发明具有如下优点:使用关键词匹配等技术分析提取出文书中各个段落和重要元素,避免了全篇幅使用文书引入其他无关信息的问题,减少无关的段落和词语对证据链关系模型构建结果的影响;使用先提取关键要素再计算的方法,关注事实与证据中的重点内容,降低证据事实关联计算和证据链头计算的复杂度;在提取关键要素时去除法院专用停用词及证据链头无关词语,减少噪声词语,进一步降低计算复杂度,提高证据链头计算正确率,显著优化证据链关系模型构建方法;使用文本相似度计算来计算证据与证据、证据与事实的联结,避免了在计算证据与证据的联结点、证据与事实的联结点事遗漏掉语义相同但是表述不同的关键词。

需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1