基于主题模型的裁判文书相似度分析方法与流程

文档序号:12034577阅读:648来源:国知局
基于主题模型的裁判文书相似度分析方法与流程

本发明是一种文本相似度分类方法,针对法院内部的裁判文书,属于机器学习、文本挖掘技术领域。



背景技术:

中国裁判文书网从2013年开始建设,截止2017年5月14日已经累积存储文书超过2900万篇,逐渐成长为全球最大的裁判文书共享网站。基于这些数据,一系列司法大数据研究、分析工作也相继开展,在获得斐然成果的同时,还面临着许多问题和挑战。其中一部分问题集中在针对法院数据挖掘分析能力和相关研究的不足上。

裁判文书,作为法院工作的重要组成部分,记载了人民法院审理的过程和结果。它既是法院诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的惟一凭证。在中国法院信息化过程中汇聚起来的裁判文书已经成为审判领域宝贵的数据资源,通过针对裁判文书的大数据挖掘研究工作,可以提出更加智能化的信息技术手段辅助法官办案。例如:从已有裁判文书库中挖掘相似案例的裁判文书,并为法官提供相似案例推荐;法院可以根据一个法官经手裁判文书的相似程度来评估其一段时间的工作量;法官、诉讼参与人、法律工作者等可以输入案情来查看某案件可能涉及的相关法律条文。针对这些应用场景和需求,本专利提出一种针对裁判文书的文本相似度分析方法。

法院审判工作的各类要求,裁判文书本身所具有的种种特性,以及现有相似度分析方法的局限和难点,迫切需要研究一种针对裁判文书的特点而量身定制的相似度分析方法。其中,中国法院裁判文书的半结构化特性为提高文本相似度分析结果提供了可能,并为相似度结果评估提供了依据。中国法院裁判文书中存在的案由、法律条文等相对固定的分类、标识信息为我们使用主题模型方法提供了启示。裁判文书的文字内容注重逻辑、注重推理的特性则对相似度方法的语义理解能力提出了相应的要求。基于以上一些原因,本文中提出了一种采用lda(latentdirichletallocation)主题模型、针对裁判文书、基于语义的、半自动化的、通用的相似度分析方法。

文本相似度分析方法作为自然语言处理中的一个重要研究方向,用于衡量目标对象之间的相似程度,已经被应用在信息抽取、文本分类、文本聚类、主题探索、主题跟踪等诸多领域。相似度方法一般存在两个关键点:一个是特征的表示,另一个则是针对特征间的相似度关系计算。现有的文本相似度分析方法,从单纯的基于字符的分析方法,到基于语料和知识系统挖掘文本语义的分析方法,已经经历了长期的发展。而中文相似度方法则在此基础上,针对中文语言的特性进行了进一步的探索。由于相似度问题本身的多样性,在针对不同的目标对象(词语、短文本、长文本),或处于不同的应用场景时,往往需要采用不同的相似度方法以达到更好的分析效果。

主题模型系列方法,尤其是其中的lsa(latentsemanticanalysis)、lda相关方法,是现在针对文本相似度研究的一个重要方向。简而言之,主题模型基于如下假设:每一个单词都一定概率属于某几个主题,而每一篇文本都表达若干个主题。当把主题模型应用在相似度分析方法中,针对训练完成的主题模型,可以推断出一篇文本的主题归属,从而根据主题情况进一步计算获得不同文本间的相似程度。从另一个角度来说,主题模型相当于将以词汇为基础的高维向量映射到语义空间,使其降维。主题模型由latentsemanticindexing(lsi)发展而来,probabilisticlatentsemanticanalysis(plsa)是第一个有影响力的主题概率模型。blei在plsa的基础上引入了dirichlet分布,提出了lda,进一步泛化了主题模型方法。在之后的应用研究中,为了针对不同的问题以及提升lda的使用效率(并行化),其它一系列与lda相关的改进方法被相继发表。

lda全称latentdirichletallocation,由blei在2003年提出,是一种非监督的主题模型方法,可以用于对大规模文档集或语料库进行语义理解和隐藏主题识别。lda方法相对于原有的主题模型方法,引入了dirichlet分布,加入了先验概率假设。这使得模型更容易应用在训练语料集以外的文本,降低模型过拟合的可能性,对于数据量较小的语料具有更好的表现力。目前,lda方法已经在文本信息抽取、文本分类、文本自动摘要、图像处理等领域有了广泛的尝试和应用。

主题模型方法建立在如下公式假设下:

其中,p(tl|di)表示词语tl出现在文档di中的概率,p(tl|tj)表示主题tj中出现词语tl的概率,p(tj|di)表示文档di出现主题tj的概率。该模型假设,文档中出现一个词的概率等于所有该文档可能属于的主题的概率乘以每个主题中出现这个词的概率的累加。

lda模型的训练主要包括gibbssampling和变分em两种不同方法。其中,gibbssampling在马尔可夫链的基础上,模拟抽样过程,在概率的转移过程中以求获得平稳的概率分布。变分em方法则构建在贝叶斯计算上,主要通过寻找变分参数最优解(e步)和估计原模型参数、最大化模型下界(m步)两个步骤完成。其模型示意图如图4所示。

该图表示内容如下:从根据超参数α获得的文档、主题间的dirichlet先验分布中生成文档的主题分布θi;从主题的多项式分布θi中生成文档的主题zi,j;从根据超参数β获得的主题、词汇间的dirichlet先验分布中生成主题zi,j的词语分布从词语的多项分布中最终生成词语wi,j。该模型的具体表现方式在gibbssampling和变分em中有一定的差别。相较而言,变分em方法比gibbssampling方法具有更快的训练速度,但变分em方法获得的结果为局部最优,而不一定等于全局最优。同时,虽然gibbssampling的程序逻辑较为简单,但却无法像变分em方法一样支持分布式运算。



技术实现要素:

本发明要解决的技术问题是:针对裁判文书,如何提出一种通用的、半自动化的相似度分析方法,从而应用于基于相似度的文书分类、相似文书推荐、基于裁判文书相似度的法官工作量评估、针对案情的法律条文预测等方向。该方法利用文本挖掘技术中的tf-idf方法、lda方法,通过一系列处理工作和迭代训练方式以建立相似度分析模型,并根据分析模型,获得文书间的相似度关系。该方法具有良好的相似度分析结果,并具备快速的相似度计算能力,从而为基于裁判文书的相似度相关应用提供更好的基础。

本发明的技术方案为:

1、基于主题模型的裁判文书相似度分析方法,其特征是针对裁判文书及其特点,使用基于主题模型的文本挖掘方法来进行文本相似度分析。本方法的简要流程步骤如图1所示,其中文本预处理、参数选取部分拥有多个子步骤,迭代训练部分可以进一步展开,详细流程步骤如图2所示,具体如下:

(1)以裁判文书的结构化分类信息(包括案由、案件类型等)作为目标语料;

(2)将目标语料分为训练语料和测试语料,并对测试语料进行相似度标注;

(3)对作为训练语料的文书文本进行预处理操作,包括文书分段、文书筛选、中文分词、分词前后的词语获取和过滤操作;

(4)选择目标语料的高可信部分作为输入内容;

(5)设置各类参数,包括停用词、lda模型训练参数、tf-idf输入和评估标准设置;

(6)使用训练语料,根据lda进行模型训练;

(7)使用测试语料评估本次训练模型(指和测试语料相似度标注的符合程度);

(8)调整参数,迭代执行步骤(6),直到针对所有要求参数完成遍历;

(9)根据不同参数下的准确度,选择合适的参数,生成训练模型;

(10)应用训练模型。

2、在步骤(2)中,其具体内容如图3所示。首先,要将步骤(1)中获得的目标语料分成训练语料和测试语料两部分。之后,需要针对测试语料进行相似度标注。

相似度标注是指针对一定量的目标文书,标注预期的输出结果。例如,标注每篇文书相对其它文书的相似度度量结果,或根据相似度进行的分类、排序等类似结果。该过程由两个维度决定:一个维度是标注方法,表示标注的实施方式;另一个维度是标注粒度,表示标注的细致程度。

标注方法分为两种:一种是自动化标注,需要制定和实现相应的相似度判断策略;另一种是人工标注,由法院相关专家来完成标注工作。

标注粒度分为两种:第一种是数字化标注,是指使用数字形式标注每篇文书与目标文书相比的相似度;第二种是非数字化标注,针对无法以数字形式进行逐篇标注的情况,可以采用类似分类、排序等标注方式。

3、步骤(3)以简化输入和去除干扰为目的,包括五个具体的预处理子步骤:

(3.1)对裁判文书进行分段;

(3.2)去除写作不规范的裁判文书;

(3.3)在裁判文书中删除对分词有害的停用词;

(3.4)对裁判文书进行中文分词;

(3.5)生成裁判文书的专有停用词。

4、由于在相似度分析中,裁判文书各个部分的重要性及可信性存在区别,步骤(4)需要选择目标语料的高可信部分作为输入内容。

5、步骤(5)以构建模型训练参数和完成训练前的准备工作为目标,包括以下四个子步骤:

(5.1)设置停用词;

(5.2)设置训练参数;

(5.3)针对训练语料生成tf-idf向量;

(5.4)评估标准设置,用于判定训练模型的实际效果。

6、在步骤(10)中,可以使用训练获得的模型计算出任意两个文书之间基于主题的相似度关系,从而可以快速的获得任意两篇文书之间的相似度,进而可以开发一系列基于相似度的应用,包括裁判文书相似度分类、相似裁判文书推荐、基于裁判文书相似度的法官工作量评估、基于案情的法律条文推荐等。

根据本发明内容,我们已经开发出基于python语言的裁判文书相似度分析工具,该工具可以支持模型训练工作,同时也可以直接使用该工具进行相似裁判文书的推荐工作,基于案情的法律条文预测工作。此外,基于该裁判文书相似度分析工具还可以拓展更加丰富的相似度分析和应用。

本方法在一般相似度分析方法的基础上,充分考虑裁判文书内容中专业词汇丰富、语义复杂的特点,利用裁判文书半结构化特点,从而提升裁判文书相似度分析的准确性和适用性。此外,该相似度分析方法由于采用了主题模型方法,可以通过离线处理方式,提高相似度分析的实时响应速度,从而提高相关应用的使用效率。

附图说明

图1基于主题模型的裁判文书相似度分析方法简要流程图

图2基于主题模型的裁判文书相似度分析方法详细流程图

图3目标裁判文书分类及标注方式

图4lda模型示意图

图5相似度标注示例

图6裁判文书案件基本情况示例

图7裁判文书核心结构

图8训练模型评估示例步骤

图9主题数与模型评估结果折线图示例

图10相似度推荐应用流程图

具体实施方式

为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实例对本发明进行详细描述。

本发明旨在对裁判文书进行相似度分析。其分析结果可以应用于基于相似度的裁判文书分类、相似裁判文书推荐、基于裁判文书相似度的法官工作量评估、案件法律条文预测等场景。本方法采用tf-idf方法、lda方法,同时针对裁判文书的特性进行特殊处理和度量,其具体步骤如下:

(1)在裁判文书集中,以某种属性(如案由、案件类型等)作为筛选条件抽取目标文书子集作为目标语料;

(2)将目标语料分为训练语料和测试语料,并对测试语料进行相似度标注;

(3)对作为训练语料的文书文本进行预处理操作,包括文书分段、文书筛选、中文分词、分词前后的词语获取和过滤操作;

(4)选择目标语料的高可信部分作为输入内容;

(5)设置各类参数,包括设置停用词、lda主题模型训练参数、tf-idf输入和评估标准;

(6)使用训练语料,应用lda主题模型进行模型训练;

(7)使用测试语料评估本次训练模型(指和测试语料相似度标注的符合程度);

(8)调整参数,迭代执行步骤(6),直到针对所有要求参数完成遍历;

(9)根据不同参数下的准确度,选择合适的参数,生成裁判文书相似度分析的训练模型;

(10)应用步骤(9)生成的训练模型,做裁判文书相似度分析。

下面将结合民事一审案件裁判文书进行相似度分析的例子来进行具体解释,该应用示例旨在通过文书相似度,根据案件基本情况中的内容,以预测可能与其相关的法律条文。该功能可以帮助法官进行裁判过程,同时,帮助当事人完成自动化的法律咨询:

(1)本步骤意在获取目标文书语料,这部份文书将作为未来流程中用于训练和进行测试验证的对象。由于裁判文书采用半结构化格式,其中文书案件类型、案由信息可以帮助我们对文书进行进一步分类。同时,在不同的分类下,案件情况及相应法律条文也都有不同程度的对应。所以,为提高之后进行模型训练的准确性,降低复杂度,本方法要求对文书进行进一步分类操作,并针对不同类型内容进行分别处理。分类的维度包括案件类型、案由两种。其中就分类粒度而言,案件类型>案由。

本例中,只采用案件类型进行分类,选取案件类型为民事一审案件,共计53000篇。由于法律本身的时效性,该部分文书都选取立案年度2014年以后的文书。

(2)本步骤意在将文书分成训练集和测试集两个部分。前者用于模型训练,后者需要进行相似度标注,以表现出预期的输出结果,用于对模型结果进行测试、评估,从而通过迭代方式获得理想的可用于进行相似度分析的模型。

如前文发明内容中所述,相似度标注过程由两个维度决定,一个是标注方法,表示标注的实施方式。另一个维度是标注粒度,表示标注的细致程度。

标注方法分为两种。一种是自动化标注,需要制定和实现相应的相似度判断策略。另一种是人工标注,由法院相关专家来完成标注工作。

标注粒度分为两种,第一种是数字化标注,是指使用数字形式标注每篇文书针对目标文书中其它文书的相似度。例如,标注文书1针对文书2,文书3的相似度分别为80%、60%。第二种是非数字化标注,针对无法以数字形式进行逐篇标注的情况,可以采用类似分类,排序等标注方式。例如,倘若期望使用本方法进行相似文书推荐工作,则可以由法院相关专家将测试语料中的文书进行人工的分类,以分类情况作为标注内容。

两者的关系和优缺点如表1所示。由于数字化标注比非数字化标注更加精确,有利于获得更好的结果,所以在同等条件下应采用数字化标注。对于人工标注方式,由于进行数字化标注往往难以实现,所以更多使用非数字化标注。

表1标注方式有缺点及和标注粒度间关系

在本例中,选用50000篇文书作为训练集。3000篇文书将作为测试集。对于测试集,选用自动化、非数字化标注方式来进行标注。由于本例的目标是根据案情进行法律条文预测,所以针对测试语料中的每篇文书,选取其引用的主要法律条文作为本篇文书的标注。由于法律条文及其本身写作相对的固定性,该标注过程可以通过一定的自动化方式完成。具体的表现形式如图5所示,其中,每篇文书都和若干条法律条文相关,方括号中的数字表示相应的文书和法律条文的序号。由于法律条文本身书写有一定的随意性,在标注时,需要对法律条文进行一定的处理和对应。本例中只考虑到具体的法律条目上,并不进一步记录引用的款项,以简化计算。对应的,在步骤(7)中,方法通过输入案情后根据模型预测得到的法律条文和实际标注的法律条文进行对比,从而完成测试评估工作。

(3)本步骤旨在对训练集文书进行预处理操作。其主要目标如下:1、获取文书中和训练相关所需段落;2、剔除噪音干扰。下面具体描述其步骤内容:

(3.1)裁判文书具有半结构化特点。我国法院制定有裁判文书的段落结构规范,基于段落结构规范以及常用的各段特征词汇,可以获得裁判文书的各段段落文本,这将有利于我们之后的训练、分析工作。

(3.2)由于个别裁判文书存在没有遵循裁判文书的段落结构规范的现象,部分文书的写作过于随意,关于这些没有遵循段落结构规范的裁判文书,我们会将其从训练集中剔除,以减少干扰。

(3.4)分词往往是中文语言处理的基础,在本例中,采用jieba分词来进行具体的分词工作。

(3.3)、(3.5)在裁判文书中,会存在大量地名(如某某市、某某县)、专有名词(如原告、被告)以及低频率词汇。这些词语对与比较文书相似度不但没有太大意义,反而有可能干扰训练结果。例如,裁判文书中的“原告”、“被告”、“本院”等词汇。所以,在大部分情况下,需要对这部分词汇进行去除。由于部分词汇在分词时可能会造成额外的干扰,因此,我们选择在步骤(3.3)中先行去除掉一部分词汇,同时,部分法院高频词汇需要我们在裁判文书中进行统计从而获得,所以在步骤(3.5)中,统计高频的无特定指向的词汇作为之后停用词的词库。

在本例中,提取训练语料文书中的案件基本信息作为输入段落,该段落的主要部分可以继续拆解成原告诉称、被告辩称、查明事实段、证据段,该段描述符合法院对相关裁判文书的制作规范(具体可参考法院相关文书制作规范内容:http://www.cibsn.com/article/detailed/43618),且具有明显的分段原则,可以对其进行自动拆解。一个文书的案件基本情况及其分段示例如图6所示。

其中,若训练语料文书不存在如上段落,或无法拆解出相应段落,则剔除该篇文书。同时,在(3.3)中剔除部分裁判文书特有词汇,剔除各级地名,剔除文书中的名字及名字代称,类似王某、王某某、王某甲等。(3.5)中统计该部分文书中高频的无特殊意义的裁判文书特有词汇加入之后的停用词。

(4)对于裁判文书来说,在相似度分析的过程中,不同段落本身的重要程度是不同的。究其根本,这与裁判文书本身的结构有关。对于一篇裁判文书,其核心内容由证据、事实、法律条文、判决组成。由证据印证证据,由证据(或事实)推导事实,由事实关联法律条文,并由此得出判决结果,具体如图7所示。其中,判决是结果,法律条文是明确的条款,而证据、事实则充满不确定性。例如,有些证据经由法院确认,有些证据则不予采信;原告诉称中所描述的事实不如查明事实段中的事实可信。所以,若能获得所列事实、证据的可信程度,则可以更有效的反映不同词语不同的重要性。但实际操作中,由于文书自然语言的随意性,逐条获得证据、事实的可信程度是困难的,所以我们一般会从语料中选取高可信的部分作为之后训练的输入。

在本例中,案件基本信息段的主要部分可以分解成原告诉称、被告辩称、查明事实段、证据段。其中,查明事实段和证据段可作为高可信得部分,作为我们之后进行训练的输入。

(5)本步骤除了为lda模型设置训练参数外,还需要完成训练前的准备工作。

(5.1)设置停用词,包括(3.5)中的词汇和通用的停用词。具体内容可以根据实际要求进行调整。

(5.2)设置训练参数,以便为迭代训练时提供边界。该部分主要包括主题数范围和主题间隔数,其中主题数可参考相应类型下法律条文数进行设置。

(5.3)针对语料生成tf-idf向量。比起单独的使用词袋或词集模型作为输入,tf-idf向量的输入方式具有更强的表现力。

(5.4)设置评估标准。该步骤决定了在步骤(7)中使用测试语料计算模型精确度时的相关参数。

在本例中,常用停用词为中文常用的不含有特殊意义的词汇,包括“的”、“了”等词语。主题范围为300~900,主题间隔为50。

(6)根据设置,使用lda算法,针对处理过后的训练集进行训练。由于lda模型的收敛速度较慢,所以当训练规模较大时,训练所需资源和时间较长。

在本例中,采用gensim程序作为底层的lda算法库完成实验,从主题数为300时开始训练,之后主题数每次增加50,直到主题数增加至800为止,期间将每次结果传递到下一步骤进行训练模型的评估。

(7)使用测试语料计算本次训练模型的精确度。该部分的操作过程和步骤2中相似度标注方法相关联,根据不同的相似度标注方案会得到不同的精确度计算方案。如果采用数字化标注方式,则推荐采用准确率、召回率等指标来进行计算,例如,通过在一定数量内成功命中的预测法律条文的数量来进行评估。而如果采用非数字标注方式,则要根据实际的设计要求和显示需要来进行该部分的设计。例如,若是相似度标注方式为对任一篇文书选择相似度最高的n篇其它文书,只有排序而没有具体数值,则可以根据不同排序的重要程度,给排序的各个位置赋予不同的权重,再进行计算。

在本例中,采用的是自动化,非数字化的标注方式。具体评估方法根据其法律条文预测准确性来获得,其具体步骤如图8所示,即将模型用于进行法律条文预测,并将预测的准确性作为模型评估的结果。

(8)在该步骤中,需要迭代执行(6)、(7)步。在设定的参数迭代范围和参数迭代规则中,重复执行(6)、(7)步。并记录不同参数下获得的模型在评估中所表现出的精确度。直观来说,该步骤将为我们绘制出一副横轴为迭代参数,纵轴为训练模型精确度的折线图,我们可以根据该折线图进行之后的决策。

在本例中,我们以lda模型的主题数为迭代参数,主题从300增加至800,会产生11个不同的训练模型,其主题数与模型评估结果折线图示例如图9所示,评估结果具有局部的最大值。

(9)根据之前获得的关于主题数与模型评估结果的折线图,决策出需要选择什么样的主题数来进行模型训练。

在本例中,当主题数为450左右时,训练模型的准确性最高。

然而,本例中的结果是多次实验后的一次性展示。事实上,实际操作中,可能很难一次性地确定什么样的主题数合适,而即使统计曲线呈现类似下图的存在明显峰值的情况,也无法肯定相应值是全局最优而不是局部最优。所以,在本步骤中,如果条件允许,请尽可能提高迭代次数,同时,和预期精确度要求一起共同决定如何进行主题数的选择工作。之后可以根据确定的合适参数来进行训练,而此时训练后的结果将作为未来进行应用的底层模型。

(10)在之前的步骤中,我们获得了可以用来进行相似度分析的基础模型。然而,在实际应用中,我们还需要对其增加应用层才可以提高结果的可见性。如前文所述,该模型可以支持裁判文书相似度分类,相似裁判文书推荐,基于裁判文书相似度的工作量评估,基于案情的法律条文预测等应用。

在本例中,在底层模型的基础上实现了基于案情的法律条文预测应用。其效果为,当输入一个民事一审案件的案件基本情况或其中的查明事实段、证据段时,系统可以根据模型预测出针对于案情可能相关的法律条文。其实现流程如图10所示,即应用本方法获得的相似度模型,先根据案情输入寻找相似文书,再根据相似文书引用的法律条文统计得到预测的法律条文情况。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1