一种基于犯罪行为链的相似案件计算方法与流程

文档序号:22627743发布日期:2020-10-23 19:36阅读:180来源:国知局
一种基于犯罪行为链的相似案件计算方法与流程

本发明涉及一种案件计算方法,尤其涉及一种基于犯罪行为链的相似案件计算方法,属于自然语言处理和机器学习技术领域。



背景技术:

当前,法院在长期的司法实践中积累了大量的司法裁判文书,司法裁判文书具有专业性强、专业术语多、逻辑关系严谨、时序关系明显等典型特征,裁判文书中蕴含着巨大的价值。经过对裁判文书分析我们发现案情描述部分对案件审判结果、类案推送结果、适用法条结果等有着显著关系,然而案情特征的顺序容易被忽略,尤其涉及到相同特征的案件。因此,案情特征描述的先后顺序有着重要的影响。通过抽取案件中的各种要素,建立与之相对应的犯罪行为链,为分析和挖掘司法数据中的犯罪信息,直观展示案情部分。

随着我国经济社会快速发展,人民群众的法律意识、维权意识不断增强,各种矛盾纠纷大量增多,各类案件数量呈递增趋势。据相关统计数据显示,2018年人民法院受理案件2800万件,审结、执结2516.8万件,同比上年分别上升8.8%、10.6%。案多人少的问题真切呈现在司法工作者面前,单凭个人在审判工作中积累的经验来处理案件,难以满足工作要求。通过借助相关的相似案件检索工具,可以快速找到待决案件的裁判方法,提升工作效率。但在实际应用过程中,传统检索主要分为人工贴标签和关键字检索两类。通过技术人员建立数据库对相关案例进行人工“贴标签”,将每个具体的司法案例结构化为数十个法律标签。通过提取关键字进行案件检索,但是这些案例并未做到同案,有时连类案的标准也未达到,突显出检索案例不准确,无法解决司法工作者实际需要的问题。

针对上述存在的问题和对问题的分析,客观上需要应用有效的数据处理和分析方法来提升准确性。通过观察犯罪行为链的结构特征,找出犯罪行为链的相似度计算方法,实现基于句子结构的相似度计算,融合文本信息内容实现相似案件计算方法,有效支撑辅助审判工作中类案推送。

从实际情况看,在司法数据领域进行司法人工智能研究,对于推动司法体系转型、实现智慧法院具有重要意义。将案情描述部分和犯罪行为序列进行辅助办案方面,luo等人在2017年采用基于注意机制的文本分类算法,实现了基于案情描述的罪名预测,但此模型只使用了案情描述,没有考虑犯罪行为这类信息。陈文哲等在2019年通过利用案情的事实描述和犯罪行为序列来预测案件涉及的相关法条,验证基于犯罪行为序列的法律条文预测的有效性。作为辅助办案的重要组成部分,如何实现相似案件计算的准确性是一大问题。



技术实现要素:

本发明要解决的技术问题是:提供一种基于犯罪行为链的相似案件计算方法,本发明面向司法裁判文书,从案情描述部分出发,研究基于犯罪行为链的相似案件计算方法,从文本结构信息和文本内容信息多个角度,解决了基于犯罪行为链的相似案件计算的问题,有效的解决了上述存在的问题。

本发明的技术方案为:一种基于犯罪行为链的相似案件计算方法,所述方法包含有如下步骤:步骤一:从裁判文书的案情描述部分抽取相关信息,采用bert+crf作为序列标注的模型,并进行关键信息抽取,最终构建出犯罪行为链;步骤二:基于犯罪行为链的结构特征,采用图神经网络模型作为基础计算模型,实现犯罪行为链的相似度计算;步骤三:将图神经网络模型得到的结果与文本内容信息结合,实现基于犯罪行为链的相似度计算方法找到相似案件。

所述步骤一中,根据犯罪行为链的组成元素(犯罪行为、犯罪要素和犯罪关系)提取关键词,犯罪行为(用集合m={m1,m2,...,mn}表示)、犯罪关系、犯罪要素(c={c1,c2,...,cn}表示),依据犯罪行为链的核心是以行为词来建立对应关键词间的关联关系,最终采用bert+crf完成文本序列标注,再构建犯罪行为链,行为链看作为关键词信息整合到一起的图结构或树结构。

所述步骤二中,整个犯罪行为链构建顺序依据犯罪行为之间的时序关系,其中犯罪行为是核心,整个行为链可看作图结构或树结构,提出基于犯罪行为链的相似度计算方法,采用图神经网络模型作为计算的基础模型,从而得到相似的行为链,并根据行为链的信息对应出相应的案件。

所述步骤三中,根据犯罪行为链的相似度计算结果与案情描述的文本信息相似结果进行结合,最终得到相似案件。

本发明的有益效果是:与现有技术相比,采用本发明的技术方案,重点分析裁判文书的案情描述部分,通过使用案情描述部分,抽取相关要素信息,构建以“犯罪行为”为中心的犯罪行为链,直观展示对案情信息的有效描述,理清案情的发展势态,使整个案情的轮廓清晰。

由于裁判文书数据具有文本结构规则性较强、专业术语多、关键词专业性强、主题词较为明确、逻辑关系严谨、人员间关联程度高、犯罪行为词时序关系明显等特点,通过抽取句子结构和深入分析文本信息,应用有效的数据处理和分析方法提高相似案件计算的准确性,汇集司法领域有关数据,辅助司法人员制定相关决策,提高工作质量和效率,推动法院的智能化应用,提升司法辅助工作的智能化水平,促进司法为民、司法公正、司法公平。

附图说明

图1为本发明所述模型图;

图2为本发明的行为链构建模型图;

图3为本发明的词性预测流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。

实施例1:如附图1~3所示,一种基于犯罪行为链的相似案件计算方法,所述方法包含有如下步骤:步骤一:从裁判文书的案情描述部分抽取相关信息,采用bert+crf作为序列标注的模型,并进行关键信息抽取,最终构建出犯罪行为链;步骤二:基于犯罪行为链的结构特征,采用图神经网络模型作为基础计算模型,实现犯罪行为链的相似度计算;步骤三:将图神经网络模型得到的结果与文本内容信息结合,实现基于犯罪行为链的相似度计算方法找到相似案件。其结果可以用来支持辅助审判应用中的类案推送。

步骤一中,根据犯罪行为链的组成元素(犯罪行为、犯罪要素和犯罪关系)提取关键词,犯罪行为(用集合m={m1,m2,...,mn}表示)、犯罪关系、犯罪要素(c={c1,c2,...,cn}表示),依据犯罪行为链的核心是以行为词来建立对应关键词间的关联关系,最终采用bert+crf完成文本序列标注,再构建犯罪行为链,行为链看作为关键词信息整合到一起的图结构或树结构。

本步骤主要采用行为链的概念和构建规则来构建犯罪行为链。犯罪行为链由犯罪行为、犯罪要素及犯罪关系组成。犯罪行为表示与犯罪过程相关联的行为,是整个犯罪行为链的关键部分。bert是一种能够生成句子中词向量表示以及句子向量表示的深度学习模型,对预训练后的bert模型进行finetune,再与crf结合可以很好的解决序列标注问题。本文将使用bert+crf进行词性标注以及行为链相关要素抽取。

步骤一中,本步骤基于已提出的犯罪行为链的构建方法中的构建元素,采用不同的模型进行构建。在步骤一中,首先从裁判文书中抽取出案情描述部分,并进行数据预处理,根据犯罪行为链的构成元素进行犯罪行为的识别,犯罪行为表示与犯罪过程相关联的行为,例如砍杀、投毒、逃窜、击打等。犯罪行为和一般的行为区别在于是否关联到具体的犯罪主体;其次进行犯罪要素的识别,犯罪要素是指与犯罪行为相关的其它要素,如犯罪主体、犯罪客体、犯罪工具等;然后进行犯罪关系的识别,犯罪关系包含犯罪行为之间的时序关系或者犯罪行为与犯罪要素之间的关系。最后综合犯罪行为链的各个要素进行犯罪行为链的构建,犯罪行为链是以犯罪行为为中心的结构,将三个识别结果进行整合,得到案情描述所对应的一条完整的犯罪行为链。

下面结合附图2和实施例对本发明做进一步描述。

第ⅰ步,对模型预训练。在本发明中利用预训练模型进行犯罪行为链相关词语的识别和抽取。数据集采用裁判文书中案情描述的标注数据集。由于采用了bert作为基础模型,为满足bert模型的要求,在进行模型训练时对数据进行数据预处理。即将原文本拆分成一系列汉字,并对每个汉字进行词性标注,词性为犯罪行为链需要的各要素。

第ⅱ步,将文本进行词性预测。将需要识别的文本进行拆分后输入到预训练模型中,模型输出每个词对应的预测词性。结合案情描述中的一个例句“何某某用枕头捂住张某某口鼻”和附图3进一步描述文本词性预测流程,采用bert+crf完成词性预测,由于bert模型需要,首先对数据进行预处理,即将句子拆分成单个汉字,然后将“何某某用枕头捂住张某某口鼻”单字输入到模型中进行预测,模型的输出为每个单字对应的预测词性,即“何b-sub某i-sub某i-sub用b-adv枕i-adv头i-adv捂b-pre住i-pre张b-rai某i-rai口i-rai鼻i-rai”。由于使用的单词分词的“bio”体系,其中“b”表示该汉字是词汇的开始字符或单个字;“i”表示该汉字是词汇的中间字符;“o”表示该汉字不在词汇当中。后面为设定的标签,其中“sub”表示主语;“adv”为行为描述;“pre”表示行为词;“rai”表示结果;“tem”表示时间;“loc”表示地点。由于模型输出结果不好查看,使用数据后处理将单词词语合到一起。最终得到词性预测结果“何某某sub用枕头adv捂住pre张某口鼻rai”。

在词性预测方面,采用bert模型作为基础模型,bert通过预训练和精调可以横扫11项nlp任务。在序列标注任务方面,bert+crf相较于其他模型训练速度更快,准确率更高,可以高质量完成中文文本的序列标注任务,从例子中可以看到模型在完成词性标注的同时也完成了分词任务,表明该模型可以完成多任务。

第ⅲ步,对于犯罪行为、犯罪关系、犯罪要素识别。由于犯罪行为链主要由犯罪行为、犯罪要素和犯罪关系构成。其中犯罪行为识别主要是从案情描述的完整句子中识别与犯罪主体相关的犯罪行为。犯罪要素是指与犯罪行为相关的其它要素,如犯罪主体,犯罪客体、犯罪工具、犯罪时间、犯罪地点等。犯罪关系包含:犯罪行为之间的时序关系或者犯罪行为与犯罪要素之间的关系。本发明中,将词性标注后的数据输入到神经网络模型中,根据词性预测标签分别识别出犯罪行为(用集合m={m1,m2,...,mn}表示)、犯罪关系、犯罪要素(c={c1,c2,...,cn}表示)。

第ⅳ步,犯罪行为链的构建,以犯罪行为词为中心,将其他要素按照犯罪关系融入到犯罪行为链。可将所有信息整合后的犯罪行为链看作图结构或者树结构,我们用g={v,r|v=c∪m,vi∈v,vj∈v,r=(vi,vj)}表示,其中,v表示图g的顶点集合,r表示顶点之间边的集合)。

步骤二中,整个犯罪行为链构建顺序依据犯罪行为之间的时序关系,其中犯罪行为是核心,整个行为链可看作图结构或树结构,提出基于犯罪行为链的相似度计算方法,采用图神经网络模型作为计算的基础模型,从而得到相似的行为链,并根据行为链的信息对应出相应的案件。本步骤预期结果是获得与之对应的较高相似性的行为链,并对应到具体案件。

步骤三中,根据犯罪行为链的相似度计算结果与案情描述的文本信息相似结果进行结合,最终得到相似案件。

将步骤三的结果与文本内容之间相似度结果进行结合,最后通过激活函数得到相似案件计算结果。相似案件计算围绕案情描述部分展开,通过综合句子结构信息与文本内容信息进行综合判断。本发明拟采用神经网络技术进行文本句子结构和句子内容的相似度计算,实现相似案件的计算,为辅助审判的类案提供技术支撑,其模型框架如附图1所示。

本发明针对现有关于相似案件查找在实际应用中不足的问题,提出基于犯罪行为链的相似案件计算方法,从句子结构和文本内容出发,多角度计算。在发明的技术方案中,采用bert作为构建行为链和计算相似度的基础模型,使用句子和短文本级别的文本任务,将行为链和文本内容的相似度计算模型进行融合,最后通过激活函数得到最终的相似案件结果。

在具体实践中,有效支撑辅助审判工作的类案推送。根据裁判文书的典型特征,采用bert+crf对文本信息进行序列标注并抽取关键要素进行犯罪行为链构建,提出基于犯罪行为链的相似案件计算方法进行案件分析。

本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1