基于深度学习的刑事案件预判系统及其构建和预判方法与流程

文档序号:16628806发布日期:2019-01-16 06:22阅读:983来源:国知局
基于深度学习的刑事案件预判系统及其构建和预判方法与流程

本发明涉及机器学习技术领域,特别涉及一种基于深度学习的刑事案件预判系统及其构建和预判方法。



背景技术:

近年来,随着机器学习技术特别是深度学习的日趋成熟,很多领域,比如图像识别、语音识别、垃圾邮件过滤、机器翻译、广告推荐、智能家电等等,都利用人工智能技术得到了迅猛的发展。而在法律方面,与人工智能的结合较少,法务工作大多还是以人力为主。

法律属于专业性很强的领域,非专业人士往往不能通过查询资料而获得期望的法律知识,而依靠专业的法律咨询既费时间又费钱财。另一方面,对于法律工作者本身而言,拥有的法律知识以及案例知识是有限的,有某些特殊情况下也需要借助其它渠道获取帮助。

法律文本具备有以下特征:海量性、规范性、系统性、严谨性,第一个特点为深度学习提供了大量的样本输入基础,后三个特点则保证了深度学习可以学习到结构化特征。引入深度学习,使得机器本身具备判案模型,这是个很有前景的研究方向。

现今所存在的一些计算机技术辅助法律的系统,大多是基于结构化法律知识以及案例数据库,通过简单的匹配查询而提供法律咨询,这种方法不具备灵活性而且工作量大。



技术实现要素:

本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于深度学习的刑事案件预判系统,使非专业人员能够便捷地得到法律咨询。

本发明的另一目的在于提供一种基于上述系统的构建和预判方法。

本发明的目的通过以下的技术方案实现:

一种基于深度学习的刑事案件预判系统,包括:

输入单元,用于输入目标案件的起诉书和/或案情,并将文字按照向量模型转换为目标词向量;

学习单元,用于对所述目标词向量按照训练模型进行学习得到学习结果;

运算单元,用于对所述学习结果进行运算得到预判结果;

显示单元,用于显示所述预判结果。

优选的,所述基于深度学习的刑事案件预判系统还包括识别单元,所述识别单元用于识别图像格式的起诉书和/或案情中的文字。

优选的,所述输入单元用于依次通过对法律文献库和判决书文献库进行深度学习构建向量模型并获得关键词向量。

优选的,所述学习单元用于通过对所述关键词向量进行训练构建训练模型。

优选的,基于深度学习的刑事案件预判系统还包括存储单元,所述存储单元用于存储所述关键词向量和案例文献;所述运算单元还用于基于预判结果匹配存储单元的相关案例。

一种应用于上述任意一项所述刑事案件预判系统的构建方法,包括以下步骤:利用词向量模型训练法律文献获得词向量;导入判决书文献,根据训练得到的词向量将判决书文献转化为向量形式,并做去停用词处理,得到关键词向量;将所述关键词向量按照预定规则进行分类,并将分类的关键词向量通过多种学习器进行学习训练得到多类学习结果;依据投票法则,对第一类学习结果进行投票训练,构建第一类预判结果模型;依据平均法则,将第二类学习结果进行求取平均值训练,构建第二类预判结果模型;

所述预定规则包括将包含罪名和法条的关键词向量分为第一类,将包含量刑和罚金的关键词向量分为第二类;第一类预判结果包括罪名和法条的预判结果;第二类预判结果包括量刑和罚金的预判结果。

优选的,所述依据平均法则,将第二类学习结果进行求取平均值训练,构建第二类预判结果模型之前包括:利用正则表达式提取包含量刑和罚金的第二类学习结果的数值,并进行归一化处理。

优选的,所述利用词向量模型训练法律文献库获得词向量,包括:利用word2ves、glove、ppmi和svd中的至少一种词向量模型进行训练。

一种基于深度学习的刑事案件预判方法,包括以下步骤:接收并识别目标案件的起诉书和/或案情,提取目标关键词,并将其转换为目标向量;将所述目标向量分别通过训练过的多种学习器进行学习得到多个学习结果;将多个学习结果中的第一类学习结果进行投票运算,获得第一类预判结果;将多个学习结果中的第二类学习结果进行平均运算,获得第二类预判结果。

优选的,所述将所述目标词向量分别通过训练过的多种学习器进行学习得到多个学习结果,包括步骤:将所述目标词向量分别通过训练过的卷积神经网络、循环神经网络、长短期记忆模型、循环卷积神经网络、fasttext、文本卷积神经网络、文本循环神经网络中的至少三种学习器进行学习得到多个学习结果。

优选的,在所述将多个学习结果中的第二类学习结果进行平均运算,获得第二类预判结果之后,还包括步骤:依据所述第一类和第二类预判结果在案例数据库搜索匹配案例,将匹配结果进行相关性排序。

具体的,所述依据所述第一类和第二类预判结果在案例数据库搜索匹配案例,将匹配结果进行相关性排序,包括步骤:筛选出与第一类预判结果中罪名相同的案例进行下一步匹配;筛选出与第一类预判结果中法条相同的案例进行相关性排序;将第二类预判结果中的量刑和罚金作为参考值,将匹配案件进行相关性排序。

优选的,在所述将多个学习结果中的第二类学习结果进行平均运算,获得第二类预判结果之后,还包括步骤:检索起诉书和/或案情中是否存在预设的改过行为,若未查询到相关行为,显示与所述第一类学习结果匹配的改过行为作为建议。

优选的,所述接收并识别目标案件的起诉书和/或案情,提取目标关键词,并将其转换为目标词向量的步骤,包括:若提取的目标关键词未达到预设种类或数量,提示输入有误并请求重新输入;若所述起诉书和/或案情为图像格式,先将其经过ocr技术提取图像中的文字,再提取目标关键词。

一种计算机可读存储介质,其上存储有计算机程序,该计算机程序执行时实现上述任意一项所述刑事案件预判方法。

本发明与现有技术相比,具有如下优点和有益效果:

本发明系统的核心是一个深度学习的模型,基于海量的起诉书以及相应的判决结果作为训练数据,经过深度学习,利用循环神经网络,卷积神经网络及其变种等多种算法模型融合而得到最优测试结果下的模型参数,以此作为最终的系统模型基础。本发明能够对任何格式符合标准的刑事案件起诉书作出判决结果,包括罪名、相关法条、罚金、量刑,为不熟悉法律的当事人提供帮助,也能给律师,法官等法律工作者提供参考信息。

通过本发明可以解决如下问题:1.非专业人员不能便捷地得到法律咨询;2.专业法律人员知识量不足或者案例经验不足;3.构建法律系统知识需要花费大量的人力。

附图说明

图1是预判系统示意图。

图2是预判系统应用示意图。

图3是预判系统构建流程示意图。

图4是预判系统构建原理图。

图5是刑事案件预判方法流程示意图。

图6是刑事案件预判方法中第一类和第二类预判结果在案例数据库搜索匹配案例,将匹配结果进行相关性排序过程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例1

参照图1,一种基于深度学习的刑事案件预判系统,包括:

输入单元,用于输入目标案件的起诉书和/或案情,并将文字按照向量模型转换为目标词向量;输入单元依次通过对法律文献库和判决书文献库进行深度学习构建向量模型并获得关键词向量。

学习单元,用于对所述目标词向量按照训练模型进行学习得到学习结果;学习单元通过对所述关键词向量进行训练构建训练模型。

运算单元,用于对所述学习结果进行运算得到预判结果。

显示单元,用于显示所述预判结果。

所述系统还可以包括识别单元,所述识别单元用于识别图像格式的起诉书和/或案情中的文字。具体使用过程中,参照图2,用户根据自身情况按照最便捷的方式将起诉书输入系统,输入格式包括:文字输入模式、照片输入模式、pdf输入模式。若是文字输入模式,系统将直接进入判决模式;若是照片或者pdf输入模式,信息将经过ocr(opticalcharacterrecognition,光学字符识别)技术处理后再进入判决系统。用户可以选择以图片形式上传或者手动输入文字的形式将起诉书传送给预判系统。系统会根据不同的形式采取不同的操作,如果是图片形式,会通过ocr技术将文字识别出来以后再传入算法系统,如果是文字形式则直接传入算法系统。如果传入的文本有误,如文本中有大量错误,不是起诉书文本,文本格式不规范等等,系统将会提取不到足够的特征,那么会直接提示输入有误。若提取的目标关键词未达到预设种类或数量,提示输入有误并请求重新输入。

除了起诉书内容,用户还可以添加其它额外信息,比如是否自首,是否退赔等等。

所述系统还包括存储单元,所述存储单元用于存储所述关键词向量和案例文献;所述运算单元还用于基于预判结果匹配存储单元的相关案例。

系统的一种呈现形式是基于深度学习的法律问答用户界面(app,小程序,电脑端等等),用户输入起诉书后即得到相应的预测结果。

实施例2

系统构建过程

参照图3,系统的核心是一种深度学习模型,其构建包括以下步骤:

s1、利用词向量模型训练法律文献获得词向量;

s2、导入判决书文献,根据训练得到的词向量将判决书文献转化为向量形式,并做去停用词处理,得到关键词向量;

s3、将所述关键词向量按照预定规则进行分类,并将分类的关键词向量通过多种学习器进行学习训练得到多类学习结果;

所述预定规则包括将包含罪名和法条的关键词向量分为第一类,将包含量刑和罚金的关键词向量分为第二类;第一类预判结果包括罪名和法条的预判结果;第二类预判结果包括量刑和罚金的预判结果。

s4、依据投票法则,对第一类学习结果进行投票训练,构建第一类预判结果模型;

s5、利用正则表达式提取包含量刑和罚金的第二类学习结果的数值,并进行归一化处理;依据平均法则,将第二类学习结果进行求取平均值训练,构建第二类预判结果模型。

具体的,参照图4,所述利用词向量模型训练法律文献库获得词向量,包括:用至少一种词向量模型训练海量的法律相关文献库(包括法条,起诉书,判决书等等法律相关文献)得到词向量以及字向量,词向量模型包括但不限于word2ves、glove、ppmi和svd词向量模型。

根据训练得到的向量模型将训练数据(判决书文献)转化为向量的形式并去掉一些停用词,停用词表可以由法务人员手工整理。

在训练过程中,分别用cnn(卷积神经网络),rnn(循环神经网络),lstm(长短期记忆模型),rcnn(循环卷积神经网络),fasttext,textcnn(文本卷积神经网络),textrnn(文本循环神经网络)等一系列模型训练数据,这些模型实质上是由一些基本操作的不同组合而成,基本操作包括:卷积层,相邻的n-gram(n元模型)的提取(n一般取到3),即提取一些词语组合的特征;池化层,即进行下采样;在中间层加入额外特征,比如加入上下文信息,全文信息,某些特定关键词信息;drop-out层,抛弃一部分数据防止过拟合;batchnormalization(批规范化)层,将数据进行标准化,加快收敛速度;激活函数层,将数据变换到以一定形式转换到特定区间。

由于各个模型对不同的特征敏感,所以模型融合而得到的结果准确率高于单一模型,最终的系统利用集成技术由多种模型整合而成,即集成学习。本发明主要运用集成学习中的bagging方法,对数据集进行抽样,用不同的方法训练得到多个弱学习器,最后结合弱学习器成为一个强学习器,结合策略采用的是投票法和平均法。对于罪名、法条的预测属于分类问题,根据各个学习器的结果,通过投票法则选取票数最多的预测类别,对于量刑、罚金的预测属于回归问题,将各个学习器的结果进行平均即得到最终的预测结果。

实施例3

案件预判过程

参照图5,基于深度学习的刑事案件预判方法,包括以下步骤:

s1、接收并识别目标案件的起诉书和/或案情,提取目标关键词,并将其转换为目标向量;

s2、将所述目标向量分别通过训练过的多种学习器进行学习得到多个学习结果:

将所述目标词向量分别通过训练过的卷积神经网络、循环神经网络、长短期记忆模型、循环卷积神经网络、fasttext、文本卷积神经网络、文本循环神经网络中的至少三种学习器进行学习得到多个学习结果。

s3、将多个学习结果中的第一类学习结果进行投票运算,获得第一类预判结果;

s4、将多个学习结果中的第二类学习结果进行平均运算,获得第二类预判结果。

经过系统计算后,界面会显示预测结果,包含罪名,法条,量刑以及罚金。

进一步的,在获得第二类预判结果之后,还可以执行以下步骤:依据所述第一类和第二类预判结果在案例数据库搜索匹配案例,将匹配结果进行相关性排序。参照图6,具体的包括步骤:筛选出与第一类预判结果中罪名相同的案例进行下一步匹配;筛选出与第一类预判结果中法条相同的案例进行相关性排序;将第二类预判结果中的量刑和罚金作为参考值,将匹配案件进行相关性排序。

具体的,系统会推荐相似的案例方便用户进一步地对比犯罪事实以及判决结果。预测结果由深度学习算法而得到,对于相似推荐,系统会根据四项预测结果和数据库里的判决结果相比照,首先选取相同罪名的案例,再在其中选取相同法条的案例,一般情况下这两个都会有相同的案例,之后,对于量刑以及罚金,数据库里不一定存在完全相同的案例,如果有则选取相同的案例,如果没有就取量刑差别以及罚金差别最小的几个案例。

进一步的,在获得第二类预判结果之后,还可以执行以下步骤:检索起诉书和/或案情中是否存在预设的改过行为,若未查询到相关行为,显示与所述第一类学习结果匹配的改过行为作为建议。

系统会根据案情给用户提供一些建议,比如‘建议如实供述’,‘建议及早赔偿受害人’等等。根据法律的量刑规则,系统中存储了针对于所有罪名可以减轻刑罚的并且在起诉之后仍可以补救的一些行为,比如‘退赔退赃’,‘如实供述’,‘协助破案’,‘争取受害人谅解’等等。系统首先会分析起诉书中是否具有这些行为,如果没有,则会显示这些行为作为建议。

按键预判过程中,对于罪名、法条的预测和对于罚金、量刑的预测采用了不同的输入数据:对于前两者,输入数据为去除停用词表后的词向量;对于后两者,输入数据包括:罪名及法条的预测结果涉案金额,受害者人数,一些重要物品量(如毒品克数,枪支数)等一系列涉及量的重要变量,这部分变量利用正则表达式提取,将数据归一化。

一种计算机可读存储介质,其上存储有计算机程序,该计算机程序执行时实现上述任意一项所述刑事案件预判方法。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1