基于大数据的案件自动分类、优化方法及训练集修正方法与流程

文档序号:25054814发布日期:2021-05-14 13:47阅读:144来源:国知局

1.本发明涉及案件分类和自然语言处理研究领域,具体涉及基于大数据的案件自动分类、优化方法及训练集修正方法。


背景技术:

2.目前的法律案件分类仍然是传统的人工处理、人工解决问题,然而由于中国人口基数大,社会问题复杂,使得案件总量多、涉及到的领域繁杂,工作人员需要通过人工理解案件申请人的申诉事实、理由和目的,并正确的做出分类,耗时耗力。工作人员需要根据案件文本人工决定案件大致分类,缺乏智能化的案件自动处理工具。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:目前缺乏对法律案件的自动分类方法,在训练样本不足时,现有的文本分类模型难以准确分类,历史案件中存在标签不准确的问题,缺乏案件的自动分类的策略。


技术实现要素:

3.为了克服现有技术的不足,本公开实施例提供了一种基于大数据的案件自动分类、优化方法及训练集修正方法,通过融合多个文本分类模型对法律案件进行分类,提高了案件分类的准确率,提高案件分类工作效率,节约了大量的人力物力。技术方案如下:第一方面,提供了一种基于大数据的法律案件自动分类方法,该方法包括如下步骤:融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类。
4.获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集。
5.选取logistic、svm、rnn、lstm四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型。
6.对于第一层基础模型中的每个文本分类模型m,将训练集样本平均分为k部分,分别记作train(1),train(2),

,train(k),取出第i部分训练集train(i),i=1,2,

,k,采用剩余k

1部分的训练集来训练文本分类模型m(i),即依次得到m(1),m(2),

,m(k),利用训练好后的模型m(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签py
train(i)
,train(i)每个样本自身的真实标签记作y
train(i)
,这样当i遍历1~k每个值时,可得到每个样本的预测标签py
train(1)
,py
train(2)


,py
train(k)
,其对应的样本真实标签为y
train(1)
,y
train(2)


,y
train(k)
,将py
train(1)
,py
train(2)


,py
train(k)
依次拼接作为线性回归模型的输入,y
train(1)
,y
train(2)


,y
train(k)
依次拼接为输出,训练得到相应的第二层线性回归模型l(m),利用训练得到的k个文本分类模型m(1),m(2),

,m(k)分别对验证集validation进行预测,并将k个结果取均值后得到验证集validation的预测值py
validation
,再利用训练好的第二层线性回归模型l(m)以py
validation
作为输入进行预测,并与验证集的真实标签y
validation
进行比较,利用交叉熵损失函数计算公式计算得到损失函数loss(m);当m分别取第一层基础模型中的logistic分类模型,记作clf1、svm分类模型,记作clf2、rnn文本分类模型,记作clf3、lstm文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数loss(clf1),loss(clf2),loss(clf3),loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:。
7.分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即针对一个新的案件,通过综合分类模型可预测得到案件的类别z1及其概率p(z1)。
8.优选的,该方法还包括,利用关键词进行分类;将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语;对于每个类别c,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别c的相关性:r(a,c)=(类别c案件中词语a出现的平均次数+1)/(类别c以外的案件中词语a出现的平均次数+1);将关键词进行广义扩充,广义词语是指包含了2~n个关键词的集合,n为案件文本关键词的个数,对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中的每个词语,则同样可以计算b与类别c的相关性:r(b,c)=(类别c案件中词语b出现的次数+1)/(类别c以外的案件中词语b出现的次数+1);对于每个词语与类别的相关性进行标准化变换,记作关联系数:x是狭义或广义词语。
9.进一步的,当关键词与类别的汉语文字相同时,即包含了该关键词的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。
10.进一步的,对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列,去除类别中出现词语次数<阈值的词语,去除噪音。
11.对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别z2,每个类别的概率p(z2)由关联系数经过softmax计算得到。
12.结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测:对于一个新的案件, 通过这两种算法可以分别得到两个预测类别z1,z2以及预测概率p(z1),p(z2);当z1=z2时:直接预测新的案件最终类别为z1;当z1,z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
13.优选的,该方法还包括,根据相似历史案例进行分类:从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的
文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本t。
14.对于一个新的案件,首先去除案件文本的标点符号得到文本字符串y,并依次计算y与每个历史案件文本t的相似性,文本相似性为:s(y,t)=(y与t相同的狭义或广义词语的个数)/(y的文本长度+t的文本长度)。
15.其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为案件的关键词的个数,文本长度是指文本中中文字符的个数。
16.通过计算y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别z3,其对应的预测概率p(z3)为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值。
17.结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测:对于一个新的案件,通过这两种算法可以分别得到两个预测类别z1,z3以及预测概率p(z1),p(z3)。
18.当z1=z3时:直接预测新的案件最终类别为z1;当z1,z3不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
19.优选的, 该方法还可以结合综合分类模型进行分类和利用关键词进行分类和根据相似历史案例进行分类的3种分类结果进行最终预测:对于一个新的案件, 通过这三种算法可以分别得到三个预测类别z1,z2,z3以及预测概率p(z1),p(z2),p(z3);当z1=z2=z3时:直接预测新的案件最终类别为z1;当z1,z2,z3中存在两个相同:若其中一个对应的预测准确率大于阈值时,则取这两个相同的类别作为最终类别,例如z1=z2且与z3不同,而max(p(z1), p(z2))大于阈值,则最终类别为z1;若这两个相同预测类别对应的预测准确率都小于阈值,而剩余的一个预测类别所对应的准确率超过阈值,则取剩余的预测类别作为最终类别,例如z1=z2且与z3不同,而max(p(z1), p(z2))小于阈值,p(z3)大于阈值,则最终类别为z3;其他情况最终预测类别均取值为两个相同的类别。
20.当z1,z2,z3三个完全不相同,则取预测概率最大的所对应的预测类别作为最终类别。
21.与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过融合多个模型、进行多次训练验证的过程,并对不同模型赋予不同投票权重,使得分类模型更加准确,并且在训练样本较少时同样适用;通过融合多个文本分类模型对法律案件进行分类,帮助工作人员分类管理,提高了案件分类的准确率,提高了工作效率,节约了大量人力物力。
22.另外通过融合模型、关键词算法和/或历史案例匹配、标签修正等方法,使得在历史样本不足以及样本分类不够准确的情况下同样适用。通过扩展广义词语,使得案件文本的相似度更加准确;通过标签的检验,解决出现训练样本和测试样本等历史案件的标签不准确问题。
具体实施方式
23.为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。
24.上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。第一方面:本公开实施例提供了一种基于大数据的法律案件自动分类方法,该方法包括如下步骤:融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类。
25.获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集。
26.选取logistic、svm、rnn、lstm四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型;对于第一层基础模型中的每个文本分类模型m,将训练集样本平均分为k部分,分别记作train(1),train(2),

,train(k) 。单独取出第i部分训练集train(i),i=1,2,

,k,利用剩余k

1部分的训练集来训练文本分类模型m(i),利用训练好后的模型m(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签py
train(i)
, train(i)每个样本自身的真实标签记作y
train(i)
。这样当i遍历1~k每个值时,可得到每个样本的预测标签py
train(1)
,py
train(2)


,py
train(k)
,其对应的样本真实标签为y
train(1)
,y
train(2)


,y
train(k)
,将py
train(1)
,py
train(2)


,py
train(k)
依次拼接作为线性回归模型的输入,y
train(1)
,y
train(2)


,y
train(k)
依次拼接为输出,训练得到相应的第二层线性回归模型l(m)。利用在i遍历1~k时分别训练得到的k个文本分类模型m(1),m(2),

,m(k)分别对验证集validation进行预测,并将k个结果取均值后得到验证集validation的预测值py
validation
,再利用训练好的第二层线性回归模型l(m)以py
validation
作为输入进行预测,并与验证集的真实标签y
validation
进行比较,利用交叉熵损失函数计算公式计算得到损失函数loss(m)。
27.当m分别取第一层基础模型中的logistic分类模型记作clf1、svm分类模型,记作clf2、rnn文本分类模型,记作clf3、lstm文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数loss(clf1),loss(clf2),loss(clf3),loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:。
28.分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即通过综合分类模型可预测得到案件的类别z1及其概率p(z1);由于第二层是多分类的线性回归模型,所以可以得到每个类别的概率。
29.通过单一的分类方法进行最终分类结果的确认往往存在一定的局限性,综合考虑了根据关键词进行分类和/或根据相似历史案例进行分类的结果进行综合确定最终的分类结果,大大提高了分类的准确率。
30.方法还包括,利用关键词进行分类;
将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语。对于每个类别c,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别c的相关性:r(a,c)=(类别c案件中词语a出现的平均次数+1)/(类别c以外的案件中词语a出现的平均次数+1)。
31.分子分母同时加上常数1是为了避免出现分母为0的特殊情况。从表达式可以看出r(a,c)越大,则词语a在类别c中经常出现,而其他类别中很少出现,所以当一个新的案件中包含词语a时,则很大可能是属于类别c。
32.但在中文中,有时候单一词语难以完全刻画真实意图,当多个词语共同出现时才能确定类别。所以将词语进行广义扩充,不单单是指单一一个词语,广义词语是指包含了2~n个关键词的集合,n为关键词的个数。对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中每个词语,则同样可以计算b与类别c的相关性:r(b,c)=(类别c案件中词语b出现的次数+1)/(类别c以外的案件中词语b出现的次数+1)。
33.为了保证不同词语相互比较的尺度相同,对于每个词语与类别的相关性进行标准化变换,记作关联系数:x是狭义或广义词语。
34.特别的,当词语与类别相同时,表明包含了该词语的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。
35.对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列。进一步的,还可以去除类别中出现词语次数<阈值的词语,可以避免出现噪声词语的情况,例如某些词语日常很少使用,只是偶然在某类别中出现了,在计算相关性时,由于分母过小,即使分子比较小,但整体值仍然偏大的,就会带来噪声干扰。
36.对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别z2,每个类别的概率p(z2)由关联系数经过softmax计算得到。
37.结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测。
38.对于一个新的案件,通过这两种算法可以分别得到两个预测类别z1,z2以及预测概率p(z1),p(z2)。
39.当z1=z2时:直接预测新的案件最终类别为z1当z1,z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
40.该方法还包括,根据相似历史案例进行分类。
41.从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取好的每个历史案件,去除案件文本中的标点符号。对于一个新的未知类别的案件,首先去除案件文本的标点符号得到文本字符串y,并依次计算y与每个历史案件文本t(去除标点符号后)的相似性,文本相似性为:s(y,t)=(y与t相同的狭义或广义词语的个数)/(y的文本长度+t的文本长度)。
42.其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数。可以看出,当相似性越大时,
说明y与t的文本重合度越高,则归属到同一类别的概率越大。
43.通过计算y与每个历史案件的相似性后,筛选出相似性超过给定阈值的历史案件,计算这些筛选后案件归属每个类别的个数,选取归属个数最多的类别作为预测类别z3,其对应的预测概率p(z3)为:筛选后案件归属预测类别的个数与筛选后案件总个数的比值。
44.结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测。
45.对于一个新的案件,通过这三种算法可以分别得到三个预测类别z1,z2,z3以及预测概率p(z1),p(z2),p(z3)。
46.当z1=z2=z3时:直接预测新的案件最终类别为z1;当z1,z2,z3中存在两个相同:若其中一个对应的预测准确率大于阈值时,则取这两个相同的类别作为最终类别,例如z1=z2且与z3不同,而max(p(z1), p(z2))大于阈值,则最终类别为z1;若这两个相同预测类别对应的预测准确率都小于阈值,而剩余的一个预测类别所对应的准确率超过阈值,则取剩余的预测类别作为最终类别,例如z1=z2且与z3不同,而max(p(z1), p(z2))小于阈值,p(z3)大于阈值,则最终类别为z3;其他情况最终预测类别均取值为两个相同的类别。
47.当z1,z2,z3三个完全不相同,则取预测概率最大的所对应的预测类别作为最终类别。
48.除此之外,当然也可以结合采用综合分类模型进行分类和根据相似历史案例进行分类的2种分类结果进行最终预测。
49.对于一个新的案件,通过这两种算法可以分别得到两个预测类别z1,z3以及预测概率p(z1),p(z3)。
50.当z1=z3时:直接预测新的案件最终类别为z1;当z1,z3不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
51.第二方面,提供了一种基于大数据的法律案件自动分类优化方法;采用综合分类模型进行分类时,根据历史的法律案件对新的法律案件进行预测,方法的前提是需要默认历史法律案件的类别即标签是准确的,但实际上,历史案件会存在着在处理时存在误分类的问题,此时历史样本的标签就不准确,那么就会导致新案件的预测也随之错误。所以需要对历史案件的标签进行检验并修正。
52.对所有可能的实现方式中任一项所述的一种基于大数据的法律案件自动分类方法中所用的训练样本的标签进行修正:计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作a,b,则两个案件间的距离为:dis(a,b)=1/s(a,b),可以看出,当两个案件相似度越大,其距离越小。
53.其中s为文本相似性,其计算方法为:从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本t;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串y,并依次计算y与每个历史案件文本t的相似性,文本相似性为:s(y,t)=(y与t相同的狭义或广义词语的个数)/(y的文本长度+t的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指
包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数。
54.将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组。
55.对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
56.第三方面,提供了一种训练集的修正方法,该方法包括:计算文本相似性:从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本t;对于一个新的案件,首先去除案件文本的标点符号得到文本字符串y,并依次计算y与每个历史案件文本t的相似性,文本相似性为:s(y,t)=(y与t相同的狭义或广义词语的个数)/(y的文本长度+t的文本长度),其中狭义词语是指案件文本中的关键词,广义词语是指包含了2~n个关键词的集合,n为关键词的个数,文本长度是指文本中中文字符的个数。
57.计算两个案件间的距离,对两个案件的案件文本去除标点符号后,分别记作a,b,则两个案件间的距离为:dis(a,b)=1/s(a,b),可以看出,当两个案件相似时,其距离也较小。
58.将历史法律案件按照修正前的标签分组后,计算每组组内的案件中两两之间距离后并求和作为组内总距离,若组内总距离极大,则说明这组案件的差异性比较明显,则存在修正前标签有问题的情况,选取组内总距离大于给定阈值的标签组作为待修正的组。
59.对于待修正的组,分别计算每个案件与组内其他剩余所有案件的距离和,若距离和超过阈值,说明此案件不属于这一组的概率较大,根据其具体描述修正其标签,从而逐步修正历史案件的标签。
60.以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1