文本层叠分类器训练方法、分类方法、装置及计算机设备与流程

文档序号:16532891发布日期:2019-01-05 10:54阅读:202来源:国知局
文本层叠分类器训练方法、分类方法、装置及计算机设备与流程

本发明涉及通信技术领域,特别是涉及一种文本层叠分类器训练方法、分类方法、装置及计算机设备。



背景技术:

在文本分类中,训练样本的质量在很大程度上决定分类器的效果。

例如,当训练样本出现类间样本交叉时,则存在样本交叉的两个类或多个类,一定会影响整体分类器的效果,并且该两类或多类别的分类准确率较低,分类效果差。



技术实现要素:

本发明要解决的技术问题是提供一种文本层叠分类器训练方法、分类方法、装置及计算机设备,用以解决现有技术中训练文本样本集中的样本交叉所带来的分类效果差的问题。

一方面,本发明提供一种文本层叠分类器训练方法,包括:根据训练文本样本集训练得到分类类别为多个初始样本类的预处理分类器,测试所述预处理分类器的各分类类别的分类准确率,初步筛选出分类准确率低于第一阈值的初始样本类;所述训练文本样本集包括所述多个初始样本类,每个训练样本属于所述多个初始样本类中的一个;

在初步筛选出的所述初始样本类中识别出存在样本交叉的初始样本类;

将所述训练文本样本集中存在样本交叉的两个或两个以上初始样本类进行合并操作得到新样本类;

根据合并操作后的训练文本样本集训练得到初级分类器;

根据属于所述新样本类的训练样本以及所述属于所述新样本类的训练样本所属的初始样本类进行训练得到次级分类器,所述次级分类器用于对所述初级分类器的分类结果中分类类别为所述新样本类的待分类文本进行再次分类,以分入相应的初始样本类中。

另一方面,本发明还提供一种文本分类方法,利用本发明提供的文本层叠

分类器训练方法生成的分类器进行分类,所述分类方法包括:

将待分类文本集输入所述初级分类器,得到第二分类结果;

将所述第二分类结果中分类类别为所述新样本类的待分类文本输入与所述新样本类对应的次级分类器,得到第三分类结果。

可选的,所述方法还包括:

将所述第二分类结果中分类类别为未经合并的所述初始样本类的分类结果与所述第三分类结果共同作为所述待分类文本的最终分类结果。

另一方面,本发明还提供一种文本层叠分类器训练装置,包括:筛选单元,根据训练文本样本集训练得到分类类别为多个初始样本类的预处理分类器,测试所述预处理分类器的各分类类别的分类准确率,初步筛选出分类准确率低于第一阈值的初始样本类,在初步筛选出的所述初始样本类中识别出存在样本交叉的初始样本类;所述训练文本样本集包括所述多个初始样本类,每个训练样本属于所述多个初始样本类中的一个;

合并单元,用于将所述训练文本样本集中存在样本交叉的两个或两个以上初始样本类进行合并操作得到新样本类;

第一训练单元,用于根据合并操作后的训练文本样本集训练得到初级分类器;

第二训练单元,用于根据属于所述新样本类的训练样本以及所述属于所述新样本类的训练样本所属的初始样本类进行训练得到次级分类器,所述次级分类器用于对所述初级分类器的分类结果中分类类别为所述新样本类的待分类文本进行再次分类,以分入相应的初始样本类中。

另一方面,本发明还提供一种文本分类装置,利用本发明提供的任一种文本层叠分类器训练装置生成的分类器进行分类,所述分类装置包括:

第一输入单元,用于将待分类文本集输入所述初级分类器,得到第二分类结果;

第二输入单元,用于将所述第二分类结果中分类类别为所述新样本类的待分类文本输入与所述新样本类对应的次级分类器,得到第三分类结果。

可选的,所述装置还包括:结果输出单元,用于将所述第二分类结果中分类类别为未经合并的所述初始样本类的分类结果与所述第三分类结果共同作为所述待分类文本的最终分类结果。

另一方面,本发明还提供一种计算机设备,包括处理器和存储器;存储器用于存储计算机指令,处理器用于运行所述存储器存储的计算机指令,以执行本发明提供的任一种文本层叠分类器训练方法。

另一方面,本发明还提供一种计算机设备,包括处理器和存储器;存储器用于存储计算机指令,处理器用于运行所述存储器存储的计算机指令,以执行本发明提供的任一种文本分类方法。

另一方面,本发明还提供一种计算机可读存储介质,所述存储介质中存储有指令,所述指令运行时执行本发明提供的任一种文本层叠分类器训练方法。

另一方面,本发明还提供一种计算机可读存储介质,所述存储介质中存储有指令,所述指令运行时执行本发明提供的任一种文本分类方法。

本发明的实施例提供的文本层叠分类器训练方法、文本分类方法、装置及计算机设备,通过训练得到预处理分类器和筛选步骤,可以将存在样本交叉的初始样本类筛选出来并合并为新样本类,通过初级分类器的训练,可以准确地将存在样本交叉的初始样本类与不存在样本交叉的初始样本类区分开,通过次级分类器的训练,可以将存在样本交叉的初始样本类单独分离出来,在更具体的范围内进行更细致的分类训练,从而大大提高了文本分类器的分类准确率。

附图说明

图1是本发明实施例提供的文本层叠分类器训练方法的一种流程图;

图2是本发明实施例提供的文本层叠分类器训练方法的一种详细流程图;

图3是本发明实施例提供的文本分类方法的一种流程图;

图4是本发明实施例提供的文本层叠分类器训练装置的一种结构示意图;

图5是本发明实施例提供的文本分类装置的一种结构示意图。

具体实施方式

以下结合附图对本发明进行详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。

如图1所示,本发明实施例提供一种文本层叠分类器训练方法,包括:

s11,根据训练文本样本集训练得到分类类别为多个初始样本类的预处理分类器,测试所述预处理分类器的各分类类别的分类准确率,初步筛选出分类准确率低于第一阈值的初始样本类;所述训练文本样本集包括所述多个初始样本类,每个训练样本属于所述多个初始样本类中的一个;

s12,在初步筛选出的所述初始样本类中识别出存在样本交叉的初始样本类;

将训练文本样本集中存在样本交叉的两个或两个以上初始样本类进行合并操作得到新样本类;所述训练文本样本集包括多个初始样本类,每个训练样本属于所述多个初始样本类中的一个;

s13,根据合并操作后的训练文本样本集训练得到初级分类器;

s14,根据属于所述新样本类的训练样本以及所述属于所述新样本类的训练样本所属的初始样本类进行训练得到次级分类器,所述次级分类器用于对所述初级分类器的分类结果中分类类别为所述新样本类的待分类文本进行再次分类,以分入相应的初始样本类中。

本发明的实施例提供的文本层叠分类器训练方法,在根据训练样本训练文本分类器时采用分层次的层叠分类器生成方式,通过训练得到预处理分类器和筛选步骤,可以将存在样本交叉的初始样本类筛选出来,先将训练文本样本集中存在样本交叉的两个或者更多的初始样本类合并成新样本类,根据合并操作后的训练文本样本集训练得到初级分类器,再对新样本类进行更细致的分类训练得到次级分类器。这样,通过初级分类器的训练,可以准确地将存在样本交叉的初始样本类与不存在样本交叉的初始样本类区分开,通过次级分类器的训练,可以将存在样本交叉的初始样本类单独分离出来,在更具体的范围内进行更细致的分类训练,从而大大提高了文本分类器的分类准确率。

具体而言,本发明的实施例所说的样本交叉是指在提供的训练文本样本集中,样本数据的所属分类并不十分清晰准确,例如存在原本应该属于a类的样本数据却被分在了b类中的情况,则认为a类和b类之间存在样本交叉。样本交叉又称为类重叠或者数据集重叠。由于文本分类器是通过使用这些训练文本样本集训练而来的,训练文本样本集的这种样本交叉情况必然会影响其训练出来的文本分类器的分类准确性。本发明实施例提供的文本层叠分类器训练方法能够针对这种样本类间交叉的情况进行有效改进。下面进行具体说明。

需要说明的是,上述存在样本交叉的初始样本类是有待识别的。当训练文本样本集的样本数量以及初始样本类的数据量庞大时,可以通过如下方式识别出存在样本交叉的初始样本类:

上述识别方法的原理是,如果训练文本样本集存在类间样本交叉,则势必会影响训练出的分类器的分类准确性,因此可以通过分类准确性对训练文本样本集的样本交叉情况进行初步筛选,然后再从筛选出的所述初始样本类中识别出存在样本交叉的初始样本类。

其中,可以采用对低于第一阈值的初始样本类进行人工核对或机器数据匹配的方式来识别出存在样本交叉的初始样本类。

例如,第一阈值的设定越高,则对样本交叉的检测越灵敏。训练文本样本集的初始样本类中存在原本应该属于a类的样本数据却被分在了b类中的情况,而a类中并没有原应该属于其他类的样本,则此时预处理分类器的b类的分类准确率会低于第一阈值,虽然a类的分类准确率没有受到影响,但根据人工核对或机器数据匹配,可得出训练文本样本集中a类与b类存在样本交叉。训练文本样本集的初始样本类中存在原本应该属于a类的样本数据却被分在了b类中,且原本属于b类中的样本数据却被分在了a类,则此时预处理分类器的b类的分类准确率和a类的分类准确率都会低于第一阈值,可通过人工核对或机器数据匹配确定a类和b类中是否还与其他类样本交叉。

测试所述预处理分类器的各分类类别的分类准确率,具体可以为:基于文本样本总体采用交叉验证方式测试所述预处理分类器的分类准确率。

在步骤s13中,训练文本样本集中包括多个初始样本类,这些初始样本类即对应着用户期望得到的目标分类,每个训练样本属于多个初始样本类中的一个。在本发明的一个实施例中,训练文本样本集中包括a、b、c、d四个初始样本类,其中初始样本类a与初始样本类c之间存在样本交叉,则可以将a与c进行合并操作生成新样本类g,合并后的训练文本样本集中包括初始样本类b、d以及新样本类g。

相应的,在步骤s13中,根据合并操作后的训练文本样本集训练得到初级分类器也就是将训练文本样本集中的所有元素分别划分到样本类别b、d、g中。通过这样的分类可以训练成初级分类器。

当然,存在样本交叉的初始样本类可以不止两个,合并后出现的新样本类也可以不止一个,只要有利于纠正样本交叉,提高分类准确率即可,本发明的实施例对此不作限定。

例如,上述实施例中,也可以是a、b、c、d四个初始样本类之间存在类间样本交叉,或者a、b之间存在样本交叉的同时c、d之间存在样本交叉,相应的,进行合并操作既可以是将a、b、c、d四个初始样本类合并成一个新样本类g1,即,将存在样本交叉的所有初始样本类合并成一个新样本类,也可以将a、b合并成一个新样本类g2,将c、d合并成一个新样本类g3,即,将存在样本交叉的初始样本类合并成多个新样本类。

可选的,对合并操作后的训练文本样本集可以采用以下一种或多种分类算法训练得到所述初级分类器:朴素贝叶斯nb分类算法、支持向量机svm分类算法、k最邻近knn分类算法和随机森林分类算法等。

训练出初级分类器后,在步骤s14中即可训练形成次级分类器。具体而言,可以根据属于所述新样本类的训练样本以及所述属于所述新样本类的训练样本所属的初始样本类进行训练,分别得到每个所述新样本类的次级分类器。

仍以上述实施例为例,如果初始样本类a与初始样本类c之间存在样本交叉,a与c进行合并操作后生成新样本类g,用合并后的训练文本样本集进行分类训练,将训练文本样本集中的各元素分入样本类别b、d或g中,得到初级分类器。得到初级分类器后,用新样本类g中进行分类训练,将g中元素细分为a类和c类,其中a和c即为属于新样本类g的训练样本所属的初始样本类。

这样,通过次级分类器的训练,可以将存在样本交叉的初始样本类单独分离出来,在更具体的范围内进行更细致的分类训练,从而大大提高了文本分类器的分类准确率。

可选的,得到次级分类器的分类算法可以包括以下一种或多种:朴素贝叶斯nb分类算法、支持向量机svm分类算法、k最邻近knn分类算法和随机森林分类算法;其中,次级分类器包括的分类类别与所述新样本类中的训练样本所属的初始样本类相对应。

进一步的,上述实施例中的训练文本样本集可以由训练语料经过一定的处理得到。为了获得上述训练文本样本集,在本发明的一个实施例中,在所述将训练文本样本集中存在样本交叉的两个或两个以上初始样本类进行合并得到新样本类之前,本发明实施例提供的文本层叠分类器训练方法还可包括:

将训练语料进行预处理以对所述训练语料进行过滤和/或格式统一;

将预处理后的训练语料根据分词词典进行分词处理得到所述训练文本样本集。

具体而言,采集的训练语料包括句子和/或者文本片段,具体形式可以为语音、文字、图像等多种,首先要通过预处理将获取训练语料格式统一为文本格式,过滤掉无效的格式,保存待用。然后,将预处理后的训练语料根据分词词典进行分词处理从而得到训练文本样本集。

进一步的,分词词典可以被扩充,例如可以对所述训练语料执行新词发现操作并将发现的新词加入所述分词词典,这样,利用新词发现方法可以获取新的词语,根据获取的新的词语可以更新分词词典,那么在进行分词处理时,可以根据更新后的分词词典进行分词,从而能够使分词词典来不断完善,有效提高分词处理的准确率。

可选的,所述新词发现操作可以通过以下一种或几种方式实现:互信息、共现概率和信息熵。

为了确定生成的初级分类器和次级分类器的分类效果,进一步的,本发明实施例提供的文本层叠分类器训练方法还可以包括:

测试所述初级分类器中每个分类类别的分类准确率;

测试所述次级分类器中每个分类类别的分类准确率;

其中,所述初级分类器的分类准确率分别为p1j,其中j为大于等于1且小于等于m的整数,m为进行合并操作后的训练文本样本集中的样本类别数;

所述次级分类器的分类准确率分别为p1h*p2k,其中k为大于等于1且小于等于n的整数,n为所述新样本类中的训练样本所属的初始样本类数;p1h为所述初级分类器中所述新样本类的分类准确率,h为大于等于1且小于等于g的整数,g为所述新样本类数;

检测所述初级分类器中每个分类类别的分类准确率是否都大于第二概率阈值,且所述次级分类器中每个分类类别的分类准确率是否都大于第三概率阈值;

如果是,确定所述初级分类器和所述次级分类器训练成功。

举例说明,假如第二概率阈值为0.98,第三概率阈值为0.95,测试时,如果初级分类器的分类结果中,每个分类类别的分类准确率都大于0.98,且次级分类器的分类结果中,每个分类类别的分类准确率都大于0.95,则说明通过本发明实施例提供的文本层叠分类器训练方法所生成的文本分类器的分类准确率达到了用户的要求。

可选的,在进行分类准确率检测时,可以采用与训练文本样本集的各分类类别属性相同或相似的数据来进行测试,这些数据均标注有相关的分类类别。其中,与训练文本样本集的分类类别属性相同或相似的数据可以由算法构造出,也可以根据交叉验证方式获得。

具体的,可以采用基于文本样本总体采用交叉验证方式测试所述初级分类器的分类准确率;基于文本样本总体采用交叉验证方式测试所述次级分类器的分类准确率。

其中,文本样本总体是指与此次分类任务相关的全部样本数据。基于文本样本总体的交叉验证方式可以为将文本样本总体的一部分作为训练文本样本集,另一部分作为测试样本集,可以采用所述文本样本总体中60%至90%(例如80%)的样本作为训练文本样本集,采用剩余的样本作为待分类文本进行测试,所述文本样本总体包括所述多个初始样本类,每个所述样本属于所述多个初始样本类中的一个。

可选的,在检测所述初级分类器中每个分类类别的分类准确率是否都大于第二概率阈值,且所述次级分类器中每个分类类别的分类准确率是否都大于第三概率阈值之后,本发明的实施例提供的文本层叠分类器训练方法还可包括:如果否,将所述训练文本样本集中存在样本交叉的两个或两个以上初始样本类重新进行合并操作和分类器训练,直至所述初级分类器中每个分类类别的分类准确率都大于第二概率阈值,且所述次级分类器中每个分类类别的分类准确率都大于第三概率阈值为止。

也就是说,根据初级分类器和次级分类器作用后,如果发现任何一个分类类别的分类准确率小于相应的概率阈值,都说明初级分类器和次级分类器尚未达到用户的要求,因此需要重新对存在样本交叉的初始样本类进行合并操作和分类器训练,直至准确率达到上述阈值要求为止。

可选的,为了满足对分类器的分类准确率有不同的要求,在本发明的一个实施例中,还可以调整所述第二概率阈值和所述第三概率阈值以筛选出不同分类准确率的初级分类器和次级分类器。

下面通过具体实施例对本发明实施例提供的文本层叠分类器训练方法进行详细说明。

如图2所示,本实施例提供的文本层叠分类器训练方法具体可包括如下步骤:

s201,预处理:将获取训练语料格式统一为文本格式,过滤无效的格式,保存待用;

s202,新词发现:利用已有的新词发现工具找出训练语料的新词候选词,经人工过滤后加入分词词典;

s203,对预处理后的训练语料根据分词词典进行分词;

s204,样本筛选:对初始样本类构造分类器实现其分类,并基于文本样本总体使用交叉验证的方式测试分类器的准确率p0(各个类的准确率为p01、p02、……、p0i、……)。根据分类的结果(存在样本交叉的类别准确率都较低)选定(人为选定或简单的匹配方式)存在样本交叉的类别集(相互交叉的类别为一个类别集,因此,可能有一个或者多个类别集);

s205,样本重组:将存在样本交叉的两个类或多个类进行合并,其他类保持不变;

s206,训练生成初级分类器:对进行合并操作后的训练文本样本集进行分类操作,同样基于文本样本总体使用交叉验证的方式测试分类的准确率p1(各个类的准确率为p11、p12、……、p1j、……)。

s207,训练生成次级分类器:对合并生成的新样本类构造分类器(1个或多个),并基于文本样本总体使用交叉验证的方式测试其分类的准确率p2(各个类的准确率为p21、p22、……、p2k、……)。

s208,准确率测试:检测所述初级分类器中每个分类类别的分类准确率是否都大于第二概率阈值,且所述次级分类器中每个分类类别的分类准确率是否都大于第三概率阈值;

如果是,确定所述初级分类器和所述次级分类器训练成功;

如果否,将所述训练文本样本集中存在样本交叉的两个或两个以上初始样本类重新进行合并操作和分类器训练,直至所述初级分类器中每个分类类别的分类准确率都大于第二概率阈值,且所述次级分类器中每个分类类别的分类准确率都大于第三概率阈值为止。

相应的,如图3所示,本发明的实施例还提供一种文本分类方法,该文本分类方法利用前述实施例提供的任一种文本层叠分类器训练方法生成的分类器进行分类,所述分类方法包括:

s31,将待分类文本集输入所述初级分类器,得到第二分类结果;

s32,将所述第二分类结果中分类类别为所述新样本类的待分类文本输入与所述新样本类对应的次级分类器,得到第三分类结果。

本发明的实施例提供的文本分类方法,应用了前述实施例提供的任一种文本层叠分类器训练方法生成的文本分类器。这样,通过训练得到预处理分类器和筛选步骤,可以将存在样本交叉的初始样本类筛选出来,通过初级分类器的训练,可以准确地将存在样本交叉的初始样本类与不存在样本交叉的初始样本类区分开,通过次级分类器的训练,可以将存在样本交叉的初始样本类单独分离出来,在更具体的范围内进行更细致的分类训练,从而大大提高了文本分类的准确率。

可选的,本发明实施例提供的文本分类方法还可包括:将所述第二分类结果中分类类别为未经合并的所述初始样本类的分类结果与所述第三分类结果共同作为所述待分类文本的最终分类结果。

本发明的实施例提供的文本分类方法,应用了前述实施例提供的任一种文本层叠分类器训练方法生成的文本分类器,具体的分类过程和原理前文已经进行了详细的说明,此处不再赘述。

相应的,如图4所示,本发明的实施例还提供一种文本层叠分类器训练装置,包括:

筛选单元41,用于根据训练文本样本集训练得到分类类别为多个初始样本类的预处理分类器,测试所述预处理分类器的各分类类别的分类准确率,初步筛选出分类准确率低于第一阈值的初始样本类,在初步筛选出的所述初始样本类中识别出存在样本交叉的初始样本类;所述训练文本样本集包括所述多个初始样本类,每个训练样本属于所述多个初始样本类中的一个;

合并单元42,用于将训练文本样本集中存在样本交叉的两个或两个以上初始样本类进行合并操作得到新样本类;

第一训练单元43,用于根据合并操作后的训练文本样本集训练得到初级分类器;

第二训练单元44,用于根据属于所述新样本类的训练样本以及所述属于所述新样本类的训练样本所属的初始样本类进行训练得到次级分类器,所述次级分类器用于对所述初级分类器的分类结果中分类类别为所述新样本类的待分类文本进行再次分类,以分入相应的初始样本类中。

本发明的实施例提供的文本层叠分类器训练装置,在根据训练样本训练文本分类器时采用分层次的层叠分类器生成方式,通过训练得到预处理分类器和筛选步骤,可以将存在样本交叉的初始样本类筛选出来,先将训练文本样本集中存在样本交叉的两个或者更多的初始样本类合并成新样本类,根据合并操作后的训练文本样本集训练得到初级分类器,再对新样本类进行更细致的分类训练得到次级分类器。这样,通过初级分类器的训练,可以准确地将存在样本交叉的初始样本类与不存在样本交叉的初始样本类区分开,通过次级分类器的训练,可以将存在样本交叉的初始样本类单独分离出来,在更具体的范围内进行更细致的分类训练,从而大大提高了文本分类器的分类准确率。

具体而言,本发明的实施例所说的样本交叉是指在提供的训练文本样本集中,样本数据的所属分类并不十分清晰准确,例如存在原本应该属于a类的样本数据却被分在了b类中的情况,则认为a类和b类之间存在样本交叉。由于文本分类器是通过使用这些训练文本样本集训练而来的,训练文本样本集的这种样本交叉情况必然会影响其训练出来的文本分类器的分类准确性。本发明实施例提供的文本层叠分类器训练装置能够针对这种样本类间交叉的情况进行有效改进。下面进行具体说明。

需要说明的是,上述存在样本交叉的初始样本类是有待识别的。当训练文本样本集的样本数量以及初始样本类的数据量庞大时,所述文本层叠分类器训练装置还可包括筛选单元,用于:

在所述将训练文本样本集中存在样本交叉的两个或两个以上初始样本类进行合并操作得到新样本类之前,根据所述训练文本样本集训练得到分类类别为所述多个初始样本类的预处理分类器,测试所述预处理分类器的各分类类别的分类准确率,初步筛选出分类准确率低于第一阈值的初始样本类;

在初步筛选出的所述初始样本类中识别出存在样本交叉的初始样本类。

上述识别方法的原理是,如果训练文本样本集存在类间样本交叉,则势必会影响训练出的分类器的分类准确性,因此可以通过分类准确性对训练文本样本集的样本交叉情况进行初步筛选,然后再从筛选出的所述初始样本类中识别出存在样本交叉的初始样本类。

其中,可以采用对低于第一阈值的初始样本类进行人工核对或机器数据匹配的方式来识别出存在样本交叉的初始样本类。

例如,第一阈值的设定越高,则对样本交叉的检测越灵敏。训练文本样本集的初始样本类中存在原本应该属于a类的样本数据却被分在了b类中的情况,而a类中并没有原应该属于其他类的样本,则此时预处理分类器的b类的分类准确率会低于第一阈值,虽然a类的分类准确率没有受到影响,但根据人工核对或机器数据匹配,可得出训练文本样本集中a类与b类存在样本交叉。训练文本样本集的初始样本类中存在原本应该属于a类的样本数据却被分在了b类中,且原本属于b类中的样本数据却被分在了a类,则此时预处理分类器的b类的分类准确率和a类的分类准确率都会低于第一阈值,可通过人工核对或机器数据匹配确定a类和b类中是否还与其他类样本交叉。

测试所述预处理分类器的各分类类别的分类准确率,具体可以为:基于文本样本总体采用交叉验证方式测试所述预处理分类器的分类准确率。

可选的,所述合并单元,可具体用于将存在样本交叉的所有初始样本类合并成一个新样本类。

可选的,在合并单元42进行合并操作时,训练文本样本集中包括多个初始样本类,这些初始样本类即对应着用户期望得到的目标分类,每个训练样本属于多个初始样本类中的一个。在本发明的一个实施例中,训练文本样本集中包括a、b、c、d四个初始样本类,其中初始样本类a与初始样本类c之间存在样本交叉,则可以将a与c进行合并操作生成新样本类g,合并后的训练文本样本集中包括初始样本类b、d以及新样本类g。

相应的,第二训练单元42根据合并操作后的训练文本样本集训练得到初级分类器也就是将训练文本样本集中的所有元素分别划分到样本类别b、d、g中。通过这样的分类可以训练成初级分类器。

当然,存在样本交叉的初始样本类可以不止两个,合并后出现的新样本类也可以不止一个,只要有利于纠正样本交叉,提高分类准确率即可,本发明的实施例对此不作限定。

例如,上述实施例中,也可以是a、b、c、d四个初始样本类之间存在类间样本交叉,或者a、b之间存在样本交叉的同时c、d之间存在样本交叉,相应的,进行合并操作既可以是将a、b、c、d四个初始样本类合并成一个新样本类g1,即,将存在样本交叉的所有初始样本类合并成一个新样本类,也可以将a、b合并成一个新样本类g2,将c、d合并成一个新样本类g3,即,将存在样本交叉的初始样本类合并成多个新样本类。

可选的,第一训练单元43,具体可用于:

对所述合并操作后的训练文本样本集采用以下至少一种分类算法训练,得到所述初级分类器:朴素贝叶斯nb分类算法、支持向量机svm分类算法、k最邻近knn分类算法和随机森林分类算法。

训练出初级分类器后,第二训练单元44即可训练形成次级分类器。具体而言,可以根据属于所述新样本类的训练样本以及所述属于所述新样本类的训练样本所属的初始样本类进行训练,分别得到每个所述新样本类的次级分类器。

仍以上述实施例为例,如果初始样本类a与初始样本类c之间存在样本交叉,a与c进行合并操作后生成新样本类g,用合并后的训练文本样本集进行分类训练,将训练文本样本集中的各元素分入样本类别b、d或g中,得到初级分类器。得到初级分类器后,用新样本类g中进行分类训练,将g中元素细分为a类和c类,其中a和c即为属于新样本类g的训练样本所属的初始样本类。

这样,通过次级分类器的训练,可以将存在样本交叉的初始样本类单独分离出来,在更具体的范围内进行更细致的分类训练,从而大大提高了文本分类器的分类准确率。

可选的,第二分类单元44具体可用于采用以下至少一种分类算法训练,得到所述次级分类器:朴素贝叶斯nb分类算法、支持向量机svm分类算法、k最邻近knn分类算法和随机森林分类算法;所述次级分类器包括的分类类别与所述新样本类中的训练样本所属的初始样本类相对应。

进一步的,上述实施例中的训练文本样本集可以由训练语料经过一定的处理得到。为了获得上述训练文本样本集,本发明实施例提供的文本层叠分类器训练装置还可包括:

预处理单元,用于在所述将训练文本样本集中存在样本交叉的两个或两个以上初始样本类进行合并得到新样本类之前,将训练语料进行预处理以对所述训练语料进行过滤和/或格式统一;

分词单元,用于将预处理后的训练语料根据分词词典进行分词处理得到所述训练文本样本集。

具体而言,采集的训练语料包括句子和/或者文本片段,具体形式可以为语音、文字、图像等多种,首先要通过预处理将获取训练语料格式统一为文本格式,过滤掉无效的格式,保存待用。然后,将预处理后的训练语料根据分词词典进行分词处理从而得到训练文本样本集。

可选的,所述装置还可包括新词发现单元,用于对所述训练语料执行新词发现操作并将发现的新词加入所述分词词典。这样,利用新词发现方法可以获取新的词语,根据获取的新的词语可以更新分词词典,那么在进行分词处理时,可以根据更新后的分词词典进行分词,从而能够使分词词典来不断完善,有效提高分词处理的准确率。

可选的,所述新词发现操作可以通过以下一种或几种方式实现:互信息、共现概率和信息熵。

为了确定生成的初级分类器和次级分类器的分类效果,进一步的,所述装置还可包括:

第一测试单元,用于测试所述初级分类器中每个分类类别的分类准确率;

第二测试单元,用于测试所述次级分类器中每个分类类别的分类准确率;

其中,所述初级分类器的分类准确率分别为p1j,其中j为大于等于1且小于等于m的整数,m为进行合并操作后的训练文本样本集中的样本类别数;

所述次级分类器的分类准确率分别为p1h*p2k,其中k为大于等于1且小于等于n的整数,n为所述新样本类中的训练样本所属的初始样本类数;p1h为所述初级分类器中所述新样本类的分类准确率,h为大于等于1且小于等于g的整数,g为所述新样本类数;

检测单元,用于检测所述初级分类器中每个分类类别的分类准确率是否都大于第二概率阈值,且所述次级分类器中每个分类类别的分类准确率是否都大于第三概率阈值;

确定单元,用于如果所述检测单元的检测结果为是,确定所述初级分类器和所述次级分类器训练成功。

举例说明,假如第二概率阈值为0.98,第三概率阈值为0.95,测试时,如果初级分类器的分类结果中,每个分类类别的分类准确率都大于0.98,且次级分类器的分类结果中,每个分类类别的分类准确率都大于0.95,则说明通过本发明实施例提供的文本层叠分类器训练方法所生成的文本分类器的分类准确率达到了用户的要求。

可选的,在进行分类准确率检测时,可以采用与训练文本样本集的各分类类别属性相同或相似的数据来进行测试,这些数据均标注有相关的分类类别。其中,与训练文本样本集的分类类别属性相同或相似的数据可以由算法构造出,也可以根据交叉验证方式获得。

可选的,所述第一测试单元,具体可用于基于文本样本总体采用交叉验证方式测试所述初级分类器的分类准确率;所述第二测试单元,具体用于基于文本样本总体采用交叉验证方式测试所述次级分类器的分类准确率。

其中,文本样本总体是指与此次分类任务相关的全部样本数据。基于文本样本总体的交叉验证方式可以为将文本样本总体的一部分作为训练文本样本集,另一部分作为测试样本集,可以采用所述文本样本总体中60%至90%(例如80%)的样本作为训练文本样本集,采用剩余的样本作为待分类文本进行测试,所述文本样本总体包括所述多个初始样本类,每个所述样本属于所述多个初始样本类中的一个。

可选的,所述装置还可包括:返回单元,用于如果所述检测单元的检测结果为否,将所述训练文本样本集中存在样本交叉的两个或两个以上初始样本类重新进行合并操作和分类器训练,直至所述初级分类器中每个分类类别的分类准确率都大于第二概率阈值,且所述次级分类器中每个分类类别的分类准确率都大于第三概率阈值为止。

也就是说,根据初级分类器和次级分类器作用后,如果发现任何一个分类类别的分类准确率小于相应的概率阈值,都说明初级分类器和次级分类器尚未达到用户的要求,因此需要重新对存在样本交叉的初始样本类进行合并操作和分类器训练,直至准确率达到上述阈值要求为止。

为了满足对分类器的分类准确率有不同的要求,在本发明的一个实施例中,可选的,所述装置还可包括:调整单元,用于调整所述第二概率阈值和所述第三概率阈值以筛选出不同分类准确率的初级分类器和次级分类器。

相应的,如图5所示,本发明的实施例还提供一种文本分类装置,利用前述实施例提供的任一种文本层叠分类器训练装置生成的分类器进行分类,所述分类装置包括:

第一输入单元51,用于将待分类文本集输入所述初级分类器,得到第二分类结果;

第二输入单元52,用于将所述第二分类结果中分类类别为所述新样本类的待分类文本输入与所述新样本类对应的次级分类器,得到第三分类结果。

本发明的实施例提供的文本分类装置,应用了前述实施例提供的任一种文本层叠分类器训练装置生成的文本分类器。这样,通过初级分类器的训练,可以准确地将存在样本交叉的初始样本类与不存在样本交叉的初始样本类区分开,通过次级分类器的训练,可以将存在样本交叉的初始样本类单独分离出来,在更具体的范围内进行更细致的分类训练,从而大大提高了文本分类的准确率。

进一步的,所述文本分类装置,还包括:

结果输出单元,用于将所述第二分类结果中分类类别为未经合并的所述初始样本类的分类结果与所述第三分类结果共同作为所述待分类文本的最终分类结果。

相应的,本发明的实施例还提供一种计算机设备,包括处理器和存储器;存储器用于存储计算机指令,处理器用于运行所述存储器存储的计算机指令,以执行前述实施例提供的任一种文本层叠分类器训练方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。

相应的,本发明的实施例还提供一种计算机设备,包括处理器和存储器;存储器用于存储计算机指令,处理器用于运行所述存储器存储的计算机指令,以执行执行前述实施例提供的任一种文本分类方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。

相应的,本发明的实施例还提供一种计算机可读存储介质,所述存储介质中存储有指令,所述指令运行时执行前述实施例提供的任一种文本层叠分类器训练方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。

相应的,本发明的实施例还提供一种计算机可读存储介质,所述存储介质中存储有指令,所述指令运行时执行前述实施例提供的任一种文本分类方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1