一种文本信息分类的方法、装置及设备与流程

文档序号：20684606发布日期：2020-05-08 18:43阅读：126来源：国知局

本申请涉及信息处理技术领域，具体涉及一种文本信息分类的方法、装置及设备。

背景技术：

机器学习是一种基于对数据进行表征学习的方法，近年来取得了较为广泛的应用，例如应用于图像分类、文本分类等。在实际应用时，通过训练样本可以训练出准确率较高的分类学习模型。然而，由于在训练过程中，受应用环境的限制，使得所获取的训练样本有限，导致无法提升模型的泛化能力，影响数据分类结果的准确性。

技术实现要素：

有鉴于此，本申请实施例提供一种文本信息分类方法、装置及设备，以提高文本消息的分类准确性。

为解决上述问题，本申请实施例提供的技术方案如下：

一种文本信息分类方法，所述方法包括：

将待分类文本信息转换为目标特征向量；

将所述目标特征向量输入目标分类模型，所述目标分类模型包括用于区分第一样本信息与第二样本信息的最优超平面，所述最优超平面是根据所述第一样本信息的特征向量的分布与所述第二样本信息的特征向量的分布训练得到的；

获取所述目标特征向量与所述最优超平面的距离；

当所述目标特征向量与所述最优超平面的距离大于或等于第一阈值，则获取所述目标分类模型输出的第一分类结果作为所述待分类文本信息的分类结果；

当所述目标特征向量与所述最优超平面的距离小于第一阈值，则根据所述第一样本信息的特征向量的分布与所述第二样本信息的特征向量的分布，对所述目标特征向量进行漂移；

将漂移后的目标特征向量输入所述目标分类模型，获取所述目标分类模型输出的第二分类结果作为所述待分类文本信息的分类结果。

在一种可能的实现方式中，所述根据所述第一样本信息的特征向量的分布与所述第二样本信息的特征向量的分布，对所述目标特征向量进行漂移，包括：

将所述目标特征向量向目标位置漂移，所述目标位置为所述目标特征向量的当前位置的预设邻域内各个所述第一样本信息的特征向量以及所述第二样本信息的特征向量的均值对应的位置；

重复执行所述将所述目标特征向量向第一目标位置漂移，直到漂移后的目标特征向量与所述最优超平面的距离大于或等于第一阈值或者所述目标特征向量的当前位置与所述目标位置的差值小于第二阈值。

在一种可能的实现方式中，所述将待分类文本信息转换为目标特征向量，包括：

获取待分类文本信息；

将所述待分类文本信息进行分词；

将每个所述分词转换为词特征，将各个所述词特征组成目标特征向量。

在一种可能的实现方式中，当所述第二样本信息的数量大于所述第一样本信息的数量，所述方法还包括：

将所述第二样本信息划分为多个第二样本信息集合；

根据所述第一样本信息与每个所述第二样本信息集合中的第二样本信息分别训练生成多个分类模型。

在一种可能的实现方式中，所述方法还包括：

将所述分类模型分别确定为目标分类模型，执行所述将待分类文本信息转换为目标特征向量以及后续步骤；

根据得到的所述待分类文本信息的多个分类结果，确定所述待分类文本信息的最终分类结果。

在一种可能的实现方式中，所述根据得到的所述待分类文本信息的多个分类结果，确定所述待分类文本信息的最终分类结果，包括：

将得到的所述待分类文本信息的多个分类结果中占多数的分类结果确定为所述待分类文本信息的最终分类结果。

在一种可能的实现方式中，所述第一样本信息为业务问题文本信息，所述第二样本信息为聊天问题文本信息。

一种文本信息分类装置，所述装置包括：

转换单元，用于将待分类文本信息转换为目标特征向量；

输入单元，用于将所述目标特征向量输入目标分类模型，所述目标分类模型包括用于区分第一样本信息与第二样本信息的最优超平面，所述最优超平面是根据所述第一样本信息的特征向量的分布与所述第二样本信息的特征向量的分布训练得到的；

获取单元，用于获取所述目标特征向量与所述最优超平面的距离；

第一确定单元，用于当所述目标特征向量与所述最优超平面的距离大于或等于第一阈值，则获取所述目标分类模型输出的第一分类结果作为所述待分类文本信息的分类结果；

漂移单元，用于当所述目标特征向量与所述最优超平面的距离小于第一阈值，则根据所述第一样本信息的特征向量的分布与所述第二样本信息的特征向量的分布，对所述目标特征向量进行漂移；

第二确定单元，用于将漂移后的目标特征向量输入所述目标分类模型，获取所述目标分类模型输出的第二分类结果作为所述待分类文本信息的分类结果。

一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述的文本信息分类方法。

一种实现文本信息分类的设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现所述的文本信息分类方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例首先获取待分类文本信息，并将该待分类文本信息转换为目标特征向量。然后，将目标特征向量输入目标分类模型中，以获取目标特征向量与目标分类模型中最优超平面的距离。其中，最优超平面是根据第一样本信息的特征向量的分布与第二样本信息的特征向量的分布训练得到的，其可以用于区分第一样本信息和第二样本信息。再判断目标特征向量到最优超平面的距离与第一阈值的关系，如果大于或等于第一阈值，表明目标特征向量可以明确表征该待分类文本信息的属性，则将目标分类模型输出的第一分类结果作为该待分类文本信息的分类结果。如果小于第一阈值，表明目标特征向量不能明确表征该待分类文本信息的属性，则根据第一样本信息的特征向量和第二样本信息的特征向量对目标特征向量进行漂移。再将漂移后的目标特征向量输入目标分类模型，将目标分类模型输出的第二分类结果作为待分类文本信息的分类结果。

即，本申请实施例在利用目标分类模型对待分类文本信息进行分类时，利用待分类文本信息对应的目标特征向量与目标分类模型中的最优超平面的距离来确定目标分类模型输出分类结果是否可信，如果目标特征向量到最优超平面的距离大于或等于第一阈值，表明该分类结果可信，将该分类结果作为待分类文本信息的分类结果；如果目标特征向量到最优超平面的距离小于第一阈值，表明该分类结果不可信，则对目标特征向量进行漂移，直到目标特征向量漂移后的位置满足预设条件，则再将漂移后的目标特征向量输入目标分类模型，将目标分类模型输出的分类结果作为待分类文本信息的分类结果，消除分类时所产生的噪声，提高分类结果准确性。

附图说明

图1为本申请实施例提供的一种文本信息分类方法的流程图；

图2为本申请实施例提供的一种二维空间分类线示意图；

图3为本申请实施例提供的一种目标特征向量漂移示意图；

图4为本申请实施例提供的一种样本信息划分示意图；

图5为本申请实施例提供的一种文本信息分类装置结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为便于理解本申请实施例提供的技术方案，下面将先对本申请涉及的背景技术进行说明。

通常在训练分类学习模型的过程中，受应用环境的限制，由于所获取的训练样本有限，导致无法提升模型的泛化能力，影响数据分类结果的准确性。特别是在智能问答系统中，需要首先对用户输入的文本信息进行分类，如果分类结果不准确，将大大降低用户的使用体验。

具体的，智能问答是人工智能领域里的一项重要应用，相较于传统的客服系统，智能问答具有高效率，低成本等诸多优势，目前越来越多的企业使用智能问答系统为用户提供对话服务。在很多开放性的问答系统中(如政务服务大厅中提供的问答机器人)，一般在用户输入文本信息后，可以针对该文本信息提供业务类的回答或聊天类的回答。为了提高问答系统的用户体验，往往需要对用户输入的文本信息进行分类，当分类结果为聊天类文本信息时，则问答系统给出聊天类的回答；如果分类结果为业务文本信息时，则问答系统给出业务类的回答。

然而，由于开放性的互联网聊天语料数据量非常大，而整个系统中的业务问题语料相对较少，导致训练的分类模型识别业务问题分类的能力较弱，即分类模型的分类结果不准确。在该情况下，如果用户提出聊天类的问题，分类模型输出的分类结果为业务类，问答系统给出专业回答时，通常不会给用户带来较差的使用体验；如果用户提出业务类问题，而分类模型输出的分类结果为聊天类，导致问答系统给出聊天类的回答时，将大大降低用户的使用体验。

基于此，本申请实施例提供了一种文本信息分类方法，对于待分类文本信息，获取该待分类文本信息的目标特征向量。将目标特征向量输入目标分类模型获得该待分类文本信息的分类结果，同时，获取目标特征向量与最优超平面之间的距离。然后，判断目标特征向量与最优超平面之间的距离是否小于第一阈值，如果不小于，表明目标分类模型输出的第一分类结果可信，则将第一分类结果作为待分类文本信息的分类结果；如果小于，表明目标分类模型输出的第一分类结果不可信，将根据第一样本内信息的特征向量的分布和第二样本信息的特征向量的分布对目标特征向量进行漂移，使得漂移后的目标特征向量可以表征待分类文本信息，则将漂移后的目标特征向量输入目标分类模型，将该目标分类模型输出的第二分类结果作为待分类文本信息的分类结果。即，本申请实施例通过利用最优超平面以及漂移处理提高分类结果的准确性。

为便于理解本申请实施例提供的方案，下面将结合附图对本申请提供的文本信息分类方法进行说明。

参见图1，该图为本申请实施例提供的一种文本信息分类方法的流程图，如图1所示，该方法可以包括：

s101：将待分类文本信息转换为目标特征向量。

在本实施例中，对于获取的待分类文本信息，将该待分类文本信息转换为目标特征向量。在具体实现时，将待分类文本信息转换为目标特征向量可以为：获取待分类文本信息，将待分类文本信息进行分词；将每个分词转换为词特征，将各个词特征组成目标特征向量。即，先对待分类文本信息进行分词处理，然后利用机器学习技术获取每个分词对应的词特征，将所有分词各自对应的词特征确定为该待分类文本信息对应的目标特征向量。其中，词特征可以包括词频(termfrequency，tf)，或词频－逆向文件频率(termfrequency–inversedocumentfrequency，tf-idf)等。具体地，可以利用word2vector模型获取每个分词的词特征。

在实际应用时，可以针对用户输入的文本信息进行分类，则待分类文本信息可以是用户通过终端设备直接输入的文本信息，也可以为终端设备通过转换用户输入的语音信息所获得的文本信息。

s102：将目标特征向量输入目标分类模型。

s103：获取目标特征向量与最优超平面的距离。

在提取到目标特征向量后，将该目标特征向量输入目标分类模型，以获得目标分类模型输出的分类结果。其中，目标分类模型包括用于区分第一样本信息与第二样本信息的最优超平面，该最优超平面是根据第一样本信息的特征向量的分布与第二样本信息的特征向量的分布训练得到的，该最优超平面可以准确地分离出第一样本信息和第二样本信息。

为便于理解，以二维空间为例进行说明。例如图2所示,方形点和圆形点代表两类样本的特征向量，训练目标分类模型的目标是找到一条分类线使得两类样本分开，且满足该条分类线到一侧最近样本点的距离等于该条分类线到另一侧最近样本点的距离，两侧的两条线平行。如a为最优分类线，a1和a2分别为各类中离分类线最近的样本且平行于分类线的直线。推广到高维空间，最优分类线就变为最优分类面，该最优分类面(optimalhyperplane)不但能将两类正确分开，而且使分类间隔最大。

在实际应用时，第一样本信息可以为业务问题文本信息，第二样本信息可以为聊天问题文本信息，目标分类模型可以用于识别待分类文本信息为业务问题文本信息还是聊天问题文本信息。

同时，在将目标特征向量输入目标分类模型之后，还可以获取目标特征向量与最优超平面的距离。在具体实现时，在将目标特征向量输入目标分类模型时，可以由目标分类模型直接计算目标特征向量与最优超平面之间的距离，也可以在获取目标特征向量后，通过其他方式计算目标特征向量到与最优超平面的距离。具体地，计算目标分类模型与最优超平面的距离，可以通过以下公式实现：

其中r为高维空间的距离长度，g(x)为最优超平面的计算公式，g(x)>0表示目标特征向量x在最优超平面的左侧，g(x)<0表示目标特征向量x在超平面的右侧，g(x)＝0表示目标特征向量x在最优超平面上；w表示最优超平面的法向量(目标分类模型训练时获得)，w1..wn表示w的每个维度的向量值；x表示目标特征向量，x1…xn表示x的每个维度的向量值，b表示模型参数(目标分类模型训练时获得)。

当通过上述公式获取到目标特征向量与最优超平面之间的距离r后，比较该距离r与第一阈值的关系，如果距离r大于或等于第一阈值，则执行s104；如果距离r小于第一阈值，则执行s105。

s104：获取目标分类模型输出的第一分类结果作为待分类文本信息的分类结果。

本实施例中，当目标特征向量与最优超平面的距离大于或等于第一阈值时，表明该目标特征向量可以表征待分类文本信息的属性，也就是目标分类模型的输出分类结果可信，则直接将目标分类模型输出的第一分类结果作为待分类文本信息的分类结果。

s105：根据第一样本信息的特征向量的分布与第二样本信息的特征向量的分布，对目标特征向量进行漂移。

当目标特征向量与最优超平面的距离小于第一阈值时，表明目标特征向量无法明确地表征待分类文本信息的属性，此时目标分类模型输出的分类结果模糊、不可信，需根据第一样本信息的特征向量的分布以及第二样本信息的特征向量的分布对目标特征向量进行漂移，以使得漂移后的目标特征向量可以表征待分类文本信息的属性。

具体地，可以通过以下方式对目标特征向量进行漂移：将目标特征向量向目标位置漂移，其中，目标位置为目标特征向量的当前位置的预设邻域内各个第一样本信息的特征向量以及第二样本信息的特征向量的均值对应的位置；重复执行将目标特征向量向第一目标位置漂移，直到漂移后的目标特征向量与最优超平面的距离大于或等于第一阈值或者目标特征向量的当前位置与目标位置的差值小于第二阈值。其中，第一目标位置为漂移后的目标特征向量的当前位置的预设邻域内各个所述第一样本信息的特征向量以及所述第二样本信息的特征向量的均值对应的位置。具体实现过程可以为：

1)将目标特征向量向目标位置漂移。

本实施例中，在确定出目标特征向量当前所处位置时，可以获取以目标特征向量的当前位置为圆心预设邻域内各个第一样本信息的特征向量以及第二样本信息的特征向量，并将各个第一样本信息的特征向量以及第二样本信息的特征向量的均值对应的位置作为目标位置。然后，将目标特征向量向目标位置进行漂移。

2)判断漂移后的目标特征向量与最优超平面的距离是否大于或等于第一阈值，或漂移后的目标特征向量的当前位置与新的目标位置的差值是否小于第二阈值。

当将目标特征向量漂移到目标位置后，将目标位置处的特征向量(预设邻域内各个第一样本信息的特征向量以及第二样本信息的特征向量的均值)作为漂移后的目标特征向量。然后，判断漂移后的目标特征向量与最优超平面的距离是否大于或等于第一阈值，以及漂移后的目标特征向量的当前位置与目标位置的差值是否小于第二阈值。如果其中任一条件满足，表明漂移后的目标特征向量可以明确表征待分类文本信息的属性，则停止漂移；如果两个条件均不满足，表明漂移后的目标特征向量仍无法明确表征待分类文本信息的属性，则继续漂移。

3)如果漂移后的目标特征向量小于第一阈值或漂移后的目标特征向量的当前位置与目标位置的差值大于第二阈值，则将漂移后的目标特征向量的当前位置的预设邻域内各个第一样本信息的特征向量以及第二样本信息的特征向量的均值对应的位置确定为目标位置，重复执行将目标特征向量向目标位置漂移。

如果漂移后的目标特征向量不满足上述条件，则将漂移后的目标特征向量的当前位置的预设领域内各个第一样本信息的特征向量以及第二样本信息的特征向量的均值对应的位置确定为目标位置，继续进行漂移。

在本实施例中，采用均值漂移的方法对目标特征向量进行漂移，即先算出当前点(目标特征向量)的偏移均值(第一样本信息的特征向量和第二样本信息的特征向量的均值)，将该点移动到此偏移均值，然后以此为新的起始点，继续移动，直到满足最终的条件。具体地，可以利用下述公式进行迭代：

其中，x表示高维向量空间中的基准点，即目标特征向量，xi表示以x为中心的高维球邻域中的其他点(即邻域内的各个第一样本信息的特征向量和第二样本信息的特征向量)。假设这样的点存在k个，获得mh，将x向mh所在的位置进行漂移，反复进行迭代，直到漂移后的目标特征向量收敛。

为便于理解参见图3，其中，黑色圆表示目标特征向量，以黑色圆所在的位置为圆心得到预设半径内第一样本信息的特征向量和第二样本信息的特征向量，计算圆内各个第一样本信息的特征向量和第二样本信息的特征向量的均值a，由三角形表示，将三角形的位置确定为目标位置。将黑色圆漂移到三角形所在的位置，此时目标特征向量为a。判断此时目标特征向量到最优超平面的距离是否大于或等于第一阈值，如果是，则不再漂移；如果否，则获取三角形所在位置的预设邻域内的各个第一样本信息的特征向量和第二样本信息的特征向，并计算各个第一样本信息的特征向量与第二样本信息的特征向量的均值b，将均值b所在的位置作为第一目标位置，将目标特征向量a向特征向量b所在的位置漂移。

或者，判断目标特征向量a的当前位置与目标位置(特征向量b所在的位置)的差值是否小于第二阈值，如果小于，则停止漂移；否则继续将目标特征向量a向特征向量b所在的位置漂移。

s106：将漂移后的目标特征向量输入目标分类模型，获取目标分类模型输出的第二分类结果作为待分类文本信息的分类结果。

当漂移后的目标特征向量满足上述条件后，将漂移后的目标特征向量输入目标分类模型，将目标分类模型输出的第二分类结果作为待分类文本信息的分类结果。

需要说明的是，对目标特征向量进行漂移不是真正移动，而是把该目标特征向量与收敛位置所对应的特征向量标记为同一类，从而将收敛位置处的特征向量输入目标分类模型，将目标分类模型输出的分类结果作为待分类文本信息的分类结果。

基于上述描述可知，本申请实施例在利用目标分类模型对待分类文本信息进行分类时，利用待分类文本信息对应的目标特征向量与目标分类模型中的最优超平面的距离来确定目标分类模型输出分类结果是否可信，如果目标特征向量到最优超平面的距离大于或等于第一阈值，表明该分类结果可信，将该分类结果作为该待分类文本信息；如果目标特征向量到最优超平面的距离小于第一阈值，表明该分类结果不可信，则对目标特征向量进行漂移，直到目标特征向量漂移后的位置满足预设条件，则再将漂移后的目标特征向量输入目标分类模型，将目标分类模型输出的分类结果作为待分类文本信息的分类结果，消除分类时所产生的噪声，提高分类结果准确性。

在实际应用中，业务问题文本信息的特征向量相对集中，聊天问题文本信息的特征向量相对分散，需要对目标特征向量进行漂移时，对于分类界限相对模糊的目标特征向量更可能被划分到业务类别中来。而对于智能问答系统，如果用户输入一个聊天问题文本信息，问答系统给出业务领域回答，用户可以容忍这种场景，但是，如果用户输入一个业务问题文本信息，问答系统给出聊天回答，用户对这种场景的容忍度很低。因此，基于本申请实施例提供的分类方法对问题文本信息进行分类时，也可以更好满足用户需求。

可以理解的是，本实施例可以利用第一样本信息和第二样本信息训练获得目标分类模型，从而使得目标分类模型可以识别待分类文本信息的分类结果是第一样本信息对应的分类结果还是第二样本信息对应的分类结果。如果在训练时，第二样本信息的数量大于第一样本信息的数量，则会导致训练的目标分类模型识别第一样本信息类的文本能力非常弱。为解决上述问题，本申请实施例提供了一种生成目标分类模型的方法，具体为：

1)将第二样本信息划分为多个第二样本信息集合。

2)根据第一样本信息与每个第二样本信息集合中的第二样本信息分别训练生成多个分类模型。

即，当第二样本信息的数量远大于第一样本信息的数量时，将第二样本信息进行拆分，获得多个第二样本信息集合。然后，将第一样本信息与每个第二样本信息集合进行融合，利用融合后的第一样本信息和第二样本信息进行训练，获得多个分类模型。

在具体实现时，可以将第二样本信息划分为k个第二样本信息集合，其中k等于第二样本信息的数量除以第一样本信息的数量。例如，第二样本信息的数量为m个，第一样本信息的数量为n个，其中，m>>n，则k＝m/n。再将n个第一样本信息作为整体分别与k个第二样本信息集合进行融合，得到k个训练样本集合，利用k个训练样本集合分别进行训练生成k个分类模型。需要说明的是，在实际应用中，为避免k个分类模型的分类结果持平，可以将k设置为奇数。如图4所示，将第二样本信息划分为多个第二样本信息集合，每个第二样本信息集合中第二样本信息的数量与第一样本信息的数量相同。

当确定出多个分类模型后，将每个分类模型作为目标分类模型，利用该目标分类模型对待分类文本信息进行分类，从而获得多个分类结果。然后，根据得到的待分类文本信息的多个分类结果，确定待分类文本信息的最终分类结果。具体地，可以将得到的待分类文本信息的多个分类结果中占多数的分类结果确定为待分类文本信息的最终分类结果。

为便于理解，以问答系统对业务问题文本信息或聊天问题文本信息进行分类为例进行说明，具体地，问答系统首先获取用户输入的问题文本信息，并将该问题文本信息转换为目标特征向量。然后，将目标特征向量输入至目标分类模型中，以使得目标分类模型根据目标特征向量确定问题文本信息的第一分类结果。同时，问答系统获取目标特征向量与最优超平面之间的距离，如果该距离大于或等于第一阈值，则将目标分类模型输出的第一分类结果确定为该问题文本信息的分类结果，则输出该分类结果对应的答案。具体地，如果第一分类结果为业务问题文本信息，则问答系统输出业务类答案；如果第一分类结果为聊天问题文本信息，则问答系统输出聊天类答案。

如果距离小于第一阈值，则对目标特征向量进行漂移，直至漂移后的目标特征向量满足预设条件，将满足预设条件的漂移后目标特征向量输入目标分类模型中，将目标分类模型输出的第二分类结果确定为该问题文本信息的分类结果，并输出该分类结果对应的答案。具体地，如果第二分类结果为业务问题文本信息，则问答系统输出业务类答案；如果第二分类结果为聊天问题文本信息，则问答系统输出聊天类答案。

基于上述方法实施例，本申请实施例提供了一种文本信息分类的装置，下面将结合附图对该装置进行说明。

参见图5，该图为本申请实施例提供的一种文本信息分类装置结构图，如图5所示，该装置可以包括：

转换单元501，用于将待分类文本信息转换为目标特征向量；

输入单元502，用于将所述目标特征向量输入目标分类模型，所述目标分类模型包括用于区分第一样本信息与第二样本信息的最优超平面，所述最优超平面是根据所述第一样本信息的特征向量的分布与所述第二样本信息的特征向量的分布训练得到的；

获取单元503，用于获取所述目标特征向量与所述最优超平面的距离；

第一确定单元504，用于当所述目标特征向量与所述最优超平面的距离大于或等于第一阈值，则获取所述目标分类模型输出的第一分类结果作为所述待分类文本信息的分类结果；

漂移单元505，用于当所述目标特征向量与所述最优超平面的距离小于第一阈值，则根据所述第一样本信息的特征向量的分布与所述第二样本信息的特征向量的分布，对所述目标特征向量进行漂移；

第二确定单元506，用于将漂移后的目标特征向量输入所述目标分类模型，获取所述目标分类模型输出的第二分类结果作为所述待分类文本信息的分类结果。

在一种可能的实现方式中，所述漂移单元，具体用于将所述目标特征向量向目标位置漂移，所述目标位置为所述目标特征向量的当前位置的预设邻域内各个所述第一样本信息的特征向量以及所述第二样本信息的特征向量的均值对应的位置；

重复执行所述漂移单元将所述目标特征向量向第一目标位置漂移，直到漂移后的目标特征向量与所述最优超平面的距离大于或等于第一阈值或者所述目标特征向量的当前位置与所述目标位置的差值小于第二阈值。

在一种可能的实现方式中，所述转换单元，包括：

获取子单元，用于获取待分类文本信息；

分词子单元，用于将所述待分类文本信息进行分词；

转换子单元，用于将每个所述分词转换为词特征，将各个所述词特征组成目标特征向量。

在一种可能的实现方式中，当所述第二样本信息的数量大于所述第一样本信息的数量，所述装置还包括：

划分单元，用于将所述第二样本信息划分为多个第二样本信息集合；

训练单元，用于根据所述第一样本信息与每个所述第二样本信息集合中的第二样本信息分别训练生成多个分类模型。

在一种可能的实现方式中，所述装置还包括：

第三确定单元，用于将所述分类模型分别确定为目标分类模型，执行所述转换单元以及后续步骤；

第四确定单元，用于根据得到的所述待分类文本信息的多个分类结果，确定所述待分类文本信息的最终分类结果。

在一种可能的实现方式中，所述第四确定单元，具体用于将得到的所述待分类文本信息的多个分类结果中占多数的分类结果确定为所述待分类文本信息的最终分类结果。

在一种可能的实现方式中，所述第一样本信息为业务问题文本信息，所述第二样本信息为聊天问题文本信息。

需要说明的是，本实施例中各个单元的实现可以参见上述方法实施例，本实施例在此不再赘述。

另外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述的文本信息分类方法。

本申请实施例提供了一种实现文本信息分类的设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现所述的文本信息分类方法。

基于上述描述可知，本申请实施例在利用目标分类模型对待分类文本信息进行分类时，利用待分类文本信息对应的目标特征向量与目标分类模型中的最优超平面的距离来确定目标分类模型输出分类结果是否可信，如果目标特征向量到最优超平面的距离大于或等于第一阈值，表明该分类结果可信，将该分类结果作为待分类文本信息的分类结果；如果目标特征向量到最优超平面的距离小于第一阈值，表明该分类结果不可信，则对目标特征向量进行漂移，直到目标特征向量漂移后的位置满足预设条件，则再将漂移后的目标特征向量输入目标分类模型，将目标分类模型输出的分类结果作为待分类文本信息的分类结果，消除分类时所产生的噪声，提高分类结果准确性。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈建华;崔朝辉;赵立军;张霞
技术所有人：东软集团股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。