一种短文本多标签分类方法及装置与流程

文档序号:16135335发布日期:2018-12-01 00:53阅读:170来源:国知局

本申请涉及文本分类领域,尤其涉及一种短文本多标签分类方法及装置。

背景技术

随着近年来互联网的飞速发展,各种信息交互平台会产生大量的短文本(shorttext),这些短文本涉及到人们生活的各个领域,逐渐成为人们使用频繁且公认的沟通方式,如公安领域的报案信息、电子商务评论及智能问答系统等都是海量短文本的产生源。如何从海量短文本中挖掘有效信息,是近年来诸多学者广泛研究的课题。文本分类是一种文本挖掘的有效方法,但由于短文本长度短、词项特征稀疏等特点,只是传统的长文本分类方法变得不再适用。

目前,卷积神经网络技术(cnn)已广泛应用到自然语言处理领域(nlp)中。卷积神经网络技术具有多个分层,即卷积层、池化层、全连接层和分类层,由卷积层和池化层对待分类短文本中的特征词进行提取,再由全连接层进行整合,最后利用分类层对待分类短文本进行分类。但是,由于分类层所使用的分类器为单类分类器,无法实现待分类短文本的多分类的需求。



技术实现要素:

本申请提供了一种短文本多标签分类方法及装置,以解决由于分类层所使用的分类器为单类分类器,无法实现待分类短文本的多分类的问题。

第一方面,本申请提供一种短文本多标签分类方法,包括:

获取待分类短文本;

利用与分类标签对应的单分类模型,得到第一正向分类概率集,所述第一正向分类概率集由利用所述单分类模型计算得到的所述待分类短文本在不同分类标签中的正向分类概率及相应的分类标签组成;

对所述第一正向分类概率集内的正向分类概率进行筛选,得到第一目标正向分类概率集;

判断所述第一目标正向分类概率集中的每个正向分类概率是否大于或等于第一预设分类阈值,如果所述正向分类概率大于或等于所述第一预设分类阈值,则将所述正向分类概率对应的分类标签确定为所述待分类短文本所属的第一分类类别;

如果所述正向分类概率小于所述第一预设分类阈值,则将所述正向分类概率对应的分类标签确定为剩余分类标签;

利用多分类模型,对所述待分类短文本进行分类,得到第二正向分类概率集,所述多分类模型由剩余分类标签对应的二分类模型组成,所述第二正向分类概率集由利用所述多分类模型计算得到的所述待分类短文本在不同剩余分类标签中的正向分类概率及相应的剩余分类标签组成;

对所述第二正向分类概率集中的正向分类概率进行筛选,得到第二分类类别集,所述第二分类类别集由筛选第二正向分类概率集后得到的正向分类概率对应的分类标签组成;

将所述第一分类类别和第二分类类别集合并,得到分类结果。

第二方面,本申请提供一种短文本多标签分类装置,包括:

第一获取模块,用于获取待分类短文本;

单分类模型计算模块,用于利用与分类标签对应的单分类模型,得到第一正向分类概率集,所述第一正向分类概率集由利用所述单分类模型计算得到的所述待分类短文本在不同分类标签中的正向分类概率及相应的分类标签组成;

第一筛选模块,用于对所述第一正向分类概率集内的正向分类概率进行筛选,得到第一目标正向分类概率集;

判断模块,用于判断所述第一目标正向分类概率集中的每个正向分类概率是否大于或等于第一预设分类阈值,如果所述正向分类概率大于或等于所述第一预设分类阈值,则将所述正向分类概率对应的分类标签确定为所述待分类短文本所属的第一分类类别;

如果所述正向分类概率小于所述第一预设分类阈值,则将所述正向分类概率对应的分类标签确定为剩余分类标签;

多分类模型计算模块,利用多分类模型,对所述待分类短文本进行分类,得到第二正向分类概率集,所述多分类模型由剩余分类标签对应的二分类模型组成,所述第二正向分类概率集由利用所述多分类模型计算得到的所述待分类短文本在不同剩余分类标签中的正向分类概率及相应的剩余分类标签组成;

第二筛选模块,用于对所述第二正向分类概率集中的正向分类概率进行筛选,得到第二分类类别集,所述第二分类类别集由筛选第二正向分类概率集后得到的正向分类概率对应的分类标签组成;

输出模块,用于将所述第一分类类别和第二分类类别集进行集合,得到分类结果。

由以上技术方案可知,本申请实施例提供了一种短文本标签分类方法及装置,该方法先利用单分类模型对待分类短文本进行初始分类处理,然后再利用二分类模型组成的多分类模型对该待分类短文本进行二次分类处理,不仅可实现短文本的多分类处理,还可减少数据处理的繁复性,提高数据处理的速度。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的一种短文本多标签分类方法的流程图;

图2为本申请另一实施例提供的一种短文本多标签分类方法的流程图;

图3为本申请又一实施例提供的一种短文本多标签分类方法的流程图;

图4为本申请提供的一种短文本多标签分类装置的结构示意图;

图5为第一筛选模块的结构示意图;

图6为第二筛选模块的结构示意图;

图7为第二获取模块的结构示意图;

图8为第二筛选模块的另一结构示意图。

具体实施方式

参见图1,第一方面,本申请实施例提供了一种短文本多标签分类方法,包括如下步骤:

步骤101:获取待分类短文本。

短文本是相对于长文本而言比较短的文本,待分类短文本是需进行分类的短文本,例如,待分类短文本可以是公安领域中的报案信息,或者即时通讯应用中的状态信息,如qq社区的说说或者状态日志等,也可以是网页片段、短消息或者微博等。

步骤102:利用与分类标签对应的单分类模型,得到第一正向分类概率集,所述第一正向分类概率集由利用所述单分类模型计算得到的所述待分类短文本在不同分类标签中的正向分类概率及相应的分类标签组成。

分类标签可由工作人员根据实际分类需求进行设定,例如,在公安领域,工作人员可将分类标签设置为“入室盗窃”、“抢劫”等,每个分类标签均有相对应的单分类模型,即单分类模型的数量与分类标签的数量相同,单分类模型可采用现有的单分类器,本实施例不做限定。正向分类概率是待分类短文本属于分类标签的类别的概率。

利用单分类模型计算待分类短文本在不同分类标签中的正向分类概率,由待分类短文本在不同分类标签中的正向分类概率及相应的分类标签,得到第一正向分类概率集。

步骤103:对所述第一正向分类概率集内的正向分类概率进行筛选,得到第一目标正向分类概率集。

对第一正向分类概率集内的正向分类概率进行筛选,去除不符合预设条件的正向分类概率及相应的分类标签,仅保留符合预设条件的正向分类概率及相应的分类标签,可降低数据处理的数量,提高数据处理的速度。

步骤104:判断所述第一目标正向分类概率集中的每个正向分类概率是否大于或等于第一预设分类阈值,如果所述正向分类概率大于或等于所述第一预设分类阈值,则执行步骤105;如果所述正向分类概率小于所述第一预设分类阈值,则将执行步骤106。

第一预设分类阈值可由工作人员预先进行设定,第一预设分类阈值可为同一个数值,也可根据不同的分类标签,对应不同的数值,例如,分类标签“入室盗窃”和“抢劫”的第一预设分类阈值均为0.6,或者“入室盗窃”的第一预设分类阈值为0.8,“抢劫”的第一预设分类阈值为0.6。

步骤105:将所述正向分类概率对应的分类标签确定为所述待分类短文本所属的第一分类类别。

步骤106:将所述正向分类概率对应的分类标签确定为剩余分类标签。

将第一目标正向分类概率集中的正向分类概率再次进行筛选,如果得到符合筛选条件的正向分类概率,则将该正向分类概率对应的分类标签确定为待分类短文本所属的第一分类类别,然后再将第一目标正向分类概率集中其他的正向分类概率进行后续处理,即可完成对待分类短文本的初始分类处理,减少后续数据处理的繁复性,提高数据处理的速度。

步骤107:利用多分类模型,对所述待分类短文本进行分类,得到第二正向分类概率集,所述多分类模型由剩余分类标签对应的二分类模型组成,所述第二正向分类概率集由利用所述多分类模型计算得到的所述待分类短文本在不同剩余分类标签中的正向分类概率组成。

步骤108:对所述第二正向分类概率集中的正向分类概率进行筛选,得到第二分类类别集,所述第二分类类别集由筛选第二正向分类概率集后得到的正向分类概率对应的分类标签及相应的剩余分类标签组成。

步骤109:将所述第一分类类别和第二分类类别集合并,得到分类结果。

由以上技术方案可知,本申请实施例提供了一种短文本标签分类方法,该方法先利用单分类模型对待分类短文本进行初始分类处理,然后再利用二分类模型组成的多分类模型对该待分类短文本进行二次分类处理,不仅可实现短文本的多分类处理,还可减少数据处理的繁复性,提高数据处理的速度。

参见图2,在本申请的另一实施例提供了一种短文本多标签分类方法,包括如下步骤:

步骤201:获取待分类短文本。

短文本是相对于长文本而言比较短的文本,待分类短文本是需进行分类的短文本,例如,待分类短文本可以是公安领域中的报案信息,或者即时通讯应用中的状态信息,如qq社区的说说或者状态日志等,也可以是网页片段、短消息或者微博等。

步骤202:利用与分类标签对应的单分类模型,得到第一正向分类概率集,所述第一正向分类概率集由利用所述单分类模型计算得到的所述待分类短文本在不同分类标签中的正向分类概率及相应的分类标签组成。

每个分类标签均有相对应的单分类模型,即单分类模型的数量与分类标签的数量相同。正向分类概率是待分类短文本属于分类标签的类别的概率。单分类模型可采用现有的单分类器,本实施例不做限定。

利用单分类模型计算待分类短文本在不同分类标签中的正向分类概率,由待分类短文本在不同分类标签中的正向分类概率及相应的分类标签,得到第一正向分类概率集。

步骤203:将所述第一正向分类概率集中的正向分类概率由高到低排序。

步骤204:对排序前n个正向分类概率及其对应的分类标签进行提取,得到第一目标正向分类概率集。

例如,待分类短文本“回家发现被盗,门锁完好,家中保险柜被撬”经单分类模型处理后,得到第一正向分类概率集为{踹门0.048,撬保险柜0.11,门未被撬0.8,窗台有脚印0.026,破窗玻璃0.07,墙上挖洞0.0003}。然后,对第一正向分类概率集进行排序,得到排序后的第一正向分类概率集{门未被撬0.8,撬保险柜0.11,破窗玻璃0.07,踹门0.048,窗台有脚印0.026,墙上挖洞0.0003},再提取前n个正向分类概率及对应的分类标签,得到第一目标正向分类概率集,n可根据实际需求设置,如n取4,则第一目标正向分类概率集为{门未被撬0.8,撬保险柜0.11,破窗玻璃0.07,踹门0.048}。

对第一正向分类概率集内的正向分类概率进行筛选,去除不符合预设条件的正向分类概率,仅保留符合预设条件的正向分类概率,可降低数据处理的数量,提高数据处理的速度。

步骤205:判断所述第一目标正向分类概率集中的每个正向分类概率是否大于或等于第一预设分类阈值,如果所述正向分类概率大于或等于所述第一预设分类阈值,则执行步骤206;如果所述正向分类概率小于所述第一预设分类阈值,则执行步骤207。

第一预设分类阈值可由工作人员预先进行设定,不同分类标签对应的第一预设分类阈值可为同一个数值,也可以是不同的数值,例如,分类标签“入室盗窃”和“抢劫”的第一预设分类阈值均为0.6,或者“入室盗窃”的第一预设分类阈值为0.8,“抢劫”的第一预设分类阈值为0.6,不同分类标签对应的正向分类概率与其对应的第一预设分类阈值进行比较。

步骤206:将所述正向分类概率对应的分类标签确定为所述待分类短文本所属的第一分类类别。

步骤207:将所述正向分类概率对应的分类标签确定为剩余分类标签。

例如,继续以步骤204的例子为例,假设各分类标签对应的第一预设分类阈值均为0.8,则第一目标正向分类概率集中,“门未被撬0.8”与第一预设分类阈值相等,则将“门未被撬”确定为待分类短文本的一个分类类别。同时,将小于第一预设分类阈值的正向分类概率对应的分类标签确定为剩余分类标签,即“撬保险柜”,“破窗玻璃”,“踹门”。

假设各分类标签对应的第一预设分类阈值均为0.85,则第一目标正向分类概率集中没有大于或等于第一预设分类阈值的正向分类概率,则第一目标正向分类概率集中所有的正向概率对应的分类标签均为剩余分类标签,即“门未被撬”,“撬保险柜”,“破窗玻璃”,“踹门”。

将第一目标正向分类概率集中的正向分类概率再次进行筛选,如果得到符合筛选条件的正向分类概率,则将该正向分类概率对应的分类标签确定为待分类短文本所属的第一分类类别,然后再将第一目标正向分类概率集中其他的正向分类概率进行后续处理,即可完成对待分类短文本的初始分类处理,减少后续数据处理的繁复性,提高数据处理的速度。

步骤208:利用多分类模型,对所述待分类短文本进行分类,得到第二正向分类概率集,所述多分类模型由剩余分类标签对应的二分类模型组成,所述第二正向分类概率集由利用所述多分类模型计算得到的所述待分类短文本在不同剩余分类标签中的正向分类概率及相应的剩余分类标签组成。

多分类模型由至少一个二分类模型组成,二分类模型的数量与剩余分类标签的数量相同,且一一对应。不同剩余分类标签对应的二分类模型可以相同,也可以不同。二分类模型用来计算待分类短文本属于其对应的分类标签类别的正向分类概率。二分类模型可采用现有的二分类模型,例如,logistic回归模型,logistic回归模型是现有的高效二分类器,多个二分类模型组成多分类模型,利用所述多分类模型计算得到待分类短文本在不同剩余分类标签中的正向分类概率。例如,上述待分类短文本“回家发现被盗,门锁完好,家中保险柜被撬”属于剩余分类标签“门未被撬”,“撬保险柜”,“破窗玻璃”,“踹门”的正向分类概率为“门未被撬0.9”,“撬保险柜0.8”,“破窗玻璃0.45”,“踹门0.6”,则第二分类概率集为{门未被撬0.9,撬保险柜0.8,破窗玻璃0.45,踹门0.6}。

步骤209:判断所述第二正向分类概率集中的每个正向分类概率是否大于或等于第二预设分类阈值,如果所述正向分类概率大于或等于所述第二预设分类阈值,则执行步骤210。

同样,第二预设分类阈值可由工作人员预先进行设定,不同剩余分类标签对应的第二预设分类阈值可为同一个数值,也可为不同的数值。

步骤210:将所述正向分类概率对应的分类标签确定为所述待分类短文本所属的第二分类类别。

步骤211:将所有所述第二分类类别进行集合,得到第二分类类别集。

假设第二预设分类阈值为0.5,则第二正向分类概率集中大于或等于第二预设分类阈值的正向分类概率为“门未被撬0.9”,“撬保险柜0.8”和“踹门0.6”。则将“门未被撬”、“撬保险柜”和“踹门”确定为第二分类类别,从而得到第二分类类别集为{“门未被撬”,“撬保险柜”,“踹门”}。

步骤212:将所述第一分类类别和第二分类类别集合并,得到分类结果。

为了进一步优化分类结果,使分类结果更加精确,在本申请又一实施例中,引入分类互斥标签对,具体地,参见图3,本申请又一实施例提供了一种短文本多标签分类方法,包括如下步骤:

步骤301:获取标有分类标签的训练样本。

分类标签可由工作人员根据实际分类需求进行设定,例如,在公安领域,工作人员可将分类标签设置为“门未被撬”、“撬保险柜”和“抢劫”等,工作人员对训练样本逐条进行分类标签的标记,例如,训练样本为“回家发现被盗,门锁完好,家中保险柜被撬”,工作人员对该训练样本标记的分类标签为“门未被撬”和“撬保险柜”。

步骤302:根据所述训练样本的分类标签,计算得到分类互斥概率矩阵,所述分类互斥概率矩阵由每一个分类标签依次与其他分类标签中的一个分类标签在同一个训练样本出现的概率组成。

分类互斥概率矩阵可以反映出每两个分类标签同时出现在同一训练样本中的可能性。例如,所有分类标签为“门未被撬”、“撬保险柜”、“踹门”和“砸窗玻璃”,其根据每个训练样本的分类标签,可得到如下表所示的分类互斥矩阵。

分类互斥概率矩阵中概率值是由以下公式计算得出,

k=n1/n2,其中k为概率值,n1为含有两个分类标签的训练样本的数量,n2为含有这两个分类标签中任一分类标签的训练样本的总数量。计算得到后生成的分类互斥矩阵由工作人员进行审核,以防止由于训练样本的选取产生计算错误的情况产生。

例如,要计算“门未被撬”和“踹门”出现在同一训练文本中的概率值,首先统计同时含有“门未被撬”和“踹门”分类标签的训练文本的数量,再统计含有“门未被撬”或“踹门”的分类标签的训练文本的数量,从而利用上述公式计算得到同时出现的概率值。

步骤303:依次判断所述互斥概率矩阵中的每一个分类标签与其他分类标签中的一个分类标签在同一个训练样本出现的概率是否小于预设互斥阈值,若是,则执行步骤304。

步骤304:将所述概率对应的两个分类标签确定为分类互斥标签对。

预设互斥阈值可由工作人员预先设置,将小于预设互斥阈值的两个分类标签确定为分类互斥标签,以上述分类互斥矩阵为例,预设互斥阈值为0.4,则可以看出,“踹门”与“门未被撬”为分类互斥标签对。

应当说明的是,分类互斥标签对也可由工作人员根据实际情况直接设置。例如,根据常识,可直接将分类标签“门未被撬”与“撬锁”设置为分类互斥标签对。

工作人员可将通过步骤301~304得到的分类互斥标签对以及直接设置的分类互斥标签对存储在数据库中备用。

步骤305:获取待分类短文本。

短文本是相对于长文本而言比较短的文本,待分类短文本是需进行分类的短文本,例如,待分类短文本可以是公安领域中的报案信息,或者即时通讯应用中的状态信息,如qq社区的说说或者状态日志等,也可以是网页片段、短消息或者微博等。

步骤306:利用与分类标签对应的单分类模型,得到第一正向分类概率集,所述第一正向分类概率集由利用所述单分类模型计算得到的所述待分类短文本在不同分类标签中的正向分类概率及相应的分类标签组成。

每个分类标签均有相对应的单分类模型,即单分类模型的数量与分类标签的数量相同。正向分类概率是待分类短文本属于分类标签的类别的概率。单分类模型可采用现有的单分类器,本实施例不做限定。

利用单分类模型计算待分类短文本在不同分类标签中的正向分类概率,由待分类短文本在不同分类标签中的正向分类概率及相应的分类标签,得到第一正向分类概率集。

步骤307:将所述第一正向分类概率集中的正向分类概率由高到低排序。

步骤308:对排序前n个正向分类概率及其对应的分类标签进行提取,得到第一目标正向分类概率集。

例如,待分类短文本“回家发现被盗,门锁完好,家中保险柜被撬”经单分类模型处理后,得到第一正向分类概率集为{踹门0.048,撬保险柜0.11,门未被撬0.8,窗台有脚印0.026,破窗玻璃0.07,墙上挖洞0.0003}。然后,对第一正向分类概率集进行排序,得到排序后的第一正向分类概率集{门未被撬0.8,撬保险柜0.11,破窗玻璃0.07,踹门0.048,窗台有脚印0.026,墙上挖洞0.0003},再提取前n个正向分类概率及对应的分类标签,得到第一目标正向分类概率集,如n取4,则第一目标正向分类概率集为{门未被撬0.8,撬保险柜0.11,破窗玻璃0.07,踹门0.048}。

对第一正向分类概率集内的正向分类概率进行筛选,去除不符合预设条件的正向分类概率,仅保留符合预设条件的正向分类概率,可降低数据处理的数量,提高数据处理的速度。

步骤309:判断所述第一目标正向分类概率集中的每个正向分类概率是否大于或等于第一预设分类阈值,如果所述正向分类概率大于或等于所述第一预设分类阈值,则执行步骤310;如果所述正向分类概率小于所述第一预设分类阈值,则执行步骤311。

第一预设分类阈值可由工作人员预先进行设定,不同分类标签对应的第一预设分类阈值可为同一个数值,也可以是不同的数值,例如,分类标签“入室盗窃”和“抢劫”的第一预设分类阈值均为0.6,或者“入室盗窃”的第一预设分类阈值为0.8,“抢劫”的第一预设分类阈值为0.6,不同分类标签对应的正向分类概率与其对应的第一预设分类阈值进行比较。

步骤310:将所述正向分类概率对应的分类标签确定为所述待分类短文本所属的第一分类类别。

步骤311:将所述正向分类概率对应的分类标签确定为剩余分类标签。

例如,继续以步骤308的例子为例,假设各分类标签对应的第一预设分类阈值均为0.8,则第一目标正向分类概率集中,“门未被撬0.8”与第一预设分类阈值相等,则将“门未被撬”确定为待分类短文本的一个分类类别。同时,将小于第一预设分类阈值的正向分类概率对应的分类标签确定为剩余分类标签,即“撬保险柜”,“破窗玻璃”,“踹门”。

假设各分类标签对应的第一预设分类阈值均为0.85,则第一目标正向分类概率集中没有大于或等于第一预设分类阈值的正向分类概率,则第一目标正向分类概率集中所有的正向概率对应的分类标签均为剩余分类标签,即“门未被撬”,“撬保险柜”,“破窗玻璃”,“踹门”。

将第一目标正向分类概率集中的正向分类概率再次进行筛选,如果得到符合筛选条件的正向分类概率,则将该正向分类概率对应的分类标签确定为待分类短文本所属的第一分类类别,然后再将第一目标正向分类概率集中其他的正向分类概率进行后续处理,即可完成对待分类短文本的初始分类处理,减少后续数据处理的繁复性,提高数据处理的速度。

步骤312:利用多分类模型,对所述待分类短文本进行分类,得到第二正向分类概率集,所述多分类模型由剩余分类标签对应的二分类模型组成,所述第二正向分类概率集由利用所述多分类模型计算得到的所述待分类短文本在不同剩余分类标签中的正向分类概率及相应的剩余分类标签组成。

多分类模型由至少一个二分类模型组成,二分类模型的数量与剩余分类标签的数量相同,且一一对应,不同剩余分类标签对应的二分类模型可以相同,也可以不同。二分类模型用来计算待分类短文本属于其对应的分类标签类别的正向分类概率。二分类模型可采用现有的二分类模型,例如,logistic回归模型,logistic回归模型是现有的高效二分类器,多个二分类模型组成多分类模型,利用所述多分类模型计算得到待分类短文本在不同剩余分类标签中的正向分类概率。例如,上述待分类短文本“回家发现被盗,门锁完好,家中保险柜被撬”属于剩余分类标签“门未被撬”,“撬保险柜”,“破窗玻璃”,“踹门”的正向分类概率为“门未被撬0.9”,“撬保险柜0.8”,“破窗玻璃0.45”,“踹门0.6”,则第二分类概率集为{门未被撬0.9,撬保险柜0.8,破窗玻璃0.45,踹门0.6}。

步骤313:判断所述第二正向分类概率集中的每个正向分类概率是否大于或等于第二预设分类阈值,如果所述正向分类概率大于或等于所述第二预设分类阈值,则执行步骤314。

同样,第二预设分类阈值可由工作人员预先进行设定,不同剩余分类标签对应的第二预设分类阈值可为同一个数值,也可为不同的数值。

步骤314:提取所述正向分类概率及对应的分类标签,得到第二目标正向分类概率集。

假设各分类标签对应的第二预设分类阈值为0.5,则第二正向分类概率集中大于或等于第二预设分类阈值的正向分类概率,得到第二目标正向分类概率集为{门未被撬0.9,撬保险柜0.8,踹门0.6}。

步骤315:利用所述分类互斥标签对,判断所述第二目标正向分类概率集中是否存在分类互斥标签对,如果所述第二目标正向分类概率集中存在分类互斥标签对,则步骤316;如果所述第二目标正向分类概率集中不存在分类互斥标签对,则执行步骤317。

步骤316:去除所述分类互斥标签对中较小的正向分类概率所对应的分类标签,并将所述第二目标正向分类概率集中的剩余正向分类概率对应的分类标签确定为所述待分类短文本所属的第二分类类别。

由步骤302的例子可以看出,“门未被撬”和“踹门”为分类互斥标签对,因此,要去除该分类互斥标签对中正向分类概率较小的一个,即去除分类标签“踹门”,保留“门未被撬”,最后得到“门未被撬”和“撬保险柜”。

步骤317:将所述第二目标正向分类概率集中的所有正向分类概率对应的分类标签确定为所述待分类短文本所属的第二分类类别。

如果第二目标正向分类概率集中不存在分类互斥标签对,则可将所有正向分类概率对应的分类标签确定为待分类短文本所属的类别。

步骤318:将所有所述第二分类类别进行集合,得到第二分类类别集。

步骤319:将所述第一分类类别和第二分类类别集合并,得到分类结果。

由以上技术方案可知,本申请实施例提供了一种短文本标签分类方法,该方法先利用单分类模型对待分类短文本进行初始分类处理,然后再利用二分类模型组成的多分类模型对该待分类短文本进行二次分类处理,不仅可实现短文本的多分类处理,还可减少数据处理的繁复性,提高数据处理的速度。

参见图4,第二方面,本申请提供了一种短文本多标签分类装置,包括:

第一获取模块401,用于获取待分类短文本;

单分类模型计算模块402,用于利用与分类标签对应的单分类模型,得到第一正向分类概率集,所述第一正向分类概率集由利用所述单分类模型计算得到的所述待分类短文本在不同分类标签中的正向分类概率及相应的分类标签组成;

第一筛选模块403,用于对所述第一正向分类概率集内的正向分类概率进行筛选,得到第一目标正向分类概率集;

判断模块404,用于判断所述第一目标正向分类概率集中的每个正向分类概率是否大于或等于第一预设分类阈值,如果所述正向分类概率大于或等于所述第一预设分类阈值,则将所述正向分类概率对应的分类标签确定为所述待分类短文本所属的第一分类类别;

如果所述正向分类概率小于所述第一预设分类阈值,则将所述正向分类概率对应的分类标签确定为剩余分类标签;

多分类模型计算模块405,利用多分类模型,对所述待分类短文本进行分类,得到第二正向分类概率集,所述多分类模型由剩余分类标签对应的二分类模型组成,所述第二正向分类概率集由利用所述多分类模型计算得到的所述待分类短文本在不同剩余分类标签中的正向分类概率组成;

第二筛选模块406,用于对所述第二正向分类概率集中的正向分类概率进行筛选,得到第二分类类别集,所述第二分类类别集由筛选第二正向分类概率集后得到的正向分类概率对应的分类标签组成;

输出模块407,用于将所述第一分类类别和第二分类类别集进行合并,得到分类结果。

由以上技术方案可知,本申请实施例提供了一种短文本标签分类装置,先利用单分类模型对待分类短文本进行初始分类处理,然后再利用二分类模型组成的多分类模型对该待分类短文本进行二次分类处理,不仅可实现短文本的多分类处理,还可减少数据处理的繁复性,提高数据处理的速度。

进一步地,参见图5,所述第一筛选模快403包括:

排序单元501,用于将所述第一正向分类概率集中的正向分类概率由高到低排序;

提取单元502,用于对排序前n个正向分类概率及其对应的分类标签进行提取,得到第一目标正向分类概率集。

进一步地,参见图6,所述第二筛选模块406包括:

第一判断单元601,用于判断所述第二正向分类概率集中的每个正向分类概率是否大于或等于第二预设分类阈值,如果所述正向分类概率大于或等于所述第二预设分类阈值,则将所述正向分类概率对应的分类标签确定为所述待分类短文本所属的第二分类类别;

第一输出单元602,用于将所有所述第二分类类别进行集合,得到第二分类类别集。

进一步地,参见图7和图8,所述装置还包括:

第二获取模块701,用于获取分类互斥标签对;

所述第二筛选模块406包括:

筛选单元801,用于判断所述第二正向分类概率集中的每个正向分类概率是否大于或等于第二预设分类阈值,如果所述正向分类概率大于或等于所述第二预设分类阈值,则提取所述正向分类概率及对应的分类标签,得到第二目标正向分类概率集;

第二判断单元802,用于利用所述分类互斥标签对,判断所述第二目标正向分类概率集中是否存在分类互斥标签对,如果所述第二目标正向分类概率集中存在分类互斥标签对,则去除所述分类互斥标签对中较小的正向分类概率所对应的分类标签,并将所述第二目标正向分类概率集中的剩余正向分类概率对应的分类标签确定为所述待分类短文本所属的第二分类类别;

如果所述第二目标正向分类概率集中不存在分类互斥标签对,则将所述第二目标正向分类概率集中的所有正向分类概率对应的分类标签确定为所述待分类短文本所属的第二分类类别;

第二输出单元803,用于将所有所述第二分类类别进行集合,得到第二分类类别集。

进一步地,参见图7,所述第二获取模块701包括:

获取单元7011,用于获取标有分类标签的训练样本;

分类互斥概率矩阵计算单元7012,用于根据所述训练样本的分类标签,计算得到分类互斥概率矩阵,所述分类互斥概率矩阵由每一个分类标签依次与其他分类标签中的一个分类标签在同一个训练样本出现的概率组成;

分类互斥标签对确定单元7013,用于依次判断所述互斥概率矩阵中的每一个分类标签与其他分类标签中的一个分类标签在同一个训练样本出现的概率是否小于预设互斥阈值,若是,则将所述概率对应的两个分类标签确定为分类互斥标签对。

由以上技术方案可知,本申请实施例提供了一种短文本标签分类方法及装置,该方法先利用单分类模型对待分类短文本进行初始分类处理,然后再利用二分类模型组成的多分类模型对该待分类短文本进行二次分类处理,不仅可实现短文本的多分类处理,还可减少数据处理的繁复性,提高数据处理的速度。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以似的一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分可相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处,尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1