一种融合双信息源的文本多标签分类方法与流程

文档序号:11250979阅读:746来源:国知局

本发明涉及一种数据挖掘处理技术领域,尤其是一种融合双信息源的文本多标签分类方法。



背景技术:

分类问题是数据挖掘、机器学习、自然语言处理等领域的重要问题,然而多标签分类问题相对于单标签分类更贴近实际需要,例如,对新闻文本读者情绪分类,不同的读者在阅读新闻文本后可能产生不同的情绪甚至同一个读者也可能同时产生多种情绪,如“悲伤”、“愤怒”等多个标签,文本多标签分类有很多实际应用需求,例如:对文章的主题分类可以用于个性化推荐,对新闻、微博等文本的情绪分类有利于舆情监控,对产品评论的分类有益于产品的销售等,对这些文本数据分类需要利用和挖掘尽量多的信息,融合多种信息有利于提高分类器的准确率,对于文本多标签分类,主要存在以下问题:

1、由于文本数据有成千上万个词汇,高维度数据处理相对复杂;

2、由于这些文本数据往往具有多种信息源,具有不同的特点和特征,从不同的角度解读着标签信息,例如,针对新闻的读者情绪分类,不仅有新闻文本信息,同时还有评论信息、主题信息等,现有技术中对于融合多类型信息效果不明显,分类器分类效果较差;

3、特征的提取对分类器性能提升有着至关重要的作用,现有技术对于有效特征的提取不准确。

4、由于真实的数据的多标签特性往往隐含着标签之间的特殊相关性,同时也导致了不同标签间数据的不平衡性,某些标签语料充足,某些标签语料则十分少,多标签特性对传统分类器依赖性较大。

现有的方法,一般是针对不同信息源分别构建分类器,通过采用加权求和和规则来融合两个分类器的输出,即通过求后验概率的加权和来实现两个分类器的融合,但该方法无法有效利用不同信息源、以及不同标签之间的相关性,还有通过直接将多种信息源文本简单的拼接在一起作为特征输入进行分类,然而这种方法忽略了不同的信息源有不同的特征空间,过于简单粗暴,无法将两种文本信息源的特征、标签相关信息进行有机融合、实现高效的多标签分类。



技术实现要素:

针对现有技术的不足,本发明提供一种能够有效融合双信息源的文本多标签分类方法。

本发明的技术方案为:一种融合双信息源的文本多标签分类方法,其特征在于,包括以下步骤:

s1)、从网络爬取文本数据作为训练文本数据;

s2)、并对获取的训练文本数据进行预处理,踢除不需要的数据,保留有用的文本,将每篇文本数据按不同信息源分成信息源一和信息源二,然后分别将n篇文本数据的信息源一存入训练信息源一中,将信息源二存入训练信息源二中;

s3)、采用空间向量模型将每篇文本数据的信息源一和信息源二分别采用所需的特征项及其对应的特征项权重表示,即:

rk=(t1,w1;t2,w2;...tn,wn),

tk=(s1,v1;s2,v2;...sm,vm),

其中,ti、wi分别表示第k篇文本数据的信息源一的第i个特征项和对应的权重,si、vi表示第k篇文本数据的信息源二的第i个特征项和对应的权重,

然后将特征项、特征项权重表示的训练信息源一和训练信息源二向量化得到特征矩阵x1、x2;

s4)、基于将数据映射到低维空间最小化重构误差保留尽可能多的信息的原理,同时结合标签和标签之间的相关性,构建融合不同视角和特点与多个信息源融合的文本多标签分类模型,即优化如下带约束目标函数:

min:α1||x1-v1a||2+α2||x2-v2b||2+(1-α1-α2)||y-γv1c-(1-γ)v2d||2

其中,y为多标签矩阵,α1,α2,(1-α1-α2)∈(0,1),γ∈(0,1)是调节参数,a、b、c、d、v1、v2均为线性映射过程中的参数,t为转置,i为单位矩阵,并且令c*=γc,d*=(1-γ)d;

s5)、将a、b、c、d的最优解代入到模型中,并加入线性约束和正则项,将s3)中的目标函数等价变换成以下计算式,计算前k个最大的特征值对应的特征向量,具体为:

其中,

从而得到训练信息源一前k个特征向量组成的矩阵w1=(w1,w2,...wk)和训练信息源二的前j个特征向量组成的矩阵w2=(v1,v2,...vj),从而得到训练好的双信息源的文本多标签分类模型;

s6)、获取需要预测的测试文本数据,并按照步骤s2、s3)进行对待预测数据进行预处理和向量化得到相应的特征矩阵,然后输入到训练好的双信息源的文本多标签分类模型,预测得到测试文本数据的分类标签结果。

本发明的有益效果为:设计合理、计算简单、预测准确,通过将具有不同视角和特点的两种信息源融合在模型中,提高了分类的准确性,避免了现有技术中分别对数据源构建分类器,再对多标签分类结果进行融合,导致忽略不同信息源之间、不同标签的相关性的问题,以及直接将信息源拼接作为特征输入,导致忽略了不同信息源有着不同的特征空间的问题,另外,通过将模型的求解过程转换成特征值的求解,不仅进一步简化了计算过程,而且还进一步提高了模型训练效率。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明:

如图1所示,一种融合双信息源的文本多标签分类方法,其特征在于,包括以下步骤:

s1)、从网络爬取所需要的文本数据作为训练文本数据;

s2)、并对获取的训练文本数据进行预处理,踢除不必要的数据,保留所需文本,将每篇文本数据按不同信息源分成信息源一和信息源二,将然后分别将n篇文本数据的信息源一存入训练信息源一中,将信息源二存入训练信息源二中;

例如,若获取的文本数据为新闻数据,数据中既有新闻内容也有新闻评论,其中新闻内容和信息评论即为两个不同的数据源,将新闻内容划分为信息源一,将新闻评论划分为信息源二,然后将n篇新闻的新闻内容存入训练信息源一中,将n篇新闻的新闻评论存入训练信息源二中;

s3)、采用空间向量模型将每篇文本数据的信息源一和信息源二分别采用所需的特征项及其对应的特征项权重表示,即:

rk=(t1,w1;t2,w2;...tn,wn),

tk=(s1,v1;s2,v2;...sm,vm),

其中,ti、wi分别表示第k篇文本数据的信息源一的第i个特征项和对应的权重,si、vi表示第k篇文本数据的信息源二的第i个特征项和对应的权重,

然后将特征项、特征项权重表示的训练信息源一和训练信息源二向量化得到特征矩阵x1、x2;

s4)、基于将数据映射到低维空间最小化重构误差保留尽可能多的信息的原理,同时结合标签和标签之间的相关性,构建融合不同视角和特点的多个信息源融合的文本多标签分类模型,即优化如下带约束目标函数:

min:α1||x1-v1a||2+α2||x2-v2b||2+(1-α1-α2)||y-γv1c-(1-γ)v2d||2

其中,y为多标签矩阵,α1,α2,(1-α1-α2)∈(0,1),γ∈(0,1)为调节参数,a、b、c、d、v1、v2为均为线性映射过程中的参数,t为转置,i为单位矩阵,令c*=γc,d*=(1-γ)d;

s5)、将a、b、c、d的最优解代入到模型中,并加入线性约束和正则项,从而将s3)中的目标函数等价变换成以下计算式,计算前k个最大的特征值对应的特征向量,具体为:

其中,

从而得到训练信息源一前k个特征向量组成的矩阵w1=(w1,w2,...wk)和训练信息源二的前j个特征向量组成的矩阵w2=(v1,v2,...vj),从而得到训练好的双信息源的文本多标签分类模型;

s6)、获取需要预测的测试文本数据,并按照步骤s2、s3)对待预测数据进行预处理和向量化得到相应的测试数据源一、测试数据源二对应的特征矩阵x1test、x2test,并根据ypredit=x1test×w1×c*+x2test×w2×d*,得到待预测文本数据的预测结果ypredit;

根据预测结果ypredit判断待测试文本数据的类别,其中,包括8个类别,每个预测文本数据可包括多个类别,若在相应类别下的预测结果为正,则判定该预测文本属于该相应类别,若在相应类别下的预测结果为负,则判定该预测文本不属于该相应类别,例如:若8个类别分别记为[1、2、3、4、5、6、7、8],若一个预测文本数据的预测结果ypredit在类别1、4、5、6、7下均为正数,在类别2、3、8下均为负数,则该预测文本数据的类别为类别1、4、5、6、7。

进一步地,所述的权重可以是词频,也可以是tf-idf值;

进一步地,所述的特征项为经过χ2统计量、互信息等刷选后的特征项;

进一步地,根据得到参数a、b的最优解;

进一步地,根据特征向量矩阵w1和w2,得到参数v1、v2,具体为:v1=x1w1,v2=x2w2;

进一步地,根据参数v1、v2,得到c*、d*,具体为

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1