基于维数约简的集成迁移文本分类方法

文档序号:6400658阅读:357来源:国知局
专利名称:基于维数约简的集成迁移文本分类方法
技术领域
本发明属于计算机文本处理技术;特别是涉及迁移学习的文本分类技术,为一种基于维数约简的集成迁移文本分类方法。
背景技术
机器学习已经广泛的应用到各个领域中,并取得了丰硕的成果,但它还具有训练数据与测试数据分布的局限性,即要求训练数据和测试数据服从相同分布的条件,根据已有的标记样本建立分类模型,对测试样本进行分类预测。随着科学技术的飞速发展,人们每天都会收集大量的数据,其中,web网页文本数据是其中重要的一种,数据信息的更新也越来越快,常常导致数据过期,传统的机器学习算法需要从零开始,重新标注大量的训练文本数据,但是标注新数据需要耗费大量的财力、人力及物力,若丢弃掉那些大量的不同分布下的过期的训练数据也造成了资源的浪费。(I) 文本分类
文本分类是文本挖掘中的一个重要问题,是在给定的分类体系中,将大量的文本数据划分为两类或多类。文本分类的步骤主要包括获取训练文本,文本特征提取与表示,利用训练文本训练分类器,选择性能评价标准,为了保证文本分类的准确率,还包括测试文本的获取,测试问题的特征提取与表示,由训练分类器去预测测试文本的类别标签,并由性能评价标准评价分类器的性能。(2)迁移学习
迁移学习是一种新的机器学习框架,旨在将一个环境中的知识应用到新环境的领域与任务中。因此,迁移学习不需要服从数据同分布假设的条件。迁移学习(TransferLearning)是机器学习领域中崭新的分支,不再要求训练数据和测试数据服从同分布的假设,它强调的是在不同但相似领域、任务和分布间进行知识的迁移。在许多实际应用值,文本信息不仅数量庞大,包含的内容也在快速的变化更新,例如,web网页的内容经常变化主题。我们称目标任务的文本为目标域文本或新文本,称以往积累的大量的已分类的文本为源域文本或旧文本。如何最大限度地利用源域文本的分类信息,对目标域文本进行分类,成为一个急需解决的问题。迁移学习成为文本分类挖掘领域的热门研究方向。在大量的过期的源域文本数据作为训练文本的情况下,对新的目标域文本进行分类,往往不很很好的利用源域样本的信息,分类性能不理想。所以,通过文本数据重组后经维数约简并集成,可以充分利用降维后差异性变小源域样本,来对目标域文本分类。

发明内容
基于上述现有技术存在的问题,本发明提出了一种基于维数约简的集成迁移文本分类方法,针对训练文本中仅有大量旧的源域文本的情况,利用迁移学习思想解决文本二分类问题,能有效地提高分类的准确率。
具体实现步骤包括如下:
(I)输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:
Ia)统计每个文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为O ;
Ib)使用TF-1DF作为特征选取度量的方式,得到文本中词语的权重;
Ic)将权重作为样本特征值,得到每个文本样本的特征向量;
Id)将每一个特征向量形式的样本归一化,使得该向量的模值为单位I。(2)将提取到的特征输入到目标域测试样本集$和源域有标记的样本隼、其中,$和S中的样本数目分别为1和^。(3)对有标记的源域样本隼进行Boostrap随机采样得到相应的源域子集,并与目标域测试文本数据集重新组合成新的数据子集:
3a)设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定;
3b)以概率P从所述源域文本集Γ中有放回的随机选取源域样本子集巧= IU ,样本数目为4(〖=口,…=7 );
3d)将上步得到的源域子集分别与目标域样本隼巾组合成新的数据子集4(〗=I, 2,...Γ):為=A U $,其中矩阵為€ SFf M,每行表示一个样本向量,前4行表示源域样本,后a行表示目标域测试样本,则社=4^ ;
(4)分别将数据子集4中的两领域样本进行SVD奇异值分解:4τ= /ΣΙ^ ;
(5)将数据集為(I= 1,2,...7)投影到低维空间士(^1,2,...,Γ),得到降维后的数据集匕:K = ArU^t ;
(6)在低维空间乓(£=1,2,...,7)中,分别利用降维后的各数据子集中的源域样本对测试样本分类;
(7)检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤
3b);
(8)采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。有益效果
与现有技术相比,本发明在SVD的维数约简的基础上引入了源域文本与目标域文本重组集成的思想,与传统的分类方法相比,拉近了源域文本与目标域文本之间的差异性,并且充分利用文本重组集成带来多样性的优势,使得文本分类的效果更好。


图1为本发明的框架图;图2为本发明的基本流程图。具体实施措施
如图2所示,本发明的具体实施步骤如下:
步骤1.输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:
Ia)统计文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为O ; Ib)使用TF-1DF作为特征选取度量的方式,得到文本中词语的权重:
TF(Term Frequency)是指词语在某篇文本中出现的频率,频率越大,则该词语对于这篇文本的表示贡献越大,表示对文本中某一词语局部重要性的度量;IDFdnverseDocument Frequency)为倒排文本频率,表示某一词语在整个文本集中的分布情况,文本集中含有该词语的文本数量越少,则该词语越能区分文本的不同类别,IDF的计算公式为:
权利要求
1.一种基于维数约简的集成迁移文本分类方法,其特征在于:包括以下步骤 (1)输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式: Ia)统计每个文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为O ; Ib)使用TF-1DF作为特征选取度量的方式,得到文本中词语的权重; Ic)将权重作为样本特征值,得到每个文本样本的特征向量; Id)将每一个特征向量形式的样本归一化,使得该向量的模值为单位I ; (2)将提取到的特征输入到目标域测试样本隼〒和源域有标记的样本隼其中〒和5中的样本数目分别为; (3)对有标记的源域样本集^进行Boostrap随机采样得到相应的源域子集,并与目标域测试文本数据集重新组合成新的数据子集: 3a)设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定; 3b)以概率P从所述源域文本隼中有放回的随机选取源域样本子集=,样本数目为=; 3d)将上步得到的源域子集分别与目标域样本集组合成新的数据子集為(I = 1,2,...Τ): 為=Si ,其中矩阵4 e ,每行表示一个样本向量,前4行表示源域样本,后《行表示目标域测试样本,则《=4 ; (4)分别将数据子集4中的两领域样本进行SVD奇异值分解:4r= t/2l^ ; (5)将数据集為¢= 12,...7)投影到低维空间得到降维后的数据集:K = 4Γ^Σ ; (6)在低维空间2.,...7)中,分别利用降维后的各数据子隼(中的源域样本对测试样本分类; (7)检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤3b); (8)采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。
2.根据权利要求1所述的基于维数约简的集成迁移文本分类方法,其特征在于:步骤(6)中所述的利用降维后的各数据子集中的源域样本对测试样本分类,具体采取的分类方法如下 6a)在低维空间IfCi= I32,...,Γ)中,对于每个目标域测试样本#(1 = 1,2,...4),根据相似度衡量方法中的余弦夹角计算与各个源域样本40=1,2,JVs)间的相似度值,并将其作为对应源域样本的权重:6b)降相似度值降序排列,抽取相似度值最高的前免个源域样本;6c)用这、个样本对4 加权投票,得到预测的标签
全文摘要
本发明公开了一种基于维数约简的集成迁移文本分类方法,包括步骤1.入源域文本数据和目标域文本数据,进行预处理,将文本数据转化为单词向量形式;2.标记的源域数据集进行Boostrap随机采样遍,获取相应的个源域子集,再别与目标域测试样本组合成新的数据子集;3.个新的数据子集进行SVD分解并降维,投影到低维空间;4.低维空间中,采用近邻分类器作为基本分类器,由降维后的源域样本预测目标域测试样本的标签,每个测试样本得到个预测标签;5.多数投票的集成方式,得到测试文本数据的最终预测标签。本发明利用过期的源域样本对目标域文本分类,经维数约简后集成,大大提高了分类的正确率,并减少分类时间,降低分类复杂度。
文档编号G06F17/30GK103218405SQ20131009009
公开日2013年7月24日 申请日期2013年3月20日 优先权日2013年3月20日
发明者王爽, 焦李成, 刘婷婷, 李鹏, 侯彪, 刘芳 申请人:西安电子科技大学, 西安电子科技大学昆山创新研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1