一种基于置信度和聚类的未标记样本选择的方法

文档序号:6623295阅读:320来源:国知局
一种基于置信度和聚类的未标记样本选择的方法
【专利摘要】本发明公开了一种基于置信度和聚类的未标记样本选择的方法,首先将所有的未标记样本进行聚类,选择离簇边界比较近的样本,选出边界样本后,用已标记样本训练有监督的SVM分类器,并对选出的边界样本进行识别,选择不同置信度区间的未标记样本进行TSVM训练;得到样本的置信度后,定义某一阈值λ,选择置信度大于λ的未标记样本进入下一层的半监督学习,目的是使被选中的样本属于下一层分类器所对应类别的概率在上一层分类器的条件下最大;选取的未标记样本即能代表样本边界分布情况,又能使得每层选取的样本属于下一层分类器所对应类别的概率最大。
【专利说明】一种基于置信度和聚类的未标记样本选择的方法

【技术领域】
[0001] 本发明涉及机器学习和模式识别领域,具体地说是一种基于置信度和聚类的未标 记样本选择的方法。

【背景技术】
[0002] 目前,在有监督分类模型的学习中,一个普遍的问题是标记样本不足。原因是随着 数字内容采集制作技术的日益成熟,以及大容量存储器的廉价化,网络上的音频信息迅猛 增加,获取大量未标记的音频样例已经非常容易,但人工标注成本太高,造成了在很多音频 数据集中未标记样本的数量远大于已标记样本的数量的情况。如果只使用少量已标记样 本,有监督学习得到的分类模型很难具备好的泛化性能,同时,大量未标记样本中的信息也 无法得到充分利用,造成信息的浪费。在这种背景下,研究如何在少量已标记样本的条件下 综合利用大量的未标记样本来提高学习性能的半监督学习(Semi-supervised Learning) 引起了人们的重视,成为当前机器学习和模式识别的重要研究领域之一。
[0003] 半监督学习在实际问题中有着广泛的应用价值,其研究成果已经被应用于语音识 另IJ、图像识别与图像检索、视频标注、自然语言处理以及生物特征识别等领域。由于网络上 存在着大量的未标记音频文件,因而将半监督学习应用于复杂音频分类问题也就变得很自 然。
[0004] 目前,半监督学习中,人们关注的更多的是如何利用未标记样本,而对于哪些未标 记样本能帮助半监督学习的研究较少。例如Thorsten Joachims在文献中提出的TSVM学 习方法,证明了通过交换满足特定条件的两个未标记样本被预添加的标签,能够使支持向 量机的目标函数更加优化,该文献的实验表明,半监督学习器的分类性能随着未标记样本 数量的增加而不断提高。但是,在多次实验中,发现半监督音频分类器的分类性能并不是随 着未标记样本的增多不断提高,这表明在有限的已标记样本情况下,不是任意的未标记样 本对半监督学习都有帮助,半监督学习器的性能与加入的未标记样本有关。关于这一点, Aarti Singh等人也在文献[中指出并非任意的未标记样本都对半监督学习有帮助。针对 这一特殊问题,本发明提出一种基于置信度和聚类的未标记样本选择的方法算法,该算法 能够更好的利用未标记样本提高音频分类器的性能,并为半监督学习用于其它领域时进行 未标记样本选择提供了参考。


【发明内容】

[0005] 本发明目的是为克服上述不足,提供一种基于置信度和聚类的未标记样本选择的 方法,以便处理影视节目中的音频流文件,在影视节目中占多数时间的音频类型是语音,其 他的音频类型整体占有的时间片段相对比较短,因此,同样存在严重的数据不平衡问题。为 了减弱数据不平衡对分类性能造成的影响,本发明采用分层TSVM算法,并且提出一种半监 督学习中基于置信度和聚类的未标记样本选择的方法算法。
[0006] 本发明所采用的技术方案是:一种基于置信度和聚类的未标记样本选择的方法, 采用的是分层TSVM分类器,采用基于置信度和聚类的未标记样本选择的方法算法,用于改 善TSVM算法的性能,用于TSVM学习的未标记样本是从大量的未标记样本中选出的,这些未 标记样本需要满足特定的条件才能提高半监督学习器的性能,首先将所有的未标记样本进 行聚类,选择离簇边界比较近的样本,选出边界样本后,用已标记样本训练有监督的SVM分 类器,并对选出的边界样本进行识别,选择不同置信度区间的未标记样本进行TSVM训练。 得到样本的置信度后,定义某一阈值,选择置信度大于的未标记样本进入下一层的半监督 学习,目的是使被选中的样本属于下一层分类器所对应类别的概率在上一层分类器的条件 下最大。选取的未标记样本即能代表样本边界分布情况,又能使得每层选取的样本属于下 一层分类器所对应类别的概率最大。
[0007] 所述的未标记样本满足的条件以及选择方法如下:
[0008] (1)本发明采用分层TSVM分类器,在每一层训练两个TSVM分类器,加入半监督学 习的样本,应该分别属于每个分类器所对应的相应类别。
[0009] 第一层,在静音和非静音的半监督学习中,所有的未标记样本均属于这两个类别。 因此,所有的未标记样本均满足上述条件。
[0010] 第一层的分类器训练完毕后,得到两个分支,假设左分支为正类,右分支为负类, 对每一个分支选择属于该分支的样本。选择的方法是,定义样本X属于某个类别的置信度 Con(X),假设第一层训练得到的分类面为f(x),利用该分类面对所有的未标记样本重新识 另|J,则X相对于分类面f(x)属于某一类的置信度可以用X属于该类的概率表示,本发明采 用Linetal.对Platt概率输出的一种改进算法进行概率估计,即:

【权利要求】
1. 一种基于置信度和聚类的未标记样本选择的方法,其特征在于,采用分层TSVM分类 器和基于置信度和聚类的未标记样本选择的方法;具体包括: 首先将所有的未标记样本进行聚类,选择离簇边界比较近的样本,选出边界样本后,用 已标记样本训练有监督的SVM分类器,并对选出的边界样本进行识别,选择不同置信度区 间的未标记样本进行TSVM训练;得到样本的置信度后,定义某一阈值λ,选择置信度大于 λ的未标记样本进入下一层的半监督。
2. 根据权利要求1所述的半监督学习中基于置信度和聚类的未标记样本选择的方法, 其特征在于,未标记样本满足的条件以及选择方法如下: 采用分层TSVM分类器,在每一层训练两个TSVM分类器,加入半监督学习的样本,分别 属于每个分类器所对应的相应类别; 第一层,在静音和非静音的半监督学习中,所有的未标记样本均属于这两个类别;因 此,所有的未标记样本均满足上述条件; 第一层的分类器训练完毕后,得到两个分支,左分支为正类,右分支为负类,对每一个 分支选择属于该分支的样本;选择的方法是,定义样本X属于某个类别的置信度Con (X),第 一层训练得到的分类面为f(x),利用该分类面对所有的未标记样本重新识别,则X相对于 分类面f(x)属于某一类的置信度用X属于该类的概率表示,采用Lin et al.对Platt概 率输出的一种改进算法进行概率估计,即:
(5-5) 其中,A和B通过训练数据和分类结果f(x)共同决定; 得到样本的置信度后,定义某一阈值λ,选择置信度大于λ的未标记样本进入下一层 的半监督学习; TSVM分类器本质上还是SVM分类器,选择未标记样本时,选择支持向量机附近的样本 对分类器的训练更有帮助;这里,为了在未标记样本中,更多的选择边界样本,同样是通过 聚类的方法实现。
3. 根据权利要求2所述的半监督学习中基于置信度和聚类的未标记样本选择的方法, 其特征在于,所述的其它层选择未标记样本时,只对米用分层TSVM分类器中选出的未标记 样本进行聚类,即用上一层TSVM分类器选出的高置信度样本进行聚类,选择离簇边界近的 样本,然后,用当前层的已标记样本训练有监督的SVM分类器;并对选出的边界样本进行识 另IJ,选择不同置信度区间的未标记样本进行TSVM训练。
4. 根据权利要求2所述的半监督学习中基于置信度和聚类的未标记样本选择的方法, 其特征在于,样点分配算法,不需要在每次迭代时都计算簇中心;算法如下: 在第n-1次迭代时聚类结果为:CX产》= K表示聚类后得 到的簇的个数,表示每个簇的集合,
Nk表示第k个簇包含样本的数目;则在第η次重新分配样本时,对样本\,计算下式:
在第η次迭代时,样本点Xi所属的簇k #为:
对簇中的每一个样点分配所属的簇标号;通过上述方法迭代分 配样点时,不需要计算每一个簇的中心;只是在迭代终止时,通过公式
计算最终的簇中心即可。
5. 根据权利要求4所述的半监督学习中基于置信度和聚类的未标记样本选择的方法, 其特征在于,针对判别式模型分类器的有用样本选择算法; 与生成式模型分类器类似,dF (i,k),表示F空间内样本点到簇中心的距离;即在F空间 内的第k个簇中,样本Xi到簇中心的距离为:
(31) 其中,Ck表示D维空间内第k的簇的簇中心; 统计簇内所有样点到簇中心的距离,并找到最大的距离作为簇的半径,即
;给定一实数λ,λ e [〇,1],以为半径划分簇,在离簇中心距离
靠近簇边界的区域内采样Mk个点,作为判别式模型分类器的有用样点, Mk的确定方法与生成式模型中相同;将判别式模型中样本选择的流程描述如下: 计算核空间半径;对每一个簇k,ke [1,N],计算簇内每一个样本clt_ski,ie [l,Nk], 与簇中心之间的距离dF(i,k),并找出最大半径; 簇的划分;给定一实数λ,λ e [〇, 1],将第k个簇,k e [l,N],以沩半径划分
簇; 选取样点;对于每一个簇,在簇内离簇中心 的范围内随机采样Mk 个样本,按照公式(23)
,Nk为簇中所有样本个数。
6. 根据权利要求1所述的半监督学习中基于置信度和聚类的未标记样本选择的方法, 其特征在于,所述的第一层分类器选择未标记样本时,首先将所有的未标记样本进行聚类, 按照SVM分类器选择待标记样本的方法,选择离簇边界比较近的样本,选出边界样本后, 用已标记样本训练有监督的SVM分类器,并对选出的边界样本进行识别,选择不同置信度 区间的未标记样本进行TSVM训练;按照置信度区间的不同,将未标记样本选择算法分为: 高置信度选择、低置信度选择与中置信度选择;高置信度选择是指选择高于某一置信度阈 值的未标记样本;低置信度选择是指选择低于某一置信度阈值的未标记样本;中置信度选 择,是指选择置信度位于两个阈值之间的未标记样本。
7. 根据权利要求1所述的半监督学习中基于置信度和聚类的未标记样本选择的方法, 其特征在于,聚类算法,采用K-means聚类算法,根据数据的相似性将数据划分为预定的K 个部分,并找到每一部分的中心点,为了与分类中的类分开,将这K个部分称为K个簇,每一 部分的中心点称为簇中心; 使得簇中所有样本点之间的相似性之和最大,当采用欧式距离时,基于误差平方和准 则的聚类目标函数如下:
其中, K,表示簇的个数; Nk,表示第k个簇包含样本的数目,满足:
,N为参加聚类样本的数目; Xi,表示样本的特征矢量; mk,表示第k个簇的簇中心,即第k个簇的均值,计算公式如下:
8. 根据权利要求7所述的半监督学习中基于置信度和聚类的未标记样本选择的方法, 其特征在于,聚类的目的是寻找使得每一个簇中的样本与簇中心距离之和最小的分配,求 解目标函藝
的步骤为: 第一步,初始化,输入待聚类样本集S以及聚类的数目K,在S中随机选取K个样本作为 初始聚类中心,设置迭代终止条件,最大循环次数或者收敛误差阈值; 第二步,分配,对每一个样本Xi,根据相似度准则找到与它距离最近的簇中心1?,并分 配给该簇; 第三步,更新簇中心,对于每一个簇,重新计算簇中所有样本的平均矢量作为新的簇中 心; 第四步,重复第二步和第三步直至满足终止条件。
【文档编号】G06F17/30GK104156438SQ201410395794
【公开日】2014年11月19日 申请日期:2014年8月12日 优先权日:2014年8月12日
【发明者】王荣燕, 谢延红 申请人:德州学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1