一种基于置信度和聚类的未标记样本选择的方法

文档序号：6623295阅读：320来源：国知局

一种基于置信度和聚类的未标记样本选择的方法
【专利摘要】本发明公开了一种基于置信度和聚类的未标记样本选择的方法，首先将所有的未标记样本进行聚类，选择离簇边界比较近的样本，选出边界样本后，用已标记样本训练有监督的SVM分类器，并对选出的边界样本进行识别，选择不同置信度区间的未标记样本进行TSVM训练；得到样本的置信度后，定义某一阈值λ，选择置信度大于λ的未标记样本进入下一层的半监督学习，目的是使被选中的样本属于下一层分类器所对应类别的概率在上一层分类器的条件下最大；选取的未标记样本即能代表样本边界分布情况，又能使得每层选取的样本属于下一层分类器所对应类别的概率最大。
【专利说明】一种基于置信度和聚类的未标记样本选择的方法

【技术领域】
[0001] 本发明涉及机器学习和模式识别领域，具体地说是一种基于置信度和聚类的未标记样本选择的方法。

【背景技术】
[0002] 目前，在有监督分类模型的学习中，一个普遍的问题是标记样本不足。原因是随着数字内容采集制作技术的日益成熟，以及大容量存储器的廉价化，网络上的音频信息迅猛增加，获取大量未标记的音频样例已经非常容易，但人工标注成本太高，造成了在很多音频数据集中未标记样本的数量远大于已标记样本的数量的情况。如果只使用少量已标记样本，有监督学习得到的分类模型很难具备好的泛化性能，同时，大量未标记样本中的信息也无法得到充分利用，造成信息的浪费。在这种背景下，研究如何在少量已标记样本的条件下综合利用大量的未标记样本来提高学习性能的半监督学习（Semi-supervised Learning) 引起了人们的重视，成为当前机器学习和模式识别的重要研究领域之一。
[0003] 半监督学习在实际问题中有着广泛的应用价值，其研究成果已经被应用于语音识另IJ、图像识别与图像检索、视频标注、自然语言处理以及生物特征识别等领域。由于网络上存在着大量的未标记音频文件，因而将半监督学习应用于复杂音频分类问题也就变得很自然。
[0004] 目前，半监督学习中，人们关注的更多的是如何利用未标记样本，而对于哪些未标记样本能帮助半监督学习的研究较少。例如Thorsten Joachims在文献中提出的TSVM学习方法，证明了通过交换满足特定条件的两个未标记样本被预添加的标签，能够使支持向量机的目标函数更加优化，该文献的实验表明，半监督学习器的分类性能随着未标记样本数量的增加而不断提高。但是，在多次实验中，发现半监督音频分类器的分类性能并不是随着未标记样本的增多不断提高，这表明在有限的已标记样本情况下，不是任意的未标记样本对半监督学习都有帮助，半监督学习器的性能与加入的未标记样本有关。关于这一点， Aarti Singh等人也在文献[中指出并非任意的未标记样本都对半监督学习有帮助。针对这一特殊问题，本发明提出一种基于置信度和聚类的未标记样本选择的方法算法，该算法能够更好的利用未标记样本提高音频分类器的性能，并为半监督学习用于其它领域时进行未标记样本选择提供了参考。

【发明内容】

[0005] 本发明目的是为克服上述不足，提供一种基于置信度和聚类的未标记样本选择的方法，以便处理影视节目中的音频流文件，在影视节目中占多数时间的音频类型是语音，其他的音频类型整体占有的时间片段相对比较短，因此，同样存在严重的数据不平衡问题。为了减弱数据不平衡对分类性能造成的影响，本发明采用分层TSVM算法，并且提出一种半监督学习中基于置信度和聚类的未标记样本选择的方法算法。
[0006] 本发明所采用的技术方案是：一种基于置信度和聚类的未标记样本选择的方法，采用的是分层TSVM分类器，采用基于置信度和聚类的未标记样本选择的方法算法，用于改善TSVM算法的性能，用于TSVM学习的未标记样本是从大量的未标记样本中选出的，这些未标记样本需要满足特定的条件才能提高半监督学习器的性能，首先将所有的未标记样本进行聚类，选择离簇边界比较近的样本，选出边界样本后，用已标记样本训练有监督的SVM分类器，并对选出的边界样本进行识别，选择不同置信度区间的未标记样本进行TSVM训练。得到样本的置信度后，定义某一阈值，选择置信度大于的未标记样本进入下一层的半监督学习，目的是使被选中的样本属于下一层分类器所对应类别的概率在上一层分类器的条件下最大。选取的未标记样本即能代表样本边界分布情况，又能使得每层选取的样本属于下一层分类器所对应类别的概率最大。
[0007] 所述的未标记样本满足的条件以及选择方法如下：
[0008] (1)本发明采用分层TSVM分类器，在每一层训练两个TSVM分类器，加入半监督学习的样本，应该分别属于每个分类器所对应的相应类别。
[0009] 第一层，在静音和非静音的半监督学习中，所有的未标记样本均属于这两个类别。因此，所有的未标记样本均满足上述条件。
[0010] 第一层的分类器训练完毕后，得到两个分支，假设左分支为正类，右分支为负类，对每一个分支选择属于该分支的样本。选择的方法是，定义样本X属于某个类别的置信度 Con(X)，假设第一层训练得到的分类面为f(x)，利用该分类面对所有的未标记样本重新识另|J，则X相对于分类面f(x)属于某一类的置信度可以用X属于该类的概率表示，本发明采用Linetal.对Platt概率输出的一种改进算法进行概率估计，即：

【权利要求】
1. 一种基于置信度和聚类的未标记样本选择的方法，其特征在于，采用分层TSVM分类器和基于置信度和聚类的未标记样本选择的方法；具体包括：首先将所有的未标记样本进行聚类，选择离簇边界比较近的样本，选出边界样本后，用已标记样本训练有监督的SVM分类器，并对选出的边界样本进行识别，选择不同置信度区间的未标记样本进行TSVM训练；得到样本的置信度后，定义某一阈值λ，选择置信度大于 λ的未标记样本进入下一层的半监督。
2. 根据权利要求1所述的半监督学习中基于置信度和聚类的未标记样本选择的方法，其特征在于，未标记样本满足的条件以及选择方法如下：采用分层TSVM分类器，在每一层训练两个TSVM分类器，加入半监督学习的样本，分别属于每个分类器所对应的相应类别；第一层，在静音和非静音的半监督学习中，所有的未标记样本均属于这两个类别；因此，所有的未标记样本均满足上述条件；第一层的分类器训练完毕后，得到两个分支，左分支为正类，右分支为负类，对每一个分支选择属于该分支的样本；选择的方法是，定义样本X属于某个类别的置信度Con (X)，第一层训练得到的分类面为f(x)，利用该分类面对所有的未标记样本重新识别，则X相对于分类面f(x)属于某一类的置信度用X属于该类的概率表示，采用Lin et al.对Platt概率输出的一种改进算法进行概率估计，即：
(5-5) 其中，A和B通过训练数据和分类结果f(x)共同决定；得到样本的置信度后，定义某一阈值λ，选择置信度大于λ的未标记样本进入下一层的半监督学习； TSVM分类器本质上还是SVM分类器，选择未标记样本时，选择支持向量机附近的样本对分类器的训练更有帮助；这里，为了在未标记样本中，更多的选择边界样本，同样是通过聚类的方法实现。
3. 根据权利要求2所述的半监督学习中基于置信度和聚类的未标记样本选择的方法，其特征在于，所述的其它层选择未标记样本时，只对米用分层TSVM分类器中选出的未标记样本进行聚类，即用上一层TSVM分类器选出的高置信度样本进行聚类，选择离簇边界近的样本，然后，用当前层的已标记样本训练有监督的SVM分类器；并对选出的边界样本进行识另IJ，选择不同置信度区间的未标记样本进行TSVM训练。
4. 根据权利要求2所述的半监督学习中基于置信度和聚类的未标记样本选择的方法，其特征在于，样点分配算法，不需要在每次迭代时都计算簇中心；算法如下：在第n-1次迭代时聚类结果为：CX产》= K表示聚类后得到的簇的个数，表示每个簇的集合，
Nk表示第k个簇包含样本的数目；则在第η次重新分配样本时，对样本\，计算下式：
在第η次迭代时，样本点Xi所属的簇k #为：
对簇中的每一个样点分配所属的簇标号；通过上述方法迭代分配样点时，不需要计算每一个簇的中心；只是在迭代终止时，通过公式
计算最终的簇中心即可。
5. 根据权利要求4所述的半监督学习中基于置信度和聚类的未标记样本选择的方法，其特征在于，针对判别式模型分类器的有用样本选择算法；与生成式模型分类器类似，dF (i，k)，表示F空间内样本点到簇中心的距离；即在F空间内的第k个簇中，样本Xi到簇中心的距离为：
(31) 其中，Ck表示D维空间内第k的簇的簇中心；统计簇内所有样点到簇中心的距离，并找到最大的距离作为簇的半径，即
;给定一实数λ，λ e [〇，1]，以为半径划分簇，在离簇中心距离
靠近簇边界的区域内采样Mk个点，作为判别式模型分类器的有用样点， Mk的确定方法与生成式模型中相同；将判别式模型中样本选择的流程描述如下：计算核空间半径；对每一个簇k，ke [1，N]，计算簇内每一个样本clt_ski，ie [l，Nk]，与簇中心之间的距离dF(i，k)，并找出最大半径; 簇的划分；给定一实数λ，λ e [〇, 1]，将第k个簇，k e [l，N]，以沩半径划分
簇；选取样点；对于每一个簇，在簇内离簇中心的范围内随机采样Mk 个样本，按照公式（23)
，Nk为簇中所有样本个数。
6. 根据权利要求1所述的半监督学习中基于置信度和聚类的未标记样本选择的方法，其特征在于，所述的第一层分类器选择未标记样本时，首先将所有的未标记样本进行聚类，按照SVM分类器选择待标记样本的方法，选择离簇边界比较近的样本，选出边界样本后，用已标记样本训练有监督的SVM分类器，并对选出的边界样本进行识别，选择不同置信度区间的未标记样本进行TSVM训练；按照置信度区间的不同，将未标记样本选择算法分为：高置信度选择、低置信度选择与中置信度选择；高置信度选择是指选择高于某一置信度阈值的未标记样本；低置信度选择是指选择低于某一置信度阈值的未标记样本；中置信度选择，是指选择置信度位于两个阈值之间的未标记样本。
7. 根据权利要求1所述的半监督学习中基于置信度和聚类的未标记样本选择的方法，其特征在于，聚类算法，采用K-means聚类算法，根据数据的相似性将数据划分为预定的K 个部分，并找到每一部分的中心点，为了与分类中的类分开，将这K个部分称为K个簇，每一部分的中心点称为簇中心；使得簇中所有样本点之间的相似性之和最大，当采用欧式距离时，基于误差平方和准则的聚类目标函数如下：
其中， K，表示簇的个数； Nk，表示第k个簇包含样本的数目，满足：
，N为参加聚类样本的数目； Xi，表示样本的特征矢量； mk，表示第k个簇的簇中心，即第k个簇的均值，计算公式如下：
8. 根据权利要求7所述的半监督学习中基于置信度和聚类的未标记样本选择的方法，其特征在于，聚类的目的是寻找使得每一个簇中的样本与簇中心距离之和最小的分配，求解目标函藝
的步骤为：第一步，初始化，输入待聚类样本集S以及聚类的数目K，在S中随机选取K个样本作为初始聚类中心，设置迭代终止条件，最大循环次数或者收敛误差阈值；第二步，分配，对每一个样本Xi，根据相似度准则找到与它距离最近的簇中心1?，并分配给该簇；第三步，更新簇中心，对于每一个簇，重新计算簇中所有样本的平均矢量作为新的簇中心；第四步，重复第二步和第三步直至满足终止条件。
【文档编号】G06F17/30GK104156438SQ201410395794
【公开日】2014年11月19日申请日期:2014年8月12日优先权日:2014年8月12日
【发明者】王荣燕, 谢延红申请人:德州学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王荣燕;谢延红
技术所有人：德州学院
我是此专利的发明人

上一篇：一种在国产化计算机上实现多屏显示的方法及系统的制作方法
上一篇：数据库操作方法、装置及服务器的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。