用于音频事件分类的半监督学习高置信度样本挖掘方法

文档序号：9350401阅读：506来源：国知局

用于音频事件分类的半监督学习高置信度样本挖掘方法
【技术领域】
[0001] 本发明涉及一种用于音频事件分类的半监督学习高置信度样本挖掘方法。
【背景技术】
[0002] 音频事件分类是指从音频文档中识别出其中包含的各种类型的音频事件。音频事件分类是当前的研究热点。制约音频事件分类技术发展的一个瓶颈问题是样本的标注问题。音频事件分类在训练阶段通常需要大量的已标注样本参与训练，而手工样本标注非常耗费时间和精力，甚至在有些情况下由于训练样本太多，完全依靠手工标注变得不切实际。
[0003] 为了解决音频事件分类中的样本标注问题，一方面可以通过主动学习技术来减少手工标注的工作量。支持向量机（SupportVectorMachines,SVM)二值分类器在小样本、非线性、高维模式识别中具有独特优势，而关于支持向量机的主动学习技术也得到了广泛的关注。在支持向量机主动学习技术中，一类方法是在主动学习的每轮迭代中挑选支持向量机分类边界（margin)内的未标注样本进行手工标注，因为这类样本是支持向量的概率大，因而信息含量高。主动学习由于挑选信息含量高的样本进行标注，因此能一定程度上降低手工标注工作量，但其仍然需要人的参与，而实际应用中，标注员标注样本的精力是有限的。
[0004] 主动学习技术在迭代过程中需要人的参与，而半监督学习技术在迭代过程中则不需要人的参与。半监督学习技术在每轮迭代中挑选高置信度的样本由机器自动标注。假设标注员标注样本的数量是确定的，对于那些挖掘支持向量机分类边界内的未标注样本的主动学习技术，如果在主动学习标注了确定数量的未标注样本之后，能利用半监督学习技术继续挖掘这类未标注样本，则能在不增加额外手工标注工作量的前提下继续增强分类器的分类性能。
[0005] 在每轮迭代中，用半监督学习技术对支持向量机分类边界内的未标注样本进行自动标注时，由于分类边界内的未标注样本距离分类超平面近，分类器对其分类置信度较低，因而如何确定分类边界内未标注样本的置信度，进而挖掘高置信度的样本是半监督学习所要解决的一大难题。

【发明内容】

[0006] 本发明为了解决上述问题，提出了一种用于音频事件分类的半监督学习高置信度样本挖掘方法，该方法在主动学习标注了确定数量的未标注音频事件样本之后，基于以下三个原则确定分类边界内未标注音频事件样本的置信度：1)平滑假设；2)挖掘的正类样本、负类样本应分别和已标注的正类样本、已标注的负类样本尽可能相似；3)挖掘的正类样本、负类样本应分别和已标注的负类样本、已标注的正类样本尽可能不同。三个原则为未标注音频事件样本的正确标注提供了三重保障，因而能成功地为半监督学习挖掘到高置信度的未标注音频事件样本。
[0007] 为了实现上述目的，本发明采用如下技术方案：
[0008] -种用于音频事件分类的半监督学习高置信度样本挖掘方法，包括以下步骤：
[0009] 步骤（1):输入已标注音频事件样本集L、未标注音频事件样本集U和支持向量机分类器；
[0010] 步骤（2):用已标注音频事件样本集L中标注为正类的样本组成样本集L+，用未标注音频事件样本集U和样本集L+组成包含未标注音频事件样本和已标注的正类音频事件样本的数据集Dl，用Dl内的样本估计未标注音频事件样本的正类置信度；
[0011]步骤（3):用已标注音频事件样本集L中标注为负类的样本组成样本集L，用未标注音频事件样本集U和样本集L组成包含未标注音频事件样本和已标注的负类音频事件样本的数据集D2,用D2内的样本估计未标注音频事件样本的负类置信度；
[0012] 步骤（4):对未标注音频事件样本，计算正类估计置信度和负类估计置信度的差值gl，用支持向量机分类器对未标注音频事件样本分类，然后选出那些落在支持向量机分类器分类边界内且其gl值为正值的未标注音频事件样本，并按其gl值进行降序排列，最后创建正类样本集P;
[0013] 步骤（5):对未标注音频事件样本，计算负类估计置信度和正类估计置信度的差值g2,用支持向量机分类器对未标注音频事件样本分类，然后选出那些落在支持向量机分类器分类边界内且其g2值为正值的未标注音频事件样本，并按其g2值进行降序排列，最后创建负类样本集N;
[0014] 步骤(6):将正类样本集P中的样本自动标注为正类，然后加入到已标注音频事件样本集L中，并将其从未标注音频事件样本集U中移除；将负类样本集N中的样本自动标注为负类，然后加入到已标注音频事件样本集L中，并将其从未标注音频事件样本集U中移除。
[0015] 所述步骤（2)的方法为：用已标注音频事件样本集中标注为正类的样本组成样本集L+，用未标注音频事件样本集U和样本集L+组成包含未标注音频事件样本和已标注的正类样本的数据集Dl，g+表示Dl中样本的正类估计置信度组成的列向量，r+表示Dl中样本的正类先验置信度组成的列向量，设置r+中各个样本的正类先验置信度，用Dl中的样本估计未标注音频事件样本的正类置信度。
[0016] 所述步骤（2)的具体方法为：
[0017] 步骤（2-1):用已标注音频事件样本集L中标注为正类的样本组成样本集L+，用U和L+组成包含未标注音频事件样本和已标注的正类样本的数据集Dl，Dl= {U，L+}= (X1,X2,…，Xlul,x|u|+1，…，x|D1|} ,XiGRn(i= 1，2,…，|D11)表示Dl中的第i个样本，下标i 表示第i个，Rn表示n维实数向量，|u|表示未标注音频事件样本集u中样本的数量，|diI 表示数据集Dl中样本的数量；
[0018] 步骤（2-2):令g+GR|Dl1表示由数据集Dl中样本的正类估计置信度组成的列向量，g+是一个待求的量，其各元素的值未知，g+中各元素在[0，1]区间取值，令r+eRidi1表示由数据集Dl中样本的正类先验置信度组成的列向量，r+中各元素在[0, 1]区间取值，Ridi1 表示|diI维的实数向量；
[0019] 步骤（2-3):对于Di中的每个样本X1a= 1，2,…，|di|)，通过K近邻的方法为其创建一个单元格，记为Ci,Ci={xiW,xiU),…，xi〇()} ,Xi表示Dl中的第i个样本，下标i表示第i个，X1 @表示样本X1在数据集Dl中的第0近邻样本，即样本Xi本身，XlU)，x1〇()分别表示样本11在数据集Dl中的第1近邻样本和第K近邻样本；
[0020] 步骤（2-4):令Xi= [xiW，xiU)，…，Xiw]表示由单元格(：冲的样本组成的样本矩阵，令'> 认=〇，1,".,[)表示C1中样本x1(k)的正类估计置信度，令'丨汰=0丄…，[)表示 C1中样本X10i)的正类先验置信度，X105)表示样本X1在数据集Dl中的第k近邻样本；
阵，1K+1表示元素全为1的（K+1)维列向量，K表示K近邻算法中的K值，上标T表示转置，R_x_表示（K+l)X(K+1)维的实数矩阵；
[0023]步骤（2-7):令+ 2/") 1入X1表示由单元格Ci中的样本组成的样本矩阵，上标T表示转置，A表示正则化系数，In表示nXn维的单位矩阵；
Dl|维的实数向量，其只有第p(x1〇i))个元素值为1，其它元素值都为0,p(Xl〇i))表示样本X1 %在数据集Dl中的位置，Xi%表示数据集Dl中第i个样本Xi的第k近邻样本；
[0027]步骤（2-11):求g+= (V++W+)Yr+;
[0028] 步骤（2-12):向量g+中前|U|个值是未标注音频事件样本的正类估计置信度，将前|U|个值取出，用向量汾+表示，则即为未标注音频事件样本的正类估计置信度。
[0029] 所述步骤（2-2)中，r+中已标注正类样本的正类先验置信度设置为1，其它未标注音频事件样本的正类先验置信度设置为〇. 5。
[0030] 所述步骤（3)的步骤为：用已标注音频事件样本集L中标注为负类的样本组成样本集L，用U和L组成包含未标注音频事件样本和已标注的负类样本的数据集D2,g表示数据集D2中样本的负类估计置信度组成的列向量，r表示数据集D2中样本的负类先验置信度组成的列向量，设置r中各个样本的负类先验置信度，用D2内的样本估计未标注音频事件样本的负类置信

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冷严;李登旺;方敬;程传福;万洪林;王晶晶;
技术所有人：山东师范大学;
我是此专利的发明人

上一篇：基于视觉注意机制模型的图像处理方法
上一篇：面向在线不确定图像识别的多示例加权包学习方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。