用于音频事件分类的半监督学习高置信度样本挖掘方法_4

文档序号：9350401阅读：来源：国知局

频场景和音频事件检测与分类竞赛活动中I-OL子任务的训练数据集作为实验数据集。数据集中共有16个音频事件类，将音频文档转换为单声道，16kHZ采样，并将其分割为200毫秒长的音频片段。将每个音频片段分割为30毫秒长的一系列音频帧，帧移15 毫秒，对每个帧提取39维MFCC特征，将音频片段内所有帧的特征均值和标准差作为音频片段的特征，因此每个音频片段用一个78维的特征向量表示。
[0111] 支持向量机是二值分类器，这里采用一对多的多类分类策略进行音频事件分类。为了避免数据不平衡问题，将数据集中的16类拆分成4组数据，每组包含4类音频事件。具体为：第一组{keyboard,laughter,mouse,keys}，第二组{pageturn, clearthroat,drawer,switch}，第三组{printer,phone,alert,doorslam}，第四组 {speech,cough,pendrop,knock}。每组数据中的第一个音频事件类作为正类，也即要被分类识别的音频事件类，其它所有类作为负类。实验在4组数据上进行。对每组数据，随机取10%和20%的样本作为验证数据集和测试数据集；从剩下的样本中再随机取10%样本作为主动学习算法的初始样本，其它样本作为未标注样本；用MingkunLi在《Confidence-BasedActiveLearning》一文中提出的主动学习算法进行实验，简记为AL_ Li。用AL_Li从未标注样本中手工标注10%的样本；主动学习结束后，用本发明提出的算法从未标注样本集中挑选高置信度的正类样本组成正类样本集，从未标注样本集中挑选高置信度的负类样本组成负类样本集；将正类样本集和负类样本集自动标注后加入到已标注样本集中，并从未标注样本集中移除；用更新的已标注样本集和未标注样本集重新训练支持向量机分类器；以上寻找高置信度样本及重新训练的过程重复迭代直至分类性能的波动率在连续5次迭代中都小于等于1%。。
[0112] 将基于本发明提出的高置信度样本挖掘方法的支持向量机自训练半监督学习方法简记为SSL_3C，这里将其和UjjwalMaulik在《FuzzyPreferenceBasedFeature SelectionandSemisupervisedSVMforCancerClassification))一文中提出的支持向量机半监督学习算法，简记为SSL_Maulik，进行了性能对比，并将其和AL_Li主动学习结束后的性能进行了对比，以验证本发明提出的方法所挖掘的高置信度样本的有效性。实验评价方法采用Fl测量值以综合评价分类的精确率和召回率。在每组数据集上实验5次，将5 次实验的平均值和标准差作为最后的实验结果。表1中列出了主动学习AL_Li结束后、AL_ Li结束后又进行的SSL_Maulik半监督学习、AL_Li结束后又进行的SSL_3C半监督学习的分类性能。每组数据集上最佳实验结果进行了加粗显示。
[0113] 表1.主动学习及主动学习和半监督学习结合后的分类性能对比
[0114]
[0115] 从表1可见，在四组数据集上进行分类实验，都是以本发明提出的高置信度样本挖掘方法为基础的SSL_3C取得了最高分类性能。主动学习AL_Li结束后，如果用SSL_ Maulik半监督学习继续训练分类器，在四组数据集上，平均来说，SSL_Maulik使分类器的分类性能相对于主动学习结束后的分类性能提高了 0.43% ;而主动学习AL_Li结束后，使用本发明提出的高置信度样本挖掘方法的SSL_3C则平均提高了 5. 25%。因此，本发明提出的用于音频事件分类的半监督学习高置信度样本挖掘方法能成功地挖掘到高置信度样本。在主动学习结束后，基于本发明提出的高置信度样本挖掘方法的半监督学习能有效地进一步提高分类器的分类性能而不增加额外的手工标注工作量。
[0116] 上述虽然结合附图对本发明的【具体实施方式】进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
【主权项】
1. 一种用于音频事件分类的半监督学习高置信度样本挖掘方法，其特征是：包括以下步骤：步骤（1):输入已标注音频事件样本集L、未标注音频事件样本集U和支持向量机分类器；步骤（2):用已标注音频事件样本集L中标注为正类的样本组成样本集ΙΛ用未标注音频事件样本集U和样本集L+组成包含未标注音频事件样本和已标注的正类样本的数据集 Dl，用Dl内的样本估计未标注音频事件样本的正类置信度；步骤（3):用已标注音频事件样本集L中标注为负类的样本组成样本集L，用未标注音频事件样本集U和样本集L组成包含未标注音频事件样本和已标注的负类样本的数据集 D2,用D2内的样本估计未标注音频事件样本的负类置信度；步骤（4):对未标注音频事件样本，计算正类估计置信度和负类估计置信度的差值gl，用支持向量机分类器对未标注音频事件样本分类，然后选出那些落在支持向量机分类器分类边界内且其gl值为正值的未标注音频事件样本，并按其gl值进行降序排列，最后创建正类样本集P ; 步骤（5):对未标注音频事件样本，计算负类估计置信度和正类估计置信度的差值g2，用支持向量机分类器对未标注音频事件样本分类，然后选出那些落在支持向量机分类器分类边界内且其g2值为正值的未标注音频事件样本，并按其g2值进行降序排列，最后创建负类样本集N ; 步骤(6):将正类样本集P中的样本自动标注为正类，然后加入到已标注音频事件样本集L中，并将其从未标注音频事件样本集U中移除；将负类样本集N中的样本自动标注为负类，然后加入到已标注音频事件样本集L中，并将其从未标注音频事件样本集U中移除。2. 如权利要求1所述的一种用于音频事件分类的半监督学习高置信度样本挖掘方法，其特征是：所述步骤（2)的方法为：用已标注音频事件样本集中标注为正类的样本组成样本集ΙΛ用未标注音频事件样本集U和样本集L +组成包含未标注音频事件样本和已标注的正类样本的数据集Dl，g+表示Dl中样本的正类估计置信度组成的列向量，r +表示Dl中样本的正类先验置信度组成的列向量，设置r+中各个样本的正类先验置信度，用Dl中的样本估计未标注音频事件样本的正类置信度。3. 如权利要求1所述的一种用于音频事件分类的半监督学习高置信度样本挖掘方法，其特征是：所述步骤（2)的具体方法为：步骤（2-1):用已标注音频事件样本集L中标注为正类的样本组成样本集ΙΛ用U和L+ 组成包含未标注音频事件样本和已标注的正类样本的数据集Dl，Dl= {U，L+} = {Xl，X2，… ，Xlul, x|u|+1，…，x|D1|}，x;e Rn(i = 1，2,…，|D11)表示Dl中的第i个样本，下标i表示第i 个，Rn表示η维实数向量，|u|表示未标注音频事件样本集u中样本的数量，|di I表示数据集Dl中样本的数量；步骤（2-2):令g+e R |Dl1表示由数据集Dl中样本的正类估计置信度组成的列向量，g + 是一个待求的量，其各元素的值未知，g+中各元素在[〇, 1]区间取值，令r+e Ridi1表示由数据集Dl中样本的正类先验置信度组成的列向量，r+中各元素在[0, 1]区间取值，R |Dl1表示 IdiI维的实数向量；步骤（2-3):对于Di中的每个样本X1 α = 1，2,…，|di I)，通过κ近邻的方法为其创建一个单元格，记为Ci, Ci= {x iW, xiU), ···，xi〇()}，Xi表示Dl中的第i个样本，下标i表示第 i个，X1 (。}表示样本X在数据集Dl中的第O近邻样本，即样本X i本身，X i⑴，x1〇0分别表示样本11在数据集Dl中的第1近邻样本和第K近邻样本；步骤（2-4):令Xi= [xiW，xiU)，…，xi〇()]表示由单元格Ci中的样本组成的样本矩阵，令苕'（/f=〇，l，···，^表示C1中样本χ1〇?)的正类估计置信度，令d (々=〇λ···，幻表示C1 中样本X1 〇〇的正类先验置信度，χ1〇?)表示样本X 1在数据集Dl中的第k近邻样本：步骤（2-5):令W1+表示对角矩阵，其对角向量为上标T表示转置，ω是一个正常数；步骤（2-6):令I表示（K+l) X (Κ+1)维的单位矩阵， 1K+1表示元素全为1的（K+1)维列向量

完整全部详细技术资料下载

当前第4页1 2 3 4 5