一种结合plsa和at的音频事件分类方法_2

文档序号:8412557阅读:来源:国知局
阵逐列进行归一化即得到最终 的"作者一主题"分布Θ ; 对S个矩阵(Cwt)sS = 1,2,…,S取平均,并对平均矩阵逐列进行归一化即得到最终的 "主题一字"分布Φ。
5.如权利要求4所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述吉布斯采样的步骤为: 首先,对向量X和z进行随机初始化, 然后,在吉布斯采样的每轮迭代过程中,根据公式(2)对w中每个字的作者和主题进行 顺序采样:
其中,a、t、w分别表示某一具体的作者、主题、字,其取值为ae {l,~,A},te {1,···, T},w e {1,…,W} ;W表示音频字典中的字的数量,T表示训练集中主题的数量,A表示训 练集中作者的数量; Wdi表示训练集中第d个文档中的第i个字; xdi、Zdi分别表示训练集中第d个文档中的第i个字所对应的作者、主题; z_di表示向量z中除去第d个文档中的第i个字所对应的主题以外,由其它元素所组成 的向量; X^li表示向量X中除去第d个文档中的第i个字所对应的作者以外,由其它元素所组成 的向量; w_di表示向量w中除去第d个文档中的第i个字所对应的字以外,由其它元素所组成的 向量; Cta表示统计得到的"作者一主题"矩阵; 表示矩阵Cta中第t行第a列的矩阵元素,即训练集中除去第d个文档中的第i 个字之外,由其它所有的字统计得到的作者为a,同时主题为t的字的总数目; Cwt表示"主题一字"矩阵,C=T_(ii表示矩阵Cwt中第w行第t列的矩阵元素,即训练样 本集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的字为w,同时主题为 t的字的总数目; 表示矩阵cTA中第t#行第a列的矩阵元素,用t#以和中的t进行区分; cIfLff表示矩阵CWT中第,行第t列的矩阵元素,用w #以和中的w进行区分; 吉布斯采样的一轮迭代指的是按照公式(2)对w中每个字的主题和作者都进行一遍采 样;如此迭代若干轮后,则认为z和X的联合概率分布已经收敛;在z和X的联合概率分布 收敛之后继续迭代。
6. 如权利要求2所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述步骤(1-2)的分帧处理是指:帧长取32毫秒,帧移取16毫秒,每一帧作为一个样 本。
7. 如权利要求2所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述步骤(1-2)的音频特征包括MFCC、能量、能量熵、过零率、频谱衰减、频谱质心和频 谱通量。
8. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述步骤(2)的具体步骤为: 步骤(2-1):将音频事件作为PLSA模型中的主题; 步骤(2-2) :PLSA模型中的音频字典直接采用AT模型中创建的音频字典; 步骤(2-3):通过PLSA模型的训练得到音频事件关于字典中各个字的概率分布p(w|a) w e {1,…,ff}; a表示某一具体音频事件,假设训练集中共有A个音频事件,则a的取值为a e {1,…, A; w表示音频字典中的某一具体的字; W表示音频字典中的字的数量; 对于某一音频事件a,首先找出训练集中所有包含音频事件a的音频文档; 步骤(2-4):由于步骤(1-3)已经得到音频文档中各个音频样本的字表达,所以直接 统计得到训练集中所有包含音频事件a的音频文档中各个字的数目,将统计结果记为向量 Oi1,…,hw)九表示训练集中所有包含音频事件a的音频文档中所包含的第1个音频字的 数量;h w表示训练集中所有包含音频事件a的音频文档中所包含的第W个音频字的数量; 步骤(2-5):将向量Qll,…,h w)归一化则得到音频事件a关于字典中各个字的概率分 布 p (w I a) w e {1,…,ff}。
9. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述步骤(3)的具体步骤为: 步骤(3-1):用dtest表示待分类的音频文档,对待分类音频文档采用步骤(1-2)所述 的方法进行分帧、特征提取,并根据训练阶段的步骤(1-3)得到的音频字典求得各帧的字 表达,最后统计待分类音频文档关于音频字的直方图,并用直方图来表达待分类音频文档 dtest; 步骤(3-2):分类采用EM迭代方法,在EM迭代的最大化步骤中,保持p(w|a)we {1,···, W}的值为训练阶段的值不变;EM迭代收敛后得到p (cU I a)和p (a),p (dt J a)表示待分类 音频文档dtest关于音频事件a的条件概率,p (a)表示音频事件a的概率; 步骤(3-3):通过公式(3)求得待分类音频文档dtest关于各个音频事件的概率分布 P (a Idtest):
其中,P(a#)表示音频事件'的概率,p(dtest|a#)表示待分类音频文档d test关于音频事 件a#的条件概率; 步骤(3-4):将概率最大的前M个音频事件作为待分类音频文档dtest的潜在音频事件, 即:
a 其中,PAE(dte;st)表示待分类音频文档dte;st的潜在音频事件;FMmax{ · }表示数值集合 {·}中的前M个最大的数值。
10.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述步骤(4)的具体步骤为: 步骤(4-1):假设步骤(3-4)中得到的M个潜在音频事件为aii = 1,…,M,通过公 式(5)求得在已知潜在音频事件%的条件下,其中,i = 1,-·,Μ,待分类音频文档dtest的 perplexity 值;
兵屮,Ntest衣不符力、失苜频乂扫dtest屮子的数日,P WtestIai, w, Φ)衣不仕匕知潜在音 频事件%、"作者一主题"分布Θ和"主题一字"分布Φ的条件下,待分类音频文档dtest的 后验概率,通过公式(6)求算:
其中,表示待分类音频文档dtest中的第i个字;表示待分类音频文档dtest中 第i个字的潜在主题;t表示某一具体主题;表示待分类音频文档dtest中第i个字的作 者;表示"作者一主题"分布Θ中的第t行第%列的元素; Φ?表示"主题一字"分布 Φ中的第行第t列元素; 步骤(4-2):通过公式(7)从潜在的M个音频事件中选择N个音频事件作为分类结果, I ^ N < M :
AE(dtest)表示待分类音频文档dtest的分类结果;FNmin{ · }表示数值集合{ · }中的前 N个最小的数值;对于包含纯净音频事件的音频文档,N取1 ;对于包含两个音频事件的混叠 音频文档,N取2,以此类推。
【专利摘要】本发明公开了一种结合PLSA和AT的音频事件分类方法,该方法在训练阶段用训练样本训练PLSA模型和AT模型;在分类阶段,对于待分类的音频文档,首先用PLSA模型求得文档中潜在的音频事件,然后用AT模型从潜在音频事件中找出若干音频事件作为分类结果。本发明提出的结合PLSA和AT的音频事件分类方法既能很好地分类纯净音频事件,又能很好地分类混叠音频事件,而且在分类混叠音频事件时能识别出其中的多个音频事件,而不仅仅是识别出其中的一个音频事件。
【IPC分类】G06K9-62, G06F17-30
【公开号】CN104731890
【申请号】CN201510114394
【发明人】冷严, 李登旺, 程传福, 万洪林, 王晶晶, 方敬, 徐新艳
【申请人】山东师范大学
【公开日】2015年6月24日
【申请日】2015年3月16日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1