一种结合plsa和at的音频事件分类方法_2

文档序号：8412557阅读：来源：国知局

阵逐列进行归一化即得到最终的"作者一主题"分布Θ ; 对S个矩阵（Cwt)sS = 1，2,…，S取平均，并对平均矩阵逐列进行归一化即得到最终的 "主题一字"分布Φ。
5.如权利要求4所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述吉布斯采样的步骤为：首先，对向量X和z进行随机初始化，然后，在吉布斯采样的每轮迭代过程中，根据公式（2)对w中每个字的作者和主题进行顺序采样：
其中，a、t、w分别表示某一具体的作者、主题、字，其取值为ae {l，~，A}，te {1，···， T}，w e {1，…，W} ;W表示音频字典中的字的数量，T表示训练集中主题的数量，A表示训练集中作者的数量； Wdi表示训练集中第d个文档中的第i个字； xdi、Zdi分别表示训练集中第d个文档中的第i个字所对应的作者、主题； z_di表示向量z中除去第d个文档中的第i个字所对应的主题以外，由其它元素所组成的向量； X^li表示向量X中除去第d个文档中的第i个字所对应的作者以外，由其它元素所组成的向量； w_di表示向量w中除去第d个文档中的第i个字所对应的字以外，由其它元素所组成的向量； Cta表示统计得到的"作者一主题"矩阵；表示矩阵Cta中第t行第a列的矩阵元素，即训练集中除去第d个文档中的第i 个字之外，由其它所有的字统计得到的作者为a，同时主题为t的字的总数目； Cwt表示"主题一字"矩阵，C=T_(ii表示矩阵Cwt中第w行第t列的矩阵元素，即训练样本集中除去第d个文档中的第i个字之外，由其它所有的字统计得到的字为w，同时主题为 t的字的总数目；表示矩阵cTA中第t#行第a列的矩阵元素，用t#以和中的t进行区分； cIfLff表示矩阵CWT中第，行第t列的矩阵元素，用w #以和中的w进行区分；吉布斯采样的一轮迭代指的是按照公式（2)对w中每个字的主题和作者都进行一遍采样；如此迭代若干轮后，则认为z和X的联合概率分布已经收敛；在z和X的联合概率分布收敛之后继续迭代。
6. 如权利要求2所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述步骤（1-2)的分帧处理是指：帧长取32毫秒，帧移取16毫秒，每一帧作为一个样本。
7. 如权利要求2所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述步骤（1-2)的音频特征包括MFCC、能量、能量熵、过零率、频谱衰减、频谱质心和频谱通量。
8. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述步骤（2)的具体步骤为：步骤（2-1):将音频事件作为PLSA模型中的主题；步骤（2-2) :PLSA模型中的音频字典直接采用AT模型中创建的音频字典；步骤（2-3):通过PLSA模型的训练得到音频事件关于字典中各个字的概率分布p(w|a) w e {1，…，ff}; a表示某一具体音频事件，假设训练集中共有A个音频事件，则a的取值为a e {1，…， A； w表示音频字典中的某一具体的字； W表示音频字典中的字的数量；对于某一音频事件a，首先找出训练集中所有包含音频事件a的音频文档；步骤（2-4):由于步骤（1-3)已经得到音频文档中各个音频样本的字表达，所以直接统计得到训练集中所有包含音频事件a的音频文档中各个字的数目，将统计结果记为向量 Oi1，…，hw)九表示训练集中所有包含音频事件a的音频文档中所包含的第1个音频字的数量；h w表示训练集中所有包含音频事件a的音频文档中所包含的第W个音频字的数量；步骤（2-5):将向量Qll，…，h w)归一化则得到音频事件a关于字典中各个字的概率分布 p (w I a) w e {1，…，ff}。
9. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述步骤（3)的具体步骤为：步骤（3-1):用dtest表示待分类的音频文档，对待分类音频文档采用步骤（1-2)所述的方法进行分帧、特征提取，并根据训练阶段的步骤（1-3)得到的音频字典求得各帧的字表达，最后统计待分类音频文档关于音频字的直方图，并用直方图来表达待分类音频文档 dtest；步骤（3-2):分类采用EM迭代方法，在EM迭代的最大化步骤中，保持p(w|a)we {1，···， W}的值为训练阶段的值不变；EM迭代收敛后得到p (cU I a)和p (a)，p (dt J a)表示待分类音频文档dtest关于音频事件a的条件概率，p (a)表示音频事件a的概率；步骤（3-3):通过公式（3)求得待分类音频文档dtest关于各个音频事件的概率分布 P (a Idtest)：
其中，P(a#)表示音频事件'的概率，p(dtest|a#)表示待分类音频文档d test关于音频事件a#的条件概率；步骤（3-4):将概率最大的前M个音频事件作为待分类音频文档dtest的潜在音频事件，即：
a 其中，PAE(dte;st)表示待分类音频文档dte;st的潜在音频事件；FMmax{ · }表示数值集合 {·}中的前M个最大的数值。
10.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述步骤（4)的具体步骤为：步骤（4-1):假设步骤（3-4)中得到的M个潜在音频事件为aii = 1，…，M，通过公式（5)求得在已知潜在音频事件％的条件下，其中，i = 1，-·，Μ，待分类音频文档dtest的 perplexity 值；
兵屮，Ntest衣不符力、失苜频乂扫dtest屮子的数日，P WtestIai, w, Φ)衣不仕匕知潜在音频事件％、"作者一主题"分布Θ和"主题一字"分布Φ的条件下，待分类音频文档dtest的后验概率，通过公式（6)求算：
其中，表示待分类音频文档dtest中的第i个字；表示待分类音频文档dtest中第i个字的潜在主题；t表示某一具体主题；表示待分类音频文档dtest中第i个字的作者；表示"作者一主题"分布Θ中的第t行第％列的元素； Φ?表示"主题一字"分布 Φ中的第行第t列元素；步骤（4-2):通过公式（7)从潜在的M个音频事件中选择N个音频事件作为分类结果， I ^ N < M ：
AE(dtest)表示待分类音频文档dtest的分类结果；FNmin{ · }表示数值集合{ · }中的前 N个最小的数值；对于包含纯净音频事件的音频文档，N取1 ;对于包含两个音频事件的混叠音频文档，N取2,以此类推。
【专利摘要】本发明公开了一种结合PLSA和AT的音频事件分类方法，该方法在训练阶段用训练样本训练PLSA模型和AT模型；在分类阶段，对于待分类的音频文档，首先用PLSA模型求得文档中潜在的音频事件，然后用AT模型从潜在音频事件中找出若干音频事件作为分类结果。本发明提出的结合PLSA和AT的音频事件分类方法既能很好地分类纯净音频事件，又能很好地分类混叠音频事件，而且在分类混叠音频事件时能识别出其中的多个音频事件，而不仅仅是识别出其中的一个音频事件。
【IPC分类】G06K9-62, G06F17-30
【公开号】CN104731890
【申请号】CN201510114394
【发明人】冷严, 李登旺, 程传福, 万洪林, 王晶晶, 方敬, 徐新艳
【申请人】山东师范大学
【公开日】2015年6月24日
【申请日】2015年3月16日

完整全部详细技术资料下载

当前第2页1 2