一种结合plsa和at的音频事件分类方法

文档序号：8412557阅读：440来源：国知局

一种结合plsa和at的音频事件分类方法
【技术领域】
[0001] 本发明涉及一种结合PLSA和AT的音频事件分类方法。
【背景技术】
[0002] 音频信息是多媒体信息的一种重要表现形式。音频领域中的音频事件分类技术在实际生活中具有广泛的应用，不但可以用于进行多媒体检索、安全监控，而且可以用于智能机器人和智能家居工程。
[0003] 音频文档主要包含两类音频事件，即纯净音频事件和混叠音频事件。纯净音频事件是指某一时刻只有一个音频事件发生，发生的音频事件在此刻与其它音频事件没有时间上的交叠；混叠音频事件是指某一时刻有多个音频事件同时发生，发生的音频事件在此刻产生时间上的交叠。
[0004] 目前的音频分类技术能很好地分类纯净音频事件，但在对混叠音频事件分类时则分类性能大为降低。这主要是因为混叠音频事件受混叠的影响，其特征较混叠之前的纯净音频事件的特征发生了明显的改变，加大了分类的难度。此外，目前多数的混叠音频事件分类技术是将混叠音频事件分类为其所包含的某一音频事件，而未能识别出其中的多个音频事件，这也影响了分类性能的提高。

【发明内容】

[0005] 本发明的目的就是为了解决上述问题，提供一种结合PLSA和AT的音频事件分类方法，本发明结合两种主题模型，即PLSA(Probabilistic Latent Semantic Analysis)模型和AT (Author-Topic model)模型，进行分类。PLSA模型和AT模型的提出最初都是用于文本分析。PLSA已有研宄将其引入音频领域进行语义标注和视频分类等，而对于AT模型，现在还未见将其应用于音频领域的相关研宄。本发明创新性地将AT模型引入到音频分类领域，并创新性地将其和PLSA模型结合起来进行分类。本发明提出的结合PLSA和AT的音频事件分类方法既能很好地分类纯净音频事件，又能很好地分类混叠音频事件，而且在分类混叠音频事件时能识别出其中的多个音频事件，而不仅仅是识别出其中的一个音频事件。
[0006] 为了实现上述目的，本发明采用如下技术方案：
[0007] 一种结合PLSA和AT的音频事件分类方法，包括如下步骤：
[0008] 步骤⑴：通过训练音频文档训练得到AT模型；
[0009] 步骤⑵：通过训练音频文档训练得到PLSA模型；
[0010] 步骤（3):通过步骤（2)得到的PLSA模型，求得待分类的音频文档包含的潜在的 M个音频事件；
[0011] 步骤⑷：通过步骤⑴得到的AT模型，从步骤⑶潜在的M个音频事件中选择N 个音频事件作为分类结果，其中，K N < M。
[0012] 所述步骤（1)的具体步骤为：
[0013] 步骤（1-1):输入训练音频文档：
[0014] 训练音频文档中既包含纯净音频事件的音频文档，又包含混叠音频事件的音频文档；
[0015] 步骤（1-2):分帧及特征提取：
[0016] 对训练音频文档进行分帧处理，每一帧作为一个样本；然后，以帧为单位提取音频特征；
[0017] 步骤（1-3):通过聚类得到各个音频样本的字表达；
[0018] 步骤（1-4):通过吉布斯采样训练得到AT模型的"作者一主题"分布Θ和"主题一字"分布Φ。
[0019] 所述步骤（1-3)的步骤为：
[0020] 采用Kmeans聚类算法对步骤（1-2)中分帧得到的样本进行聚类；
[0021] 假设训练集中共有L个样本，记为{fi，f2，…，fj ;聚类共得到W个簇，W个簇的簇中心样本记为IC1, C2，…，Cj,…，CJ，将IC1, C2，…，Cj,…，CJ作为音频字典，则音频字典中的每个样本e {1，2, ···，}表示音频字典中的一个音频字；
[0022] 根据音频字典，每个样本都能够得到如下的音频字表达：
[0023]
【主权项】
1. 一种结合PLSA和AT的音频事件分类方法，其特征是，包括如下步骤：步骤（1):通过训练音频文档训练得到AT模型；步骤（2):通过训练音频文档训练得到PLSA模型；步骤（3):通过步骤（2)得到的PLSA模型，求得待分类的音频文档包含的潜在的M个音频事件；步骤（4):通过步骤（1)得到的AT模型，从步骤（3)潜在的M个音频事件中选择N个音频事件作为分类结果，其中，K N < M。
2. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述步骤 (1)的具体步骤为：步骤（1-1):输入训练音频文档：训练音频文档中既包含纯净音频事件的音频文档，又包含混叠音频事件的音频文档；步骤（1-2):分帧及特征提取：对训练音频文档进行分帧处理，每一帧作为一个样本；然后，以帧为单位提取音频特征；步骤（1-3):通过聚类得到各个音频样本的字表达；步骤（1-4):通过吉布斯采样训练得到AT模型的"作者一主题"分布Θ和"主题一字" 分布Φ。
3. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述步骤（1-3)的步骤为：采用Kmeans聚类算法对步骤（1-2)中分帧得到的样本进行聚类；假设训练集中共有L个样本，记为{f\，f2，…，f J ;聚类共得到W个簇，W个簇的簇中心样本记为IA，C2，…，C」，…，Cw}将IC1, C2，…，C」，…，CJ作为音频字典，则音频字典中的每个样本e {1，2,，W}表示音频字典中的一个音频字；根据音频字典，每个样本都能够得到如下的音频字表达：
其中， fi表示训练集中的第i个样本，下标i表示第i个； Cj表示聚类得到的第j个簇的簇中心样本，下标j表示第j个； W表示聚类得到的簇的个数，或者称为音频字典中字的个数； IDX(A)表示样本&在音频字典中的索引，或者称为样本匕的字表达； Dis (4 Cj)表示样本&和簇中心样本Cj之间的距离。
4. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述步骤（1-4)的步骤为：将训练样本中包含的音频事件作为样本的作者；假设 "作者一主题"分布Θ和"主题一字"分布Φ的先验分布分别是服从参数为α和β的 Dirichlet分布，α和β是已知的参数值；将每个音频文档中的所有字连接成一个向量，将整个训练集中所有音频文档连接起来组成一个新的向量，用w表示此新的向量；每个字对应一个作者和一个主题，因此W中每个字的作者组成一个向量，用X表示；W 中每个字的主题组成一个向量，用Z表示；假设训练集中共有A个作者、T个主题，则向量X中的每个元素在A个作者中取值，向量z中的每个元素在T个主题中取值；训练"作者一主题"分布Θ和"主题一字"分布Φ是在同一个训练过程中同时进行的；此训练过程具体分两步执行：第一步，吉布斯采样；第二步：假设吉布斯采样在z和X的联合概率分布收敛之后又迭代了 S轮，每轮迭代后的z和X的采样值记为（zs，xs)，s = 1，2，…，S ; s表示z和X的联合概率分布收敛之后继续迭代的第s轮，由（zs，Xs)统计得到相应的 (CTA)S矩阵和（CWT)S矩阵，（C ta)^P ((："广分别表示由第s轮采样值（zs，Xs)统计得到的Cta 矩阵和Cwt矩阵；对S个矩阵（CTA)S，s = 1，2，…，S取平均，并对平均矩

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冷严;李登旺;程传福;万洪林;王晶晶;方敬;徐新艳;
技术所有人：山东师范大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。