一种结合plsa和at的音频事件分类方法

文档序号:8412557阅读:440来源:国知局
一种结合plsa和at的音频事件分类方法
【技术领域】
[0001] 本发明涉及一种结合PLSA和AT的音频事件分类方法。
【背景技术】
[0002] 音频信息是多媒体信息的一种重要表现形式。音频领域中的音频事件分类技术在 实际生活中具有广泛的应用,不但可以用于进行多媒体检索、安全监控,而且可以用于智能 机器人和智能家居工程。
[0003] 音频文档主要包含两类音频事件,即纯净音频事件和混叠音频事件。纯净音频事 件是指某一时刻只有一个音频事件发生,发生的音频事件在此刻与其它音频事件没有时间 上的交叠;混叠音频事件是指某一时刻有多个音频事件同时发生,发生的音频事件在此刻 产生时间上的交叠。
[0004] 目前的音频分类技术能很好地分类纯净音频事件,但在对混叠音频事件分类时则 分类性能大为降低。这主要是因为混叠音频事件受混叠的影响,其特征较混叠之前的纯净 音频事件的特征发生了明显的改变,加大了分类的难度。此外,目前多数的混叠音频事件分 类技术是将混叠音频事件分类为其所包含的某一音频事件,而未能识别出其中的多个音频 事件,这也影响了分类性能的提高。

【发明内容】

[0005] 本发明的目的就是为了解决上述问题,提供一种结合PLSA和AT的音频事件分类 方法,本发明结合两种主题模型,即PLSA(Probabilistic Latent Semantic Analysis)模 型和AT (Author-Topic model)模型,进行分类。PLSA模型和AT模型的提出最初都是用于 文本分析。PLSA已有研宄将其引入音频领域进行语义标注和视频分类等,而对于AT模型, 现在还未见将其应用于音频领域的相关研宄。本发明创新性地将AT模型引入到音频分类 领域,并创新性地将其和PLSA模型结合起来进行分类。本发明提出的结合PLSA和AT的 音频事件分类方法既能很好地分类纯净音频事件,又能很好地分类混叠音频事件,而且在 分类混叠音频事件时能识别出其中的多个音频事件,而不仅仅是识别出其中的一个音频事 件。
[0006] 为了实现上述目的,本发明采用如下技术方案:
[0007] 一种结合PLSA和AT的音频事件分类方法,包括如下步骤:
[0008] 步骤⑴:通过训练音频文档训练得到AT模型;
[0009] 步骤⑵:通过训练音频文档训练得到PLSA模型;
[0010] 步骤(3):通过步骤(2)得到的PLSA模型,求得待分类的音频文档包含的潜在的 M个音频事件;
[0011] 步骤⑷:通过步骤⑴得到的AT模型,从步骤⑶潜在的M个音频事件中选择N 个音频事件作为分类结果,其中,K N < M。
[0012] 所述步骤(1)的具体步骤为:
[0013] 步骤(1-1):输入训练音频文档:
[0014] 训练音频文档中既包含纯净音频事件的音频文档,又包含混叠音频事件的音频文 档;
[0015] 步骤(1-2):分帧及特征提取:
[0016] 对训练音频文档进行分帧处理,每一帧作为一个样本;然后,以帧为单位提取音频 特征;
[0017] 步骤(1-3):通过聚类得到各个音频样本的字表达;
[0018] 步骤(1-4):通过吉布斯采样训练得到AT模型的"作者一主题"分布Θ和"主题一 字"分布Φ。
[0019] 所述步骤(1-3)的步骤为:
[0020] 采用Kmeans聚类算法对步骤(1-2)中分帧得到的样本进行聚类;
[0021] 假设训练集中共有L个样本,记为{fi,f2,…,fj ;聚类共得到W个簇,W个簇的簇 中心样本记为IC1, C2,…,Cj,…,CJ,将IC1, C2,…,Cj,…,CJ作为音频字典,则音频字典中 的每个样本e {1,2, ···,}表示音频字典中的一个音频字;
[0022] 根据音频字典,每个样本都能够得到如下的音频字表达:
[0023]
【主权项】
1. 一种结合PLSA和AT的音频事件分类方法,其特征是,包括如下步骤: 步骤(1):通过训练音频文档训练得到AT模型; 步骤(2):通过训练音频文档训练得到PLSA模型; 步骤(3):通过步骤(2)得到的PLSA模型,求得待分类的音频文档包含的潜在的M个 音频事件; 步骤(4):通过步骤(1)得到的AT模型,从步骤(3)潜在的M个音频事件中选择N个 音频事件作为分类结果,其中,K N < M。
2. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是,所述步骤 (1)的具体步骤为: 步骤(1-1):输入训练音频文档: 训练音频文档中既包含纯净音频事件的音频文档,又包含混叠音频事件的音频文档; 步骤(1-2):分帧及特征提取: 对训练音频文档进行分帧处理,每一帧作为一个样本;然后,以帧为单位提取音频特 征; 步骤(1-3):通过聚类得到各个音频样本的字表达; 步骤(1-4):通过吉布斯采样训练得到AT模型的"作者一主题"分布Θ和"主题一字" 分布Φ。
3. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述步骤(1-3)的步骤为: 采用Kmeans聚类算法对步骤(1-2)中分帧得到的样本进行聚类; 假设训练集中共有L个样本,记为{f\,f2,…,f J ;聚类共得到W个簇,W个簇的簇中 心样本记为IA,C2,…,C」,…,Cw}将IC1, C2,…,C」,…,CJ作为音频字典,则音频字典 中的每个样本e {1,2,,W}表示音频字典中的一个音频字; 根据音频字典,每个样本都能够得到如下的音频字表达:
其中, fi表示训练集中的第i个样本,下标i表示第i个; Cj表示聚类得到的第j个簇的簇中心样本,下标j表示第j个; W表示聚类得到的簇的个数,或者称为音频字典中字的个数; IDX(A)表示样本&在音频字典中的索引,或者称为样本匕的字表达; Dis (4 Cj)表示样本&和簇中心样本Cj之间的距离。
4. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述步骤(1-4)的步骤为:将训练样本中包含的音频事件作为样本的作者;假设 "作者一主题"分布Θ和"主题一字"分布Φ的先验分布分别是服从参数为α和β的 Dirichlet分布,α和β是已知的参数值; 将每个音频文档中的所有字连接成一个向量,将整个训练集中所有音频文档连接起来 组成一个新的向量,用w表示此新的向量; 每个字对应一个作者和一个主题,因此W中每个字的作者组成一个向量,用X表示;W 中每个字的主题组成一个向量,用Z表示; 假设训练集中共有A个作者、T个主题,则向量X中的每个元素在A个作者中取值,向 量z中的每个元素在T个主题中取值; 训练"作者一主题"分布Θ和"主题一字"分布Φ是在同一个训练过程中同时进行的; 此训练过程具体分两步执行:第一步,吉布斯采样; 第二步:假设吉布斯采样在z和X的联合概率分布收敛之后又迭代了 S轮,每轮迭代后 的z和X的采样值记为(zs,xs),s = 1,2,…,S ; s表示z和X的联合概率分布收敛之后继续迭代的第s轮,由(zs,Xs)统计得到相应的 (CTA)S矩阵和(CWT)S矩阵,(C ta)^P ((:"广分别表示由第s轮采样值(zs,Xs)统计得到的Cta 矩阵和Cwt矩阵; 对S个矩阵(CTA)S,s = 1,2,…,S取平均,并对平均矩
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1