一种基于内容的音频语义特征相似度比较方法

文档序号:6572652阅读:464来源:国知局
专利名称:一种基于内容的音频语义特征相似度比较方法
技术领域
本发明涉及一种音频处理和模式识别技术领域,尤其涉及一种基于隐马尔可夫模型的相似度比较方法。
背景技术
基于内容的音频语义特征相似度比较方法的研究,是基于内容的音乐检索以及音乐推荐领域的一个重要分支,具体是指通过音频特征分析,对不同音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似。由于音乐与人的听觉感知紧密相关,它更多的传达了一种感情,一种很难量化的情绪,音乐的这种特性决定了在音频的分类检索技术中所用到的歌名、演唱者等外在信息对音乐分析并不适用。因此找到能够表征音乐的某些特征以及如何对音乐的高层语义信息进行描述都是非常急需的。
如何提取音乐中的较低层特征(音调、旋律以及节奏等),使得无序的音频顺序变得有序,是基于内容的音频检索技术实现应用的关键。目前的研究都是基于某一种音频特征,比如提取了基于美尔频率的倒谱系数MFCC,或是先将人类听觉感知中的等响度预加重、强度、响度等特性进行一系列的工程模拟,之后采用全极点模型进行线性预测分析从而得到相应的LPC系数,还有的研究使用MFCC或LPC的动态特征来刻画音频信号的时变特性,即原始特征的一阶和二阶差分。对于音乐内容而言,仅有低层声学特征是不够的,如何描述音乐的高层语义概念也是一个关键问题。随着生活条件的提高,人们越来越注重精神品味的培养,在不同的场合人们将需求不同的音乐,对音乐的用途提出了越来越明确以及细致的要求,这些要求是传统的研究无法实现的。

发明内容
发明目的本发明的目的在于提供一种基于内容的音频语义特征相似度比较方法,其能够提取音乐信号的特征参数,并利用所提取出的特征参数建立基于语义关键词的HMM,继而能够根据概率模型比较音乐的语义特征的相似度。技术方案本发明的实施例通过如下技术方案实现一种基于内容的音频语义特征相似度比较方法,包括如下步骤I)提取帧长5s,帧移O. 5s的音乐,而后提取音乐中的特征参数;2)将上述特征参数组成特征矢量;3)构建174个关键词描述的词汇库,然后以每个关键词作为模型,以特征矢量为训练样本构造隐马尔可夫模型;4)对隐马尔可夫模型输出概率多项式,得到基于关键词的概率分布;5)根据KL公式比较基于给定关键词的相似度比较。所述的隐马尔可夫模型构造方法包括如下步骤
S Γ Ms~I)根据公式ΓΙG求出状态输出观测值的概率
bj(°, )= i=1 Lm-IJb ;其中N是高斯概率密度函数,O是音乐的特征系数即观测序列,μ、E、c分别是均值、方差以及权重系数,M是每个状态包含的高斯混元个数;2)设置迭代次数,用Viterbi算法计算HMM输出所有训练音频观测序列的概率P (0/ λ ),并累加得到Σ i中,再用Baum-Welch算法对模型参数进行重估,得到λ 1,再用Viterbi算法计算HMM输出所有训练音频观测序列的概率Ρ(0/λ 1),并累加得到Σ 2中;3)将乙,ΡΣ 2结果进行比较,判断结果是否小于预设阈值,是的话,则无需进行重估计算,将λ I作为计算结果输出,都则将λ I作新一轮运算。 所述初始概率取为[1.0 1.0 1.0],状态转移概率取为
权利要求
1.一种基于内容的音频语义特征相似度比较方法,其特征在于包括如下步骤 1)提取帧长5S,帧移O.5s的音乐,而后提取音乐中的特征参数; 2)将上述特征参数组成特征矢量; 3)构建174个关键词描述的词汇库,然后以每个关键词作为模型,以特征矢量为训练样本构造隐马尔可夫模型; 4)对隐马尔可夫模型输出概率多项式,得到基于关键词的概率分布; 5)根据KL公式比较基于给定关键词的相似度比较。
2.根据权利要求I所述的一种基于内容的音频语义特征相似度比较方法,其特征在于所述的隐马尔可夫模型构造方法包括如下步骤 1)根据公式bX0t)=]~[ T,cJsmN(OslTjjsn, ) *求出状态输出观测值的概率b ; 5=1 L w-i_ 其中N是高斯概率密度函数,O是音乐的特征系数即观测序列,μ、Σ、C分别是均值、方差以及权重系数,M是每个状态包含的高斯混元个数; 2)设置迭代次数,用Viterbi算法计算HMM输出所有训练音频观测序列的概率Ρ(0/入),并累加得到Σ 中,再用Baum-Welch算法对模型参数进行重估,得到λ I,再用Viterbi算法计算HMM输出所有训练音频观测序列的概率Ρ(0/λ 1),并累加得到Σ 2中; 3)将Σ1和Σ 2结果进行比较,判断结果是否小于预设阈值,是的话,则无需进行重估计算,将λ I作为计算结果输出,都则将λ I作新一轮运算。
3.根据权利要求2所述的一种基于内容的音频语义特征相似度比较方法,其特征在 0.0 1.0 0.0_于所述初始概率取为[1.0 1.0 1.0],状态转移概率取为0.0 0.6 0.4。
0.0 0.0 0.0
4.根据权利要求I所述的一种基于内容的音频语义特征相似度比较方法,其特征在于所述得到概率分布的方法如下 J.V (ΓΤΓ p(xf I i))T根据公式P(z|Z)=^--Γ计算每一个单词在一首歌里出现的概率,然后得到这首歌里所有关键词的概率向量,其中i = 1,…,V |,p(i)表示的是某个关键词将出现在某首歌中的先验概率,P⑴=1/ I V I,X = {x1; . . .,χτ},T是每首歌的按帧提取特征的帧数。
5.根据权利要求I所述的一种基于内容的音频语义特征相似度比较方法,其特征在于所述的相似度比较步骤如下 1)选择给定查询歌曲的特定关键词,得到查询歌曲的语义多项式q; H 2)通过KLiqIiP)=计算语义多项式q与数据库里的每一个语义多项式P之 i=i Pi间的KL距离,其中V是选用的词库。
6.根据权利要求I所述的一种基于内容的音频语义特征相似度比较方法,其特征在于所述音频信号的特征参数是频谱参数,所述频谱参数包括节奏、旋律清晰度、主调、音调、音调清晰度、音调中心、调强度。
7.根据权利要求I所述的一种基于内容的音频语义特征相似度比较方法,其特征在于在提取特征参数过程中将音乐文件转换成单声道wav格式的音频,每段音乐的位速是256kbps,采样大小是16位,采样频率为16kHz。
全文摘要
本发明涉及一种基于内容的音频语义特征相似度比较方法,包括如下步骤提取帧长5s,帧移0.5s的音乐,而后提取音乐中的特征参数;将上述特征参数组成特征矢量;构建174个关键词描述的词汇库,然后以每个关键词作为模型,以特征矢量为训练样本构造隐马尔可夫模型;对隐马尔可夫模型输出概率多项式,得到基于关键词的概率分布;根据KL公式比较基于给定关键词的相似度比较。本发明给每一首歌给出了174个类别,这就对每一首音乐进行了详尽的高层语义描述。且采用隐马尔可夫模型建立语义关键词的模型,继而将能够代表音乐的本质特征与高层语义描述对接起来,弥补低层到高层的语义空缺。
文档编号G06F17/30GK102841932SQ20121027729
公开日2012年12月26日 申请日期2012年8月6日 优先权日2012年8月6日
发明者严勤, 张二芬 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1