基于鲁棒性音阶轮廓特征和向量机的和弦识别方法与流程

文档序号:12678383阅读:来源:国知局

技术特征:

1.一种基于鲁棒性音阶轮廓特征和向量机的和弦识别方法,其特征是,包括下列步骤:

1)对原始音频信号进行加窗预处理,得到音乐信号的分帧结果;

2)对分帧结果进行离散余弦变换,得到原始信号的标准音频频谱矩阵S;

3)假设频谱中谐波成分矩阵A和非谐波成分矩阵E是相互独立的,那么就有:S=A+E;矩阵通过以下凸优化问题进行全局最优解的求解:

<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mrow> <mi>A</mi> <mo>,</mo> <mi>E</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <mi>A</mi> <mo>|</mo> <msub> <mo>|</mo> <mo>*</mo> </msub> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>E</mi> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mi>A</mi> <mo>+</mo> <mi>E</mi> <mo>=</mo> <mi>S</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中||·||*表示矩阵的核范数,即矩阵的奇异值之和;||·||1表示矩阵的一范数,即所有非零元素之和;

该优化问题通过增广拉格朗日乘子法进行解决;

4)为了得到鲁棒性PCP特征,将矩阵A乘映射矩阵P:

P表示频谱矩阵和由RPCP向量组成的色度矩阵chromagram之间的变换矩阵,其中fi表示音乐中12平均律所定义出来的12个音阶的基频,1≤i≤12,2π·ωj则表示时频变换后所得到的各个频率成分的频率值,0≤j≤N-1,另外,

<mrow> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>,</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mo>&lsqb;</mo> <mn>12</mn> <mo>&CenterDot;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mn>2</mn> <mi>&pi;</mi> <mi>&omega;</mi> <mo>/</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mi>%</mi> <mn>12</mn> <mo>&NotEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mo>&lsqb;</mo> <mn>12</mn> <mo>&CenterDot;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mn>2</mn> <mi>&pi;</mi> <mi>&omega;</mi> <mo>/</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mi>%</mi> <mn>12</mn> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

通常情况下,规定音符A4处的频率440Hz为基准频率,并通过fA4·2b获得其他音符处的频率值,其中b为音符与A4之间的音程差,然后,通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射,从而获得鲁棒音阶轮廓特征向量,其中2πω对应矩阵A每一行所对应的频率值,而fi则表示音乐中通用的中央八度内12个音符所对应的频率,通过fA4·2b获得;

5)采用测度学习的方法对支持向量机的高斯核函数进行优化:根据和弦特征的特点,从问题本身的先验知识中有监督的学习到一个距离方程,该距离方程的求解是凸优化问题,从而使用梯度下降算法求得全局最优解,进而用求得的转换矩阵最优解对支持向量机的核函数进行优化,得到基于测度学习的高斯核函数;

6)利用训练数据对测度学习支持向量机进行训练,确定测度学习支持向量机中的参数;

7)使用训练好的测度学习支持向量机对测试数据进行识别,得到最终的识别率。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1