基于鲁棒性音阶轮廓特征和向量机的和弦识别方法与流程

文档序号：12678383阅读：来源：国知局

技术特征：

1.一种基于鲁棒性音阶轮廓特征和向量机的和弦识别方法，其特征是，包括下列步骤:

1)对原始音频信号进行加窗预处理，得到音乐信号的分帧结果；

2)对分帧结果进行离散余弦变换，得到原始信号的标准音频频谱矩阵S；

3)假设频谱中谐波成分矩阵A和非谐波成分矩阵E是相互独立的，那么就有：S＝A+E；矩阵通过以下凸优化问题进行全局最优解的求解：

$<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mrow> <mi>A</mi> <mo>,</mo> <mi>E</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <mi>A</mi> <mo>|</mo> <msub> <mo>|</mo> <mo>*</mo> </msub> <mo>+</mo> <mi>λ</mi> <mo>|</mo> <mo>|</mo> <mi>E</mi> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mi>A</mi> <mo>+</mo> <mi>E</mi> <mo>=</mo> <mi>S</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

其中||·||_*表示矩阵的核范数，即矩阵的奇异值之和；||·||₁表示矩阵的一范数，即所有非零元素之和；

该优化问题通过增广拉格朗日乘子法进行解决；

4)为了得到鲁棒性PCP特征，将矩阵A乘映射矩阵P：

P表示频谱矩阵和由RPCP向量组成的色度矩阵chromagram之间的变换矩阵，其中f_i表示音乐中12平均律所定义出来的12个音阶的基频，1≤i≤12，2π·ω_j则表示时频变换后所得到的各个频率成分的频率值，0≤j≤N-1，另外，

$<mrow> <mi>δ</mi> <mrow> <mo>(</mo> <mi>ω</mi> <mo>,</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mo>[</mo> <mn>12</mn> <mo>·</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mn>2</mn> <mi>π</mi> <mi>ω</mi> <mo>/</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>]</mo> <mi>%</mi> <mn>12</mn> <mo>&NotEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mi>f</mi> <mo>[</mo> <mn>12</mn> <mo>·</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mn>2</mn> <mi>π</mi> <mi>ω</mi> <mo>/</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>]</mo> <mi>%</mi> <mn>12</mn> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

通常情况下，规定音符A4处的频率440Hz为基准频率，并通过f_A4·2^b获得其他音符处的频率值，其中b为音符与A4之间的音程差，然后，通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射，从而获得鲁棒音阶轮廓特征向量，其中2πω对应矩阵A每一行所对应的频率值，而f_i则表示音乐中通用的中央八度内12个音符所对应的频率，通过f_A4·2^b获得；

5)采用测度学习的方法对支持向量机的高斯核函数进行优化：根据和弦特征的特点，从问题本身的先验知识中有监督的学习到一个距离方程，该距离方程的求解是凸优化问题，从而使用梯度下降算法求得全局最优解，进而用求得的转换矩阵最优解对支持向量机的核函数进行优化，得到基于测度学习的高斯核函数；

6)利用训练数据对测度学习支持向量机进行训练，确定测度学习支持向量机中的参数；

7)使用训练好的测度学习支持向量机对测试数据进行识别，得到最终的识别率。

完整全部详细技术资料下载

当前第2页1 2 3