一种数字音乐情感的识别方法

文档序号:6483268阅读:482来源:国知局
专利名称:一种数字音乐情感的识别方法
技术领域
本发明属于计算机模式识别领域,具体涉及一种数字音乐情感的识别方法。

背景技术
现在,人们希望计算机具有人类的智能,使人机之间的交流象人与人之间的交流一样畅通无阻,以此让计算机发挥更大的作用。情感智能作为人类智能的重要组成部分,被认为是一个人走向成功所必不可少的甚至是最关键的因素。因此,要使计算机具有人类智能必然要求其具有情感智能。
音乐是音响的艺术,其最明显的特征,就是强烈的感情色彩。许多无法用语言准确描述的思想感情都可以通过音乐表达出来,数字音乐的情感识别问题就是希望计算机也能像人类一样对数字音乐所承载的情感因素进行识别,是计算机人工智能问题中的一个重要研究领域。数字音乐的计算机情感识别,是一个新兴的领域,其实质是对数字音乐文件进行特征参数提取,采用机器学习的方法进行分析与分类,其在人机交互、虚拟现实、电子图书馆等领域都有着广泛的应用。
现有的计算机音乐情感识别方法,如M.A.Casey,R.Veltkamp,M.Goto,M.Leman,C.Rhodes,and M.Slaney.Content-based MusicInformation RetrievalCurrent Directions and Future Challenges.Proceedingsof the IEEE,Vol.96,No.4,April 2008.所述,主要针对基于音乐乐谱的数字音乐格式即MIDI格式上进行,这些方法对于现实生活中更加普遍的基于采样的数字音乐格式即WAV、MP3、WMA等格式无能为力。对于基于采样的数字音乐格式文件,可以简单的采用语音识别领域的常用声学特征参数来进行情感的识别,然而音乐作为数字音频的一种,本身经过长期的发展,积累了一套完整的音乐理论系统,拥有独特的阐释形式与组成要素,如音色、节拍、旋律等,称之为音乐乐理特征参数,这部分特征参数与音乐的情感有着必然的联系。


发明内容
本发明提供一种数字音乐情感的识别方法,解决现有数字音乐情感识别方法不能针对基于采样的数字音乐格式进行识别的问题,采用基于多类支持向量机分类技术,结合声学特征参数与音乐乐理特征参数,进行数字音乐的情感识别。
本发明的一种数字音乐情感的识别方法,包括 (1)预处理步骤将待识别的数字音乐文件和训练样本集的数字音乐文件进行处理,形成统一格式并分帧;所述训练样本集包括高兴、激动、悲伤、放松四种情感类型的数字音乐文件; (2)特征提取步骤对待识别的数字音乐文件和训练样本集中数字音乐文件的各帧音乐信号提取特征参数,所提取的特征参数包括声学特征参数和乐理特征参数,声学特征参数包括短时能量、频谱质心、频谱衰减截止频率、频谱流量、过零率、美尔倒谱系数;乐理特征参数包括音乐的音色、节拍特征;待识别的数字音乐文件各帧音乐信号的特征参数经平均后构成特征向量;将训练样本集各帧音乐信号提取的特征参数经平均后,构成特征参数矩阵; (3)多类支持向量机训练步骤将特征参数矩阵作为训练集,为每一种情感类别采用单独的支持向量机进行训练,得到该类别情感判定函数,由四个类别情感判定函数组成多类支持向量机的情感类别判定函数; (4)识别步骤将待识别的数字音乐文件的特征向量,输入已经训练好的多类支持向量机,得到数字音乐文件的情感类别。
所述的识别方法,其特征在于 所述预处理步骤顺序包括下述子步骤 (1)低通滤波子步骤对待识别的数字音乐文件和训练样本集中数字音乐文件的音乐信号进行低通滤波,去除噪音; (2)全波整流子步骤对经过低通滤波的音乐信号进行平滑处理; (3)归一化子步骤对全波整流后音乐信号的采样频率、声道数、解析度一致化,形成统一格式的音乐信号; (4)分帧子步骤将统一格式的音乐信号分帧,每帧音乐信号的时间长为10~60ms,两帧音乐信号之间时间跨度为5~30ms。
所述的识别方法,其特征在于 所述特征提取步骤包括声学特征提取子步骤、音乐乐理特征提取子步骤、特征向量构造子步骤和特征参数矩阵构造子步骤; (1)声学特征提取子步骤提取每帧音乐信号的下述声学特征 (1.1)短时能量Et 其中X[n]表示第t帧内所含的第n个采样点的幅值,N=28~10,为每帧内采样点个数; (1.2).频谱质心Ct 其中Mt[n]表示第t帧采样信号经过傅利叶变换后第n个频率子带的幅度,T为频域范围内共有子频带个数,质心反映了频谱形状,质心越高对应声音亮度越高,具有更多的高频部分; (1.3).频谱衰减截止频率Rt 衰减截止频率Rt是频谱形状的另一种表示方式,为音频信号能量衰减3dB时的截止频率; (1.4).频谱流量Ft 频谱流量是频谱变化量的和,体现音频信号的动态特征; (1.5).过零率Zt 时域的过零率表示信号的频率,式中,X[n]≥0时,sign(X[n])=1;X[n]<0时,sign(X[n])=-1; (1.6).美尔倒谱系数Dct`(r,t) Dct′(r,t)=lift(r)*Dct(r,t)r=1,...,M, 其中, r=2,...,M,M=1~40,为美尔倒谱系数的维数; 对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调,临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应,美尔标度是对这一临界带宽的度量方法之一,美尔倒谱系数是在美尔频率域提出来的倒谱特征参数; (2)音乐乐理特征提取子步骤提取每帧音乐信号的下述音乐乐理特征 (2.1)半音频率幅度xtcq 对每帧得到K=12~96个半音频率幅度,跨1~8个八度的音色特征;第t帧内第k个半音的频率幅度为xtcq[k],式中,表示第k个半音对应的窗口宽度,fs表示采样频率,fk表示第k个半音的频率,f0为基本频率,标注为1;Q为一个常数,WNk[n]表示宽度为Nk的Hanning窗; (2.2)节拍速度S 式中 音乐的节拍在一首歌曲内是保持稳定的,节拍最能反映音乐的情感。节奏明快的音乐常常让人感觉欢乐兴奋,节奏缓慢的音乐让人感觉压抑伤感,音乐的节拍与音乐信号的半音频率幅度值的变化有关,半音频率幅度的变化反映了音乐的节拍; (3)特征向量构造子步骤 (3.1)将计算待识别的数字音乐文件所含每帧音乐信号提取出的声学特征参数和乐理特征参数组合在一起,形成p行q列的矩阵u 式中,矩阵元素uij为第i帧音乐信号的第j维特征,i=1~p,j=1~q;数字音乐文件中所含帧的个数p由所述预处理步骤的分帧子步骤确定;每帧音乐信号提取的特征参数的维数q=10~100,由每帧音乐信号的声学特征和音乐乐理特征的数量及维数确定; (3.2)将矩阵u的每行矩阵元素进行平均,得到数字音乐文件对应的q行1列的特征向量U (4)特征参数矩阵构造子步骤 (4.1)将训练样本集中各数字音乐文件对应的特征向量构成q行z列的矩阵 式中,矩阵的每一列Ui为第i个数字音乐文件对应的特征向量,i=1~z,z为训练样本集中数字音乐文件的个数; (4.2)结合已知的训练训练样本集中数字音乐文件对应的情感类别符号,构造特征参数矩阵K 式中,Li表示第i个数字音乐文件对应的特征向量Ui对应的情感类别符号,Li取值为高兴、激动、悲伤、放松四种情感类型中的一种。
所述的识别方法,其特征在于 所述特征提取步骤的声学特征提取子步骤中,提取美尔倒谱系数的过程为 (1)将音乐信号经过傅利叶变换后n个频率子带的线性频率fhz变换到美尔频率fmel上 将美尔频率fmel均匀分为M段,M=1~40,其中,第m个美尔分段频率Melm 式中,fs为音乐信号的采样频率; (2)将第m个美尔分段频率映射到对应的线性频率Linm Linm=(exp(Melm/1127)-1)×700m=1,...,M (3)计算美尔滤波器组在各个线性频率上的抽头系数
式中Hm(k)表示第m个美尔滤波器在第k个线性频率上的抽头系数,N表示频域范围内子频带个数;第k个线性频率的频率值fk为 fk=k×Fs/N,k=1,...,N (4)提取对数谱特征 提取的第t帧信号的第m维对数谱特征FBank(m,t) FBank(m,t)=log(MBank(m,t))m=1,...,M 其中Mbank(m,t)表示提取的第t帧信号的第m维美尔谱特征 (5)将第t帧信号的第m维对数谱特征FBank(m,t)进行离散余弦变换,得到第t帧信号的第r维倒谱系数Dct(r,t) 其中 (6)倒谱滤波,提取美尔倒谱系数Dct`(r,t) Dct′(r,t)=lift(r)*Dct(r,t)r=1,...,M, 其中L为加权滤波器宽度。
所述的识别方法,其特征在于 所述特征提取步骤的音乐乐理特征提取子步骤中,提取音乐节拍速度的过程为 (5)计算半音频率幅度变化,得到能量变化序列Onset(x) 其中xtcqt(k)为x时刻第k个半音频率幅度,音乐信号的半音频率幅度的一阶差分和反映了音乐信号能量的振荡变化; (6)对能量变化序列根据自相关函数进行周期估计,得到自相关序列xcr(x) (7)采用对数高斯分布函数对自相关序列xcr(x)加权 为凸显自相关序列有效范围内的数据值,假设音乐拍速在此区间内符合对数高斯分布,可以采用对数高斯分布函数对自相关序列xcr(x)加权; (8)计算加权后自相关序列最大时x的值,得到音乐节拍速度S 所述的识别方法,其特征在于 所述多类支持向量机训练步骤包括下述子步骤 (2)构造情感判定函数子步骤为每一种情感类别采用单独的支持向量机进行训练,得到该类别情感判定函数,过程如下 (1.1)对情感类别符号进行量化 对第i个数字音乐文件对应的情感类别符号Li量化, 当Li与当前训练的情感类别相同时,Li=1, 当Li与当前训练的情感类别不相同时,Li=-1; (1.2)求参数ai*,b*的最优解, 在约束条件 下,求下式最大值对应的ai,作为最优解ai* 根据 和Li(w·Ui+b)-1=0,i=1~z, 得到b作为最优解b*;式中Ui表示训练样本集中第i个数字音乐文件的特征向量,Li为对应的情感类别,z为训练样本的个数; (1.3)构造具有连续输出值的当前训练的情感类别的情感判定函数f(U)为 式中核函数K符合MERCER定理; (1.4)重复过程(1.1)~(1.3),得到4种情感判定函数; (2)构造多类支持向量机子步骤 将4种情感判定函数结合在一起 . . . 多类支持向量机的情感类别判定函数为 本发明没有采用传统的针对MIDI格式的数字音乐文件进行分类,而是针对更具代表性的基于采样的数字音乐格式文件进行情感识别。在进行情感识别时,为了更加丰富的描述音乐内容,提高识别效率,不仅提取了语音识别领域常见的声学特征,还根据音乐的理论特点,提取了一系列的音乐乐理特征;同时采用了机器学习领域新兴的基于支持向量机的分类方法,确保了分类的效率,支持向量机是来源于统计学习理论的一种新兴机器学习算法,其主要思想就是将原始的数据空间通过一个核函数转换到另一个高维特征空间,并在新的空间实现最优分类。它克服了下述问题矢量分割法等过于简单,不能够取得好的识别率;神经网络的方法虽然具有较高的非线性和较强的分类能力,但是需要较长的学习时间;隐性马尔可夫模型在建立和训练时间上较长,计算复杂度过高。本发明采用多类支持向量机作为分类工具,支持向量机作为一种分类工具,具有坚实的理论基础,具有公认的学习速度快,分类精确率高的优点,对于小训练样本库也可以得到较好的结果。



图1为本发明的流程框图; 图2为数字音乐文件的波形示意图; 图3为数字音乐文件的节拍速度示意图。

具体实施例方式 下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明包括(1)预处理步骤;(2)特征提取步骤;(3)多类支持向量机训练步骤;(4)识别步骤。
本实施例基于西班牙Pompeu Fabra大学Cyril等建立的包括高兴、悲伤、兴奋、激动四种情感建立的四种音乐情感数据库。该数据库中每种情感音乐有100个数字音乐文件,每个音乐文件时间长为60秒。将数据库中每类情感数字音乐文件按照9∶1的比例分为两部分,一部分作为样本训练数据集,一部分作为待识别数据集。
1.预处理步骤 将待识别的数字音乐文件和训练样本集中数字音乐文件经过低通滤波、全波整流和规一化子步骤后,形成的统一格式为22050赫兹采样率、单声道、16位解析度的标准音乐信号,并按照时间长30ms,时间跨度15ms进行分帧。
2.特征提取步骤 对经过特征提取步骤后的待识别的数字音乐文件和训练样本集中数字音乐文件提取语音特征和乐理特征。在提取声学特征时,每个数字音乐文件时间长为60秒,总共分为2000帧,每帧所含采样点个数为665个。由于采样频率为22050赫兹,共分为665个频率子带。在计算美尔倒谱系数时,设置美尔倒谱系数的维数为20。
在提取乐理特征时,对于半音频率幅度的提取采用以C3作为基本参考频率,共得到60维,跨5个八度的音色特征。在进行节拍估计的时候,设置均值设为120,方差为0.6,这样的参数值也正符合拍速的分布规律。以其中一首数字音乐为例,图2表示数字音乐文件的波形图,横轴表示时间,单位为秒,纵轴表示幅度;图3表示数字音乐文件的节拍速度示意图,横轴表示时间,单位为秒,纵轴表示节拍幅度,幅度最大点对应着歌曲的节拍速度。
构造待识别数字音乐文件的特征向量和训练样本集的特征参数矩阵,其中特征向量的维数为86,特征参数矩阵的行数为86,列数为900。
3.多类支持向量机训练步骤 将训练样本集对应的特征参数矩阵输入多类支持向量机进行训练,得到4个代表4种情感类别的情感判定函数。支持向量机可选的核函数有线性函数、多项式函数、径向基函数、二层神经网络函数,本实施例选择的核函数为径向基函数 其中σ的值为特征向量维数的倒数,也就是1/86。
4.识别步骤 将待识别的数字音乐文件对应的特征向量输入训练好的多类支持向量机进行识别,得到数字音乐文件的情感类别,作为判别结果。
本发明从Cyril等所建立的音乐情感数据库中选取900数字音乐文件作为训练样本集,另外100个数字音乐文件为待识别样本,共进行30次的交叉验证。每次测试时,所有情感的平均识别正确率为(0.823,0.768,0.813,0.735,0.744,0.842,0.801,0.742,0.793,0.839,0.772,0.815,0.806,0.839,0.815,0.826,0.818,0.829,0.786,0.797,0.834,0.811,0.798,0.768,0.83,0.807,0.803,0.792,0.783,0.788),总的平均正确率为85.06%相对于传统的基于最近邻居情感识别方法,识别准确率提高了10.3%。
权利要求
1.一种数字音乐情感的识别方法,包括
(1)预处理步骤将待识别的数字音乐文件和训练样本集的数字音乐文件进行处理,形成统一格式并分帧;所述训练样本集包括高兴、激动、悲伤、放松四种情感类型的数字音乐文件;
(2)特征提取步骤对待识别的数字音乐文件和训练样本集中数字音乐文件的各帧音乐信号提取特征参数,所提取的特征参数包括声学特征参数和乐理特征参数,声学特征参数包括短时能量、频谱质心、频谱衰减截止频率、频谱流量、过零率、美尔倒谱系数;乐理特征参数包括音乐的音色、节拍特征;待识别的数字音乐文件各帧音乐信号的特征参数经平均后构成特征向量;将训练样本集各帧音乐信号提取的特征参数经平均后,构成特征参数矩阵;
(3)多类支持向量机训练步骤将特征参数矩阵作为训练集,为每一种情感类别采用单独的支持向量机进行训练,得到该类别情感判定函数,由四个类别情感判定函数组成多类支持向量机的情感类别判定函数;
(4)识别步骤将待识别的数字音乐文件的特征向量,输入已经训练好的多类支持向量机,得到数字音乐文件的情感类别。
2.如权利要求1所述的识别方法,其特征在于
所述预处理步骤顺序包括
(1)低通滤波子步骤对待识别的数字音乐文件和训练样本集中数字音乐文件的音乐信号进行低通滤波,去除噪音;
(2)全波整流子步骤对经过低通滤波的音乐信号进行平滑处理;
(3)归一化子步骤对全波整流后音乐信号的采样频率、声道数、解析度一致化,形成统一格式的音乐信号;
(4)分帧子步骤将统一格式的音乐信号分帧,每帧音乐信号的时间长为10~60ms,两帧音乐信号之间时间跨度为5~30ms。
3.如权利要求1所述的识别方法,其特征在于
所述特征提取步骤包括声学特征提取子步骤、音乐乐理特征提取子步骤、特征向量构造子步骤和特征参数矩阵构造子步骤;
(1)声学特征提取子步骤提取每帧音乐信号的下述声学特征
(1.1)短时能量Et
其中X[n]表示第t帧内所含的第n个采样点的幅值,N=28~10,为每帧内采样点个数;
(1.2).频谱质心Ct
其中Mt[n]表示第t帧采样信号经过傅利叶变换后第n个频率子带的幅度,T为频域范围内共有子频带个数,质心反映了频谱形状,质心越高对应声音亮度越高,具有更多的高频部分;
(1.3).频谱衰减截止频率Rt
衰减截止频率Rt是频谱形状的另一种表示方式,为音频信号能量衰减3dB时的截止频率;
(1.4).频谱流量Ft
频谱流量是频谱变化量的和,体现音频信号的动态特征;
(1.5).过零率Zt
时域的过零率表示信号的频率,式中,X[n]≥0时,sign(X[n])=1;X[n]<0时,sign(X[n])=-1;
(1.6).美尔倒谱系数Dct`(r,t)
Dct′(r,t)=lift(r)*Dct(r,t)r=1,...,M,
其中,r=1,...,M
r=1,...,M,
r=2,...,M,M=1~40,为美尔倒谱系数的维数;
(2)音乐乐理特征提取子步骤提取每帧音乐信号的下述音乐乐理特征
(2.1)半音频率幅度xtcq
对每帧得到K=12~96个半音频率幅度,跨1~8个八度的音色特征;第t帧内第k个半音的频率幅度为xtcq[k],式中,表示第k个半音对应的窗口宽度,fs表示采样频率,fk表示第k个半音的频率,
f0为基本频率,标注为1;Q为一个常数,
WNk[n]表示宽度为Nk的Hanning窗;
(2.2)节拍速度S
式中
(3)特征向量构造子步骤
(3.1)将计算待识别的数字音乐文件所含每帧音乐信号提取出的声学特征参数和乐理特征参数组合在一起,形成p行q列的矩阵u
式中,矩阵元素uij为第i帧音乐信号的第j维特征,i=1~p,j=1~q;数字音乐文件中所含帧的个数p由所述预处理步骤的分帧子步骤确定;每帧音乐信号提取的特征参数的维数q=10~100,由每帧音乐信号的声学特征和音乐乐理特征的数量及维数确定;
(3.2)将矩阵u的每行矩阵元素进行平均,得到数字音乐文件对应的q行1列的特征向量U
(4)特征参数矩阵构造子步骤
(4.1)将训练样本集中各数字音乐文件对应的特征向量构成q行z列的矩阵
式中,矩阵的每一列Ui为第i个数字音乐文件对应的特征向量,i=1~z,z为训练样本集中数字音乐文件的个数;
(4.2)结合已知的训练训练样本集中数字音乐文件对应的情感类别符号,构造特征参数矩阵K
式中,Li表示第i个数字音乐文件对应的特征向量Ui对应的情感类别符号,Li取值为高兴、激动、悲伤、放松四种情感类型中的一种。
4.如权利要求3所述的识别方法,其特征在于
所述特征提取步骤的声学特征提取子步骤中,提取美尔倒谱系数的过程为
(1)将音乐信号经过傅利叶变换后n个频率子带的线性频率fhz变换到美尔频率fmel上
将美尔频率fmel均匀分为M段,M=1~40,其中,第m个美尔分段频率Melm
m=1,...,M;
式中,fs为音乐信号的采样频率;
(2)将第m个美尔分段频率映射到对应的线性频率Linm
Linm=(exp(Melm/1127)-1)×700m=1,...,M
(3)计算美尔滤波器组在各个线性频率上的抽头系数
式中Hm(k)表示第m个美尔滤波器在第k个线性频率上的抽头系数,N表示频域范围内子频带个数;第k个线性频率的频率值fk为
fk=k×Fs/N,k=1,...,N
(4)提取对数谱特征
提取的第t帧信号的第m维对数谱特征FBank(m,t)
FBank(m,t)=log(MBank(m,t))m=1,...,M
其中Mbank(m,t)表示提取的第t帧信号的第m维美尔谱特征
m=1,...,M;
(5)将第t帧信号的第m维对数谱特征FBank(m,t)进行离散余弦变换,得到第t帧信号的第r维倒谱系数Dct(r,t)
r=1,...,M,
其中
r=2,...,M;
(6)倒谱滤波,提取美尔倒谱系数Dct`(r,t)
Dct′(r,t)=lift(r)*Dct(r,t)r=1,...,M ,
r=1,...,M,
其中L为加权滤波器宽度。
5.如权利要求3所述的识别方法,其特征在于
所述特征提取步骤的音乐乐理特征提取子步骤中,提取音乐节拍速度的过程为
(1)计算半音频率幅度变化,得到能量变化序列Onset(x)
其中xtcqt(k)为x时刻第k个半音频率幅度,音乐信号的半音频率幅度的一阶差分和反映了音乐信号能量的振荡变化;
(2)对能量变化序列根据自相关函数进行周期估计,得到自相关序列xcr(x)
(3)采用对数高斯分布函数对自相关序列xcr(x)加权
为凸显自相关序列有效范围内的数据值,假设音乐拍速在此区间内符合对数高斯分布,可以采用对数高斯分布函数对自相关序列xcr(x)加权;
(4)计算加权后自相关序列最大时x的值,得到音乐节拍速度S
6.如权利要求1所述的识别方法,其特征在于
所述多类支持向量机训练步骤包括下述子步骤
(1)构造情感判定函数子步骤为每一种情感类别采用单独的支持向量机进行训练,得到该类别情感判定函数,过程如下
(1.1)对情感类别符号进行量化
对第i个数字音乐文件对应的情感类别符号Li量化,
当Li与当前训练的情感类别相同时,Li=1,
当Li与当前训练的情感类别不相同时,Li=-1;
(1.2)求参数ai*,b*的最优解,
在约束条件ai≥0,下,求下式最大值对应的ai,作为最优解ai*
根据
和Li(w·Ui+b)-1=0,i=1~z,
得到b作为最优解b*;式中Ui表示训练样本集中第i个数字音乐文件的特征向量,Li为对应的情感类别,z为训练样本的个数;
(1.3)构造具有连续输出值的当前训练的情感类别的情感判定函数f(U)为
式中核函数K符合MERCER定理;
(1.4)重复过程(1.1)~(1.3),得到4种情感判定函数;
(2)构造多类支持向量机子步骤
将4种情感判定函数结合在一起
多类支持向量机的情感类别判定函数为
全文摘要
一种数字音乐情感的识别方法,属于计算机模式识别领域,解决现有数字音乐情感识别方法不能针对基于采样的数字音乐格式进行识别的问题,采用基于多类支持向量机分类技术,结合声学特征参数与音乐乐理特征参数,进行数字音乐的情感识别。本发明包括(1)预处理步骤;(2)特征提取步骤;(3)多类支持向量机训练步骤;(4)识别步骤。本发明将音乐情感分类为高兴、激动、悲伤、放松四种,针对基于采样的数字音乐格式文件进行情感识别,不仅提取了语音识别领域常见的声学特征,还根据音乐的理论特点,提取了一系列的音乐乐理特征;同时采用了基于支持向量机的分类方法,学习速度快,分类精确率高,提高了识别效率。
文档编号G06K9/62GK101599271SQ20091006303
公开日2009年12月9日 申请日期2009年7月7日 优先权日2009年7月7日
发明者王天江, 芳 刘, 刚 陈, 龚立宇, 艳 余, 李新仕, 姜鑫维 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1