基于深度学习的多模态融合的歌曲情感识别方法与流程

文档序号:13761611阅读:532来源:国知局
本发明属于自然语言处理技术与情感计算领域,具体地说是一种基于深度学习的多模态融合的歌曲情感类别的识别方法。
背景技术
:情感计算指的是让机器能够有识别理解人类情感的能力。人类表达情感中使用的文本,语音等信息形式中都蕴含着能够代表情感的特征值。歌曲是人类表达情感的一种重要方式,通过提取这些特征值,使用机器学习方法,让机器去自己学习特征值中蕴含的情感信息,使机器能够判断人类歌曲的情感类型,对人类歌曲进行自主的情感识别。当前存在的识别方法主要有:单独对歌词文本识别的方法,大多使用了TF-IDF等模型对文本进行情感识别,大多需要对文本进行预处理,同时在多语种和多分类识别中正确率较低,仅仅单独考虑的歌曲的文本信息,忽略歌曲旋律对歌曲类别的影响;单独对歌曲语音识别的方法,多只使用韵律学特征或基于频谱的整体特征,韵律学特征中蕴含强烈情感的特征值较难提取并且受到噪音影响较大,而基于频谱的特征在一些单独反映强烈情感部分的表现较差,并且单纯旋律很难考虑到歌曲的情感类别,对歌曲情感类型识别具有很大局限性;在结合多模态识别领域,针对歌曲情感类别的识别方法较少,大多都是针对歌曲风格识别,在针对歌曲情感类的识别方法中,使用深度方法多模态识别歌曲情感的方法更少;在特征模型的训练方面,使用一般机器学习的方法,面对大维度大数量级的数据,训练和预测存在着困难。技术实现要素:本发明是为了克服现有技术存在的不足之处,提出一种基于深度学习的多模态融合的歌曲情感识别方法,以前能全面结合歌曲的歌词文本、音频旋律两个方面的数据信息,通过二次融合的方法获得多模态歌曲语音模型,从而提高人机交互中的针对歌曲情感类别判断的准确度。本发明为解决技术问题采取如下技术方案:本发明一种基于深度学习的多模态融合的歌曲情感识别方法的特点是如下步骤进行:步骤1:收集歌曲的歌词文本数据库和歌曲的音频数据库;步骤2:利用N-gram算法对所述歌词文本数据库中的歌词文本进行特征提取,获得歌词文本信息特征;步骤3:利用梅尔频率倒谱系数对所述音频数据库中的音频数据进行语音特征提取,获得歌曲的第一语音信息特征;步骤4:提取所述音频数据的韵律学特征,所述韵律学特征包括:语速、振幅特征、基音周期和共振峰,从而获得歌曲的第二语音信息特征;步骤5:利用深度学习方法对所述第一语音信息特征,第二语音信息特征和歌词文本特征进行数据降维,获得降维后的第一语音信息特征、第二语音特征和歌词文本信息特征;步骤6:将所述降维后的第一语音信息特征和第二语音信息特征进行第一次融合,获得歌曲语音信息特征;步骤7:将所述歌曲语音特征与降维后的歌词文本特征进行第二次融合,获得歌曲综合信息特征;步骤8:利用分类器对所述歌曲综合信息特征进行训练,获得歌曲多模态情感分类识别模型;步骤9、利用所述歌曲多模态情感类别识别模型对待识别的歌曲进行情感分类识别,从而获得待识别的歌曲的情感类别。本发明所述的基于深度学习的多模态融合的歌曲情感识别方法的特点也在于,所述步骤6中的第一次融合是利用式(1)所示的混合特征模型进行计算,从而获得歌曲语音信息特征Vv:Vv=12||W1Th1-Vv1||22+12||W1Th1-Vv2||22-δ12||W1||F2---(1)]]>式(1)中,h1表示所述混合特征模型中隐藏层的输出,W1表示所述混合特征模型中输入层到隐藏层的权重;表示第一语音信息特征,表示第二语音信息特征;δ1表示比重控制参数;F表示Frobenius范数;表示欧几里德范数的平方;表示Frobenius范式。所述步骤7是的第二次融合是利用式(2)所示的混合特征模型进行计算,从而获得歌曲综合信息特征V:V=12||W2Th2-Vv||22+12||W2Th2-VT||22-δ22||W2||F2---(2)]]>式(2)中,h2代表隐藏层的输出,W2代表输入层到隐藏层权重;VT表示歌词文本特征,δ2表示另一个比重控制参数。与现有技术相比,本发明的有益效果体现在:1、本发明使用二次融合的方法:歌曲第一语音特征与第二语音特征融合作为歌曲的综合语音信息特征(即第一次融合),再将歌曲的综合语音特征和歌词文本特征融合(即第二次融合),获得歌曲的综合特征。用深度融合的方法能够在多维角度上对歌曲音频的不同语音特征进行深度的融合。比起单纯的特征层级的融合,这种分类器级别的融合方法能够进一步区分不同歌曲语音特征间情感信息的细微区别以及能够抛去两种不同特征单纯的形式差别,体现出单独两个语音特征不能体现的情感信息,获得的歌曲的综合语音特征具有更好的情感区分性。使用深度融合的方法能够解决歌曲综合语音特征与歌词文本特征融合中的数量级和维度问题,解决了两种不同特征在形式上具有不同的问题,同时能够从更深层角度比较两种不同形式特征的情感差异,获得两种不同特征的情感相似信息,获得的综合特征综合了歌曲音频和歌词文本两方面的情感性息,并且对不同的情感性息进行比较归纳,总结了两种特征的相似点。歌曲综合情感信息能够更好的体现出歌曲本身情感的情感倾向。歌词和音频两者结合能够很好考虑到实际生活中歌曲的情感表达方式,从而能够全面反映出人类歌曲中表现出的情感趋势,能够让机器学习到更好的情感经验。2、本发明使用深度学习的方法对情感特征值进行优化和分类。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。比起一般的机器学习方法,不仅能够对情感特征值进行很好的优化降维处理,同时能够获得情感特征更高的情感特征值。附图说明图1为本发明第一次融合,即歌曲音频融合特征模型图;图2为本发明第二次融合,即歌曲融合特征模型图;图3为本发明使用深度卷积神经网络(CNNs)模型图。具体实施方式本实施例中,一种基于深度学习的多模态融合歌曲情感类别识别方法,包括如下步骤:步骤1、收集歌曲的歌词文本数据库和歌曲音频数据库,每首歌曲的歌词文本与歌曲音频用编号相对应;对收集到的歌曲进行情感分类;具体的分为思念(miss),发泄(abreact),快乐(happy)和伤心(sad)这四类情感,并分别用1、2、3、4、表示。每个视频的综合情感特征可以用一个四元组Y表示。Y=(E,VT,VV1,VV2)---(1)]]>式(1)中,E代表本歌曲的情感分类,VT表示歌曲的歌词文本信息特征(TextFeature),表示歌曲的第一语音信息特征(VoiceFeature1),表示歌曲的第二语音信息特征(VoiceFeature2)。步骤2、利用N-gram算法对歌曲歌词文本数据库中内容进行文本特征提取,获得第一信息特征,即歌词文本信息特征;利用特定长度的N-gram算法取多种长度的特征词并记录其共现频度,将共现频度按位存入第一类信息特征向量中。本实施例中,常用表达词语的都为在四字以及四字以下的词汇,因此取两字词、三字词和四字词,具体的步骤如下:步骤2.1、选取两个字作为词w的长度l,即单个字的个数l=2,记为两字词w2,步骤2.2、利用式(2)获得在文本内容中任意一个两字词的共现概率p(w2),从而获得所有两字词的共现概率:P(w2)=P(C12C22)=P(C12)P(C22|C12)---(2)]]>式(2)中,表示两字词w2中的第1个字;表示两字词w2中的第2个字;并有:P(Cll|C1lC2l...Cl-1l)=W(C1lC2l...Cl-1lCll)W(C1lC2l...Cl-1l)---(3)]]>式(3)中,表征为在单个字都出现的情况下,出现的概率。表示为词出现次数。步骤2.3、按照每个两字词在文本内容中的顺序,将所有两字词的共现概率依次排序并存入信息特征向量VT1中;步骤2.4、选取三个字作为词w的长度l,即l=3,记为三字词w3,步骤2.5、利用式(4)获得在文本内容中任意一个三字词的共现概率p(w3),从而获得所有三字词的共现概率:P(w3)=P(C13C23C33)=P(C13)P(C23|C13)P(C33|C13C23)---(4)]]>式(3)中表示三字词w3中的第1个字;表示三字词w3中的第2个字;表示三字词w3中的第3个字;步骤2.6、按照每个三字词在文本内容中的顺序,将所有三字词的共现概率依次排序并存入信息特征向量VT2中;步骤2.7、选取四个字作为词w的长度l,即l=4,记为四字词w4,步骤2.8、利用式(5)获得在文本内容中任意一个四字词的共现概率p(w4),从而获得所有四字词的共现概率:P(w4)=P(C14C24C34C44)=P(C14)P(C24|C14)P(C34|C14C24)P(C44|C14C24C34)---(5)]]>式(4)中,表示四字词w4中的第1个字;表示四字词w4中的第2个字;表示四字词w4中的第3个字;表示四字词w4中的第4个字;步骤2.9、按照每个四字词在文本内容中的顺序,将所有四字词的共现概率依次排序并存入信息特征向量VT3中;步骤2.10、利用式(6)获得歌曲的歌词信息特征VT:VT=VT1+VT2+VT3(6)步骤3、利用改进的梅尔频率倒谱系数对歌曲音频数据进行语音特征提取,获得歌曲第一语音信息特征;本实施例中,使用改进的梅尔倒谱系数(MFCC)作为歌曲的第一语音特征。梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,与频率f的关系可以表示式(7):Mel(f)=3595×lg(1+f700)---(7)]]>步骤3.1、利用式(8)所示的一阶激励响应高通滤波器对所述歌曲语音数据进行预处理,可以平缓语音信号中过于起伏的部分,获得平滑的语音信号:H(S)=1-μS-1(8)本实施例中,μ=0.97;步骤3.2、对平滑的语音数据取N个采样点为一帧进行分帧处理,获得分帧后的语音信号S(n);分帧处理的参数选择与语音信号的采样频率有关,本文取采样频率为8000Hz,一般人类语音信号在10-20ms为稳定的,故取10-20ms为一帧,设置帧长N为256,即隔256个采样点取一帧。分帧后信号为S(n)。为了避免窗边界对信号的遗漏,一般取帧长的一半作为帧移,即每次位移一帧的二分之一长度后再取下一帧,这样可以避免帧与帧之间的特性变化太大。步骤3.3、对分帧后的语音信号利用式(9)和式(10)进行加窗处理,通过式(9)的海明窗进行加窗之后,能够减少语音信号吉布斯效应的影响,从而获得加窗后的语音信号S'(n):S'(n)=S(n)+W(n)(9)W(n)=(1-a)-a×cos(2πnN-1),0≤n≤N-1---(10)]]>式(10)中,a为调整系数,a∈(0,1);本实施例中,a的取值为0.46;步骤3.4、利用式(11)对加窗后的语音信号S'(n)进行快速傅里叶变换,获得倒谱的语音信号Xa(K):Xa(K)=Σn=0N-1W(n)e-j2πk/N,0≤k≤N---(11)]]>步骤3.5、利用梅尔滤波器组对倒谱的语音信号Xa(K)进行滤波,获得加卷的语音信号;Mel滤波器组实质上是满足式(12)的一组三角滤波器:Mel[f(m)]-Mel[f(m-1)]=Mel[f(m+1)]-Mel[f(m-1)](12)式(12)中,f(m)为三角滤波器的中心频率,各f(m)之间的间隔随着m值减小而缩小,随着m值的增大而增宽。定义一个具有24个滤波器的滤波器组,因为每一个三角滤波器的覆盖范围都近似于人耳的一个临界带宽,因此可以来模拟人耳的掩蔽效应。24个滤波器形成满足式(13)的滤波器组,通过这个Mel滤波器组可以得到经过滤波后的Mel频率信号:Hm(k)=0,k<f(m-1)2[k-f(m-1)][f(m+1)-f(m-1)][f(m)-f(m-1)],f(m-1)≤k≤f(m)2[f(m+1)-k][f(m+1)-f(m-1)][f(m+1)-f(m)],f(m)≤k≤f(m+1)0f(m+1)≤k---(13)]]>步骤3.6、利用离散余弦变换对加卷的语音信号进行解卷,获得静态的梅尔频率倒谱参数SMFCC;将步骤3.6中得到的信号H(k)通过式(14)进行离散余弦变换(DFT),得到需要的静态mfcc参数SMFCC:SMFCC(n)=Σm=0N-1log(m)cos(πn(m-0.5)M),n=1,2,...,L---(14)]]>L为mfcc的系数阶数,本实施例中L取值为12。步骤3.7、利用式(15)对静态的梅尔频率倒谱参数进行动态差分,获得一阶差分的梅尔频率倒谱参数;式(15)中,dt表示第t个一阶差分,St表示第t个倒谱系数,p表示倒谱系数的阶数,k表示一阶导数的时间差,k取值为1。步骤3.8、对一阶差分的梅尔频率倒谱参数进行动态差分计算,获得二阶差分的梅尔频率倒谱参数d2MFCC,即将步骤3.9中得到的一阶差分参数带入式(15)得到二阶差分参数。步骤3.9、利用式(16)对静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合获得的MFCC既是歌曲的第一语音信息特征。MFCC=N3d1mfcc+N3d2MFCC+N3SMFCC---(16)]]>步骤4、提取所述歌曲音频数据的韵律学特征,所述韵律学特征包括语速、振幅特征、基音周期和共振峰,获得歌曲的第二语音信息特征;;步骤4.1、对歌曲的音频数据文件计算音频的持续时间t,同再根据语音本地语音词典库中文本内容的分词结果计算字数Z,利用式(17)得到音频的语速s:s=Z÷t(17)步骤4.2、对歌曲的音频数据文件,通过式(18)所示的短时平均幅度函数来衡量音频的振幅,提取当能量超过阀值的振幅值的平均值作为每一个音频的振幅特征An,式(18)中x(n)为输入音频段。An=Σm=-∞+∞|x(n)|W(n-m)---(18)]]>式(18)中,W(n)为加窗运算,可以使用矩形窗,也可使用汉明窗。步骤4.3、使用短时自相关法对歌曲的音频数据文件进行基因周期的估值,提取音频文件的基音周期P。步骤4.3.1、对歌曲的音频数据文件通过式(9)消波函数进行中心消波处理,突出音频文件中关于基音周期的信息,得到消波后的音频信号f(x):f(x)=x-xα,x>xα0,-xα≤x≤xαx+xα,x<xα---(19)]]>式(19)中,xα为削波电平,xα取每帧语音最大幅度的60%。步骤4.3.2、利用中值平滑处理方法对消波后的音频信号f(x)进行平滑中值处理,把音频信号f(x)通过中值滤波器,采用一个滑动窗口,将窗口中心移动到样点,在样点左右各取M个样点,将这些样点从大到小列,得到中值x,即中值平滑处理后的样点。在实施例中,M取值为5。步骤4.3.3、计算步骤4.3.2得到的信号x(n)相邻中值峰值之间的距离,即得到音频的基音周期P。步骤4.4、使用基于LPC的方法求出对歌曲的音频数据文件的共振峰R。步骤4.4.1、利用在LPC模型,对歌曲的音频数据文件用式(20)的函数形式来表示:z(n)=Σβ=1γaβ(n-β)+G×u(n)---(20)]]>式(20)中,u(n)为激励函数,G为增益参数,β为LPC参数;γ表示极点个数。步骤4.4.2:由式(20)得到相应的数字滤波器传递函数g(n):g(n)=z(n)G×u(n)=1Π(1-aβn-β)---(21)]]>同时式(21)也可以表示为式(12)所示的γ个极点的级联形式:g(n)=1Π(1-nβ×n-β)---(22)]]>式(22)中,nβ是g(n)在n-平面上的第β个极点,g(n)的所有极点都在z平面的单位圆内。则第β个共振峰的频率和带宽分别为θβ/2πT和ln(rβ)/πT。步骤4.4.2、对步骤3.4.1得到的信号g(n)进行求根,判断得到共振峰R。步骤4.5、对得到的韵律学特征用式(23)组成一个四元矩阵,既是歌曲的第二语音特征。VV2=(s,An,P,R)---(23)]]>步骤5:利用深度学习方法对所述第一语音信息特征,第二语音信息特征和歌词文本特征进行数据优化,获得优化的第一语音信息特征、第二语音特征和第三语音特征;深度学习优化方法是将三种信息特征单独作为RBM模型的输入值,经过RBM模型优化后的输出值再次作为RBM模型的输入值,直到综合信息特征的数量级满足分类器的处理能力为止,以最后的输出值作为优化后的综合信息特征。从而由多层RBM模型构建出DBM模型。具体的,本实施例中,采用3层RBM对特征向量进行优化,采用CD算法对每一层RBM进行训练,每层迭代次数设定为100次,3层RBM的节点数目分别为5000,4000,2000。即将综合信息特征向量作为第一层RBM的输入,第一层RBM的输出作为第二层RBM的输入。以此推论,第三层RBM输出即为优化后的信息特征。通过三个信息特征的分别单独优化,可以获得优化后的第一语音特征、第二语音特征和歌词文本特征。步骤6:第一次优化:将所述歌曲第一语音信息特征和歌曲第二语音信息特征进行第一次融合,获得歌曲语音信息特征;具体的说,利用图1的混合特征模型以及公式(24)对优化后的第一语音信息特征和优化后的第二语音信息特征进行融合,获得歌曲语音信息特征。输入第一语音特征和第二语音特征,经过式(24)深度融合模型,达到第一融合的效果。Vv=12||W1Th1-Vv1||22+12||W1Th1-Vv2||22-δ12||W1||F2---(24)]]>式(9)其中h1代表隐藏层的输出,w1代表输入层到隐藏层权重。是第一歌曲语音信息特征,是第二歌曲语音信息特征,从两种语音性特征分别提取向量经过RBM优化后得到的维数相同的特征,使w1来进行映射。自编码器使用δ1参数来控制两种特征在构建融合特征中的比重。公式的前两项代表了不同模态混合时的重构误差,公式的后一项使用正则化来减少权重矩阵的Frobenius范数以防止出现过拟合现象。使用随机梯度下降算法可以得到合适的权重,并且可以将其用于计算隐藏层的激励。最后通过计算获得歌曲语音综合信息特征。步骤7:将所述歌曲语音特征与歌词文本特征进行第二次融合,获得歌曲综合信息特征;具体的说,利用图2的混合特征模型以及公式(25)对第一语音信息特征和第二语音信息特征进行融合,获得歌曲语音信息特征。Vv=12||W2Th2-Vv||22+12||W2Th2-VT||22-δ22||W2||F2---(25)]]>式(25)来自于式(24)其中h2代表隐藏层的输出,w2代表输入层到隐藏层权重。Vv是歌曲语音综合信息特征,VT是歌词文本信息特征,使用w2来进行相互映射,自编码器中使用δ2参数来控制两种特征在构建融合特征中的比重。通过式(25)将歌曲的歌曲语音信息特征和歌词文本信息融合,获得歌曲的综合信息特征,。步骤8:利用深度分类器对所述优化的综合信息特征进行训练,歌曲多模态情感类别分类识别模型;步骤8.1、使用格式转换算法将步骤8中得到的优化后的综合信息特征转换为分类器能够处理的形式,得到转换完成的综合信息特征。本发明中使用分类器为CNNS分类器,图3既是CNNS分类器模型。步骤8.1、使用的CNNS分类器模型包含两层卷积层以及两层的下采样层,其中S1,S2为下采样层,使用最大池化采样方法(maxpooling)。最大池化采样时一种非线性采样,能够降低上层计算的复杂度。C1和C2为两个卷积层,卷积层的输出为式(26)Cin=f(Σi∈BWB,nCin-1+an)---(26)]]>其中,n代表输入的层数,代表第n层的第i个输出向量,B代表所有输入卷积层特征图的特征,WB,n代表第n层卷积层的权值参数,an代表第n层卷积层的网络偏置,f代表激励函数。CNNs可以使用rectifiedlinerunites(ReLUs,式(27))来代替传统神经网络中使用的sigmoid函数作为激励函数,让神经网络能够更快收敛的同时还能够减少传统多层神经网络中出现的梯度消失问题(vanishinggradient)。f=max(Σi∈BWB,nCin-1+an)---(27)]]>将歌曲综合信息特征V输入CNNS分类器进行训练,获得完成训练的歌曲多模态情感类别分类识别模型。步骤9、利用获得的歌曲情感类别分类识别模型对待识别的歌曲进行情感类别识别。步骤9.1、利用步骤2~7计算待识别歌曲的综合信息特征,获得待识别综合信息特征值。步骤9.2、利用步骤8中获得的模型,输入待识别综合信息特征,对歌曲情感类别进行识别,从而获得待识别歌曲的情感种类。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1