语音情感识别方法、装置、设备及存储介质与流程

文档序号:20268310发布日期:2020-04-03 18:40阅读:221来源:国知局
语音情感识别方法、装置、设备及存储介质与流程

本发明涉及语音信号处理和模式识别技术领域,尤其涉及一种语音情感识别方法、装置、设备及存储介质。



背景技术:

目前有较多种语音情感识别方法,但是这些方法没有注意到人类的语音情感表达具有短时性和局部性。比如语音情感识别中,前半句、一个词愤怒就可认为整句话愤怒。会出现以下几个问题:一、使用整句话识别情感,经常会稀释情感的特征变化。比如,“我们明天去北京,你觉得可行吗?”,这句话往往后半句才体现较大的情感差别。导致在深度学习中使用针对时间的均值池化、卷积和针对所有特征的全连接层会稀释情感的特征变化;二、局部组合成句子时,经常会中和情感的特征变化。众所周知,汉语语调有一至四声,其中二声和四声在时间变化上的特点完全相反。导致在深度学习中使用针对时间的均值池化,针对时间序列的注意层等均会中和情感的特征变化;三、组成情感的字词在语句中的位置不固定,会造成同情感的特征差异很大。比如,“这样可行吗?”和“可行吗?这样!”表达了相同意思,但是现有卷积神经网络,输出的特征却完全不同。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种语音情感识别方法、装置、设备及存储介质,旨在解决如何准确语音情感的技术问题。

为实现上述目的,本发明提供了一种语音情感识别方法,所述方法包括以下步骤:

获取预设维度的测试语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始语音样本;

对所述初始语音样本进行信号特征数据提取,获得待处理语音信号特征数据;

通过预设统计函数对所述待处理语音信号特征数据进行特征统计,获得待确认特征统计结果;

根据所述待确认特征统计结果,通过预设多目标优化算法获得特征目标数据;

将所述特征目标数据输入至预设softmax分类模型中,获得语音情感识别结果。

优选地,所述获取预设维度的测试语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始语音样本的步骤之前,还包括:

获取预设维度的训练语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始训练语音样本;

对所述初始训练语音样本进行特征提取,获得待处理训练语音信号特征;

通过预设统计函数对所述待处理训练语音信号特征进行特征统计,获取待确认训练特征统计结果;

根据所述待确认训练特征统计结果,通过预设多目标优化算法获得目标训练特征数据;

根据所述目标训练特征数据获取所述目标训练特征数据对应的情感类别;

根据所述情感类别和所述情感类别对应的目标训练特征数据建立预设softmax分类模型。

优选地,所述根据所述待确认训练特征统计结果,通过预设多目标优化算法获得目标训练特征数据的步骤,包括:

对所述待确认训练特征统计结果进行情感类别划分,获得不同情感类别对应的待优化训练特征数据;

根据所述待优化训练特征数据,通过预设多目标优化算法获得目标训练特征数据。

优选地,所述将所述特征目标数据输入至预设softmax分类模型中,获得语音情感识别结果的步骤,包括:

将所述特征目标数据输入至所述预设softmax分类模型中,获得语音情感类别数据;

对所述语音情感类别数据进行数据统计,获得语音情感类别数据值;

根据所述语音情感类别数据值获得语音情感识别结果。

优选地,所述根据所述语音情感类别数据值获得语音情感识别结果的步骤,包括:

判断所述语音情感类别数据值是否属于预设语音情感类别阈值范围;

若所述语音情感类别数据值属于所述预设语音情感类别阈值范围,则根据所述语音情感类别数据值获得语音情感识别结果。

优选地,所述判断所述语音情感类别数据值是否属于预设语音情感类别阈值范围的步骤之后,还包括:

若所述语音情感类别数据值不属于所述预设语音情感类别阈值范围,则返回所述将所述特征目标数据输入至所述预设softmax分类模型中,获得语音情感类别数据的步骤。

优选地,所述通过预设统计函数对所述待处理语音信号特征数据进行特征统计,获得待确认特征统计结果的步骤,包括:

对所述待处理语音信号特征数据进行筛选,获得标签样本特征数据;

通过预设统计函数对所述标签样本特征数据进行特征统计,获得待确认特征统计结果。

此外,为实现上述目的,本发明还提出一种语音情感识别装置,所述装置包括:获取模块,用于获取预设维度的测试语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始语音样本;

提取模块,用于对所述初始语音样本进行信号特征数据提取,获得待处理语音信号特征数据;

统计模块,用于通过预设统计函数对所述待处理语音信号特征数据进行特征统计,获得待确认特征统计结果;

计算模块,用于根据所述待确认特征统计结果,通过预设多目标优化算法获得特征目标数据;

确定模块,用于将所述特征目标数据输入至预设softmax分类模型中,获得语音情感识别结果。

此外,为实现上述目的,本发明还提出一种电子设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音情感识别程序,所述语音情感识别程序配置为实现如上文中任一项所述的语音情感识别方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有语音情感识别程序,所述语音情感识别程序被处理器执行时实现如上文中任一项所述的语音情感识别方法的步骤。

本发明通过先获取预设维度的测试语音样本,并通过预设规则对测试语音样本进行分段处理,获得多个初始语音样本,然后对初始语音样本进行信号特征数据提取,获得待处理语音信号特征数据,并对所述待处理语音信号特征数据进行筛选,获得标签样本特征数据,通过预设统计函数对所述标签样本特征数据进行特征统计,获得待确认特征统计结果,之后根据待确认特征统计结果,通过预设多目标优化算法获得特征目标数据,最后将特征目标数据输入至预设softmax分类模型中,获得语音情感识别结果。通过上述方法,能够充分利用语音情感片段,以及语句与片段之间的情感关系,并转化为语音情感数据,从而提升语音情感识别效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图;

图2为本发明语音情感识别方法第一实施例的流程示意图;

图3为本发明语音情感识别方法第二实施例的流程示意图;

图4为本发明语音情感识别装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的电子设备结构示意图。

如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(centralprocessingunit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(randomaccessmemory,ram)存储器,也可以是稳定的非易失性存储器(non-volatilememory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音情感识别程序。

在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中,所述电子设备通过处理器1001调用存储器1005中存储的语音情感识别程序,并执行本发明实施例提供的语音情感识别方法。

本发明实施例提供了一种语音情感识别方法,参照图2,图2为本发明一种语音情感识别方法第一实施例的流程示意图。

本实施例中,所述语音情感识别方法包括以下步骤:

步骤s10:获取预设维度的测试语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始语音样本。

需要说明的是,在获取预设维度的测试语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始语音样本的步骤之前,需要获取预设维度的训练语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始训练语音样本,对所述初始训练语音样本进行特征提取,获得待处理训练语音信号特征,通过预设统计函数对所述待处理训练语音信号特征进行特征统计,获取待确认训练特征统计结果,根据所述待确认训练特征统计结果,通过预设多目标优化算法获得目标训练特征数据,根据所述目标训练特征数据获取所述目标训练特征数据对应的情感类别,根据所述情感类别和所述情感类别对应的目标训练特征数据建立预设softmax分类模型。

此外,应理解的是,上述所说的预设规则为用户自定义的样本划分规则,也就是说,假如获取的预设维度的测试语音样本对应的时长为5s,将预设规则设定为0.2s,则按照预设规则划分后得到25段0.2s的初始语音样本。

此外,需要说明的是,上述所说的预设维度可以是时间维度,也可以是非时间维度等等,本实施例并不加以限制。

步骤s20:对所述初始语音样本进行信号特征数据提取,获得待处理语音信号特征数据。

此外,应理解的是,对所述初始语音样本进行信号特征数据提取mel频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)、对数频率功率系数(logfrequencypowercoefficients,lfpc)、线性预测倒谱系数(linearpredictivecepstralcoding,lpcc)、过零峰值幅度(zerocrossingwithpeakamplitude,zcpa)、感知线性预测(perceptuallinearpredictive,plp)、拉斯塔滤波器感知线性预测(rastaperceptuallinearpredictiv,r-plp)。

应理解的是,上述所说的每类特征的特征提取结果均为二维矩阵,其中一个维度为时间维度,然后计算每类特征fi在时间维度上的一阶导数δfi、二阶导数δδfi,并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接,形成每一类特征的最终特征提取结果;将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。

此外,为了便于理解,以下进行举例说明:

假设,mfcc对应的fmfcc∈r39×z,δfmfcc∈r39×z,δδfi∈r39×z,其中z为帧数,即时间维度数,在非时间维度上的串接结果

在mfcc和lpcc连接时,假如串接后为

此外,应理解的是,在进行每一次语音信号特征提取时,提取mfcc,lfpc,lpcc,zcpa,plp,r-plp特征,其中mfcc、lfpc的mel滤波器个数为40;lpcc、plp、r-plp的线性预测阶数分别为12、16、16;zcpa的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:ti*39,ti*40,ti*12,ti*16,ti*16,ti*16,其中ti为第i条语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:ti*117,ti*140,ti*36,ti*48,ti*48,ti*48。第i样本的提取到的语音信号特征由上述所有特征组合而成,维度为ti*(117+140+36+48+48+48)。

步骤s30:通过预设统计函数对所述待处理语音信号特征数据进行特征统计,获得待确认特征统计结果。

需要说明的是,使用统计函数,利用均值(mean)、标准方差(standarddeviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得上述特征在时间维度上的统计结果。

此外,应理解的是,从上述得到的统计结果中进行筛选,获得标签样本特征数据,并通过预设统计函数对所述标签样本特征数据进行特征统计,获得待确认特征统计结果,并将有标签样本的特征统计结果记为{x1,x2,...,xn},其中n为有标签标本的个数。

步骤s40:根据所述待确认特征统计结果,通过预设多目标优化算法获得特征目标数据。

此外,需要说明的是,将上步中的{x1,x2,...,xn},按语句的标签分成xa=[x1,x2,…,xm],xb=[xm+1,xm+2,…,xn],其中xa是a类情感的片段,xb是b类情感的片段,训练基于倾向性认知学习的语句片段情感分类方法步骤如下:

(1)对x∈xa,将xa中以x为中心的parzen窗内的样本与中心样本x的角度划分成多个箱子,然后使用下式计算x在xa中周围数据的分布特征。

bx=[b1,b2,…,bk]

式中bj表示第j个箱子,1(xi∈xj)在xi属于xj时的值为1否则为0,xj是xa的子集,xj内的样本与x之间的角度分布在第j个箱子中。

(2)对x∈xa,将xb中以x为中心的parzen窗内的样本与中心样本x的角度划分成多个箱子,然后使用下式计算x在xa中周围数据的分布特征。

式中表示第个箱子,1(xi∈xj)在xi属于xj时的值为1否则为0,xj是xb的子集,xj内的样本与x之间的角度分布在第j个箱子中。

(3)使用下式计算两数据集在x点附近的数据分布差异:

式中表示两向量之间的距离,此处使用欧氏距离。

(4)根据上一步骤的计算结果可以得到倾向于a情感的片段集合倾向于b情感的片段集合以及倾向于中性情感的片段集合其中为dx>t的x组成的集合。为dx<-t的x组成的集合。为t>dx>-t组成的集合。t是自主设置的阈值。对每个集合,再使用谱聚类的方法聚成多个区域,得到每个片段xi的区域标签

(5)定义l=[la,lb,lc],其中la∈rp、lb∈rq、lc∈ru,p、q和u分别为样本的个数,la、lb和lc中的元素值分别为1、2、3。使用下述目标方程,学习片段的特征子空间:

j=j1(oi,oj)+β*j2(oi,oj)

β是平衡参数。其中j1(oi,oj)可以实现三个类之间的类内距离较小,类间距离较大,定义如下:

式中oi和oj为映射到子空间之后的结果。li和lj对应oi和oj在l中的值。m是一个阈值,调整类间距离的范围,本发明中取1。gij为xi和xj之间的高斯距离。计算公式如下:

j2(oi,oj)可以尽量保持每个区域内的相对关系不变,以及属于同一类的区域相对靠近,但是并不重叠。定义如下:

式中是xi和xj的区域标签。gli是li类所有gij中的最大值。实现当两个片段属于同一区域时,保持他们之间的关系,当两者不属于同一区域但是属于同一类别时,以一个小的权重最小化他们之间的距离,可使两个区域尽量不重叠。

为了优化目标方程j,我们定义oi=φ(wqφ(…w3φ(w2φ(w1xi+b1)+b2)+b3)+b4)式中φ(·)为sigmoid函数,w1,w2,…,wq为映射矩阵,b1,b2,…,bq为偏移量。通过求可得到w1,w2,…,wq和b1,b2,…,bq的值,是求j对w的导数,是求j对b的导数。

步骤s50:将所述特征目标数据输入至预设softmax分类模型中,获得语音情感识别结果。

此外,应理解的是,根据上述步骤获得w1,w2,…,wq和b1,b2,…,bq,计算{x1,x2,...,xm}的特征选择结果z。

此外,需要说明的是,上述所说的w1,w2,…,wq和b1,b2,…,bq为本申请中的特征目标数据。

此外,应理解的是,使用训练过程中获得的预设softmax分类器,分别获得{x1,x2,...,xm}的语音情感类别{l1,l2,...,lm}。然后根据{l1,l2,...,lm}投票获得该语句的情感。

此外,需要说明的是,将所述特征目标数据输入至所述预设softmax分类模型中,获得语音情感类别数据,对所述语音情感类别数据进行数据统计,获得语音情感类别数据值,根据所述语音情感类别数据值获得语音情感识别结果。

此外,上述所说的根据所述语音情感类别数据值获得语音情感识别结果的步骤为判断所述语音情感类别数据值是否属于预设语音情感类别阈值范围,若所述语音情感类别数据值属于所述预设语音情感类别阈值范围,则根据所述语音情感类别数据值获得语音情感识别结果;若所述语音情感类别数据值不属于所述预设语音情感类别阈值范围,则返回所述将所述特征目标数据输入至所述预设softmax分类模型中,获得语音情感类别数据的步骤。

此外,还需要说明的是,本发明的情感识别的效果评价采用的语料库是语音情感识别领域的标准数据库。首先完成训练过程,然后进行识别测试。测试模式按5倍交叉方式进行。可以识别愤怒、恐惧、烦躁、厌恶、开心、中性、悲伤7种情感,在说话人依赖的情况下平均分类正确率为94.65%,除了开心与愤怒比较容易混淆以外,其它情绪之间区分度较好。在说话人独立的情况下平均分类正确率为89.30%。

本实施例通过先获取预设维度的测试语音样本,并通过预设规则对测试语音样本进行分段处理,获得多个初始语音样本,然后对初始语音样本进行信号特征数据提取,获得待处理语音信号特征数据,并对所述待处理语音信号特征数据进行筛选,获得标签样本特征数据,通过预设统计函数对所述标签样本特征数据进行特征统计,获得待确认特征统计结果,之后对所述待确认训练特征统计结果进行情感类别划分,获得不同情感类别对应的待优化训练特征数据,根据所述待优化训练特征数据,通过预设多目标优化算法获得目标训练特征数据,最后将特征目标数据输入至预设softmax分类模型中,获得语音情感识别结果。通过上述方法,能够充分利用语音情感片段,以及语句与片段之间的情感关系形成一种倾向性的数据,从而可以模拟人类处理倾向性的过程,利用数据的不平衡信息,相互比较,互为约束条件,将不同情感的片段分离开,从而增加样本规模和提高样本多样性。

参考图3,图3为本发明一种语音情感识别方法第二实施例的流程示意图。

基于上述第一实施例,本实施例语音情感识别方法在所述步骤s10之前,还包括:

步骤s000:获取预设维度的训练语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始训练语音样本。

步骤s001:对所述初始训练语音样本进行特征提取,获得待处理训练语音信号特征。

步骤s002:通过预设统计函数对所述待处理训练语音信号特征进行特征统计,获取待确认训练特征统计结果。

步骤s003:根据所述待确认训练特征统计结果,通过预设多目标优化算法获得目标训练特征数据。

步骤s004:根据所述目标训练特征数据获取所述目标训练特征数据对应的情感类别。

步骤s005:根据所述情感类别和所述情感类别对应的目标训练特征数据建立预设softmax分类模型。

此外,需要说明的是,上述所说的根据所述待确认训练特征统计结果,通过预设多目标优化算法获得目标训练特征数据的步骤为,对所述待确认训练特征统计结果进行情感类别划分,获得不同情感类别对应的待优化训练特征数据,根据所述待优化训练特征数据,通过预设多目标优化算法获得目标训练特征数据。

此外,还需要说明的是,上述所说的步骤为建立预设softmax分类模型,在这一阶段中,针对所有说话人均分别进行训练,得到每个说话人所对应的分类器,具体过程如下:

步骤(1-1)对每条语句分段;

步骤(1-2)提取各个分段的特征;

步骤(1-3)对所有特征执行特征统计;

步骤(1-4)训练基于倾向性认知学习的语句片段情感分类方法;

步骤(1-5)对每个特征子空间训练支持向量机;

步骤(1-6)分类结果由所有支持向量机的结果投票获得;

此外,需要说明的是,所述步骤(1-1)中,将语音信号以0.2秒为间隔分段。

所述步骤(1-2)中,对每段提取语音信号特征包括:mfcc(melfrequencycepstrumcoefficient,mel频率倒谱系数)、lfpc(logfrequencypowercoefficients,对数频率功率系数)、lpcc(linearpredictivecepstralcoding,线性预测倒谱系数)、zcpa(zerocrossingwithpeakamplitude,过零峰值幅度)、plp(perceptuallinearpredictive,感知线性预测)、r-plp(rastaperceptuallinearpredictiv,拉斯塔滤波器感知线性预测),每类特征的特征提取结果均为二维矩阵,其中一个维度为时间维度;然后计算每类特征fi在时间维度上的一阶导数δfi、二阶导数δδfi,并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接,形成每一类特征的最终特征提取结果;将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。

所述步骤(1-3)中对特征进行特征统计为:获得特征在时间维度上的均值、标准方差、最小值、最大值、峭度、偏度统计结果,有标签样本的特征统计结果记为{x1,x2,...,xn},对应的标签记为y=[y1,y2,...,yn]∈rn

所述步骤(1-4)中,给定数据集xa=[x1,x2,…,xm],xb=[xm+1,xm+2,…,xn],其中xa是a类情感的片段,xb是b类情感的片段,训练基于倾向性认知学习的语句片段情感分类方法步骤如下:

步骤(1-4-1)对x∈xa,将xa中以x为中心的parzen窗内的样本与中心样本x的角度划分成多个箱子,然后使用下式计算x在xa中周围数据的分布特征。

bx=[b1,b2,…,bk]

式中bj表示第j个箱子,1(xi∈xj)在xi属于xj时的值为1否则为0,xj是xa的子集,xj内的样本与x之间的角度分布在第j个箱子中。

步骤(1-4-2)对x∈xa,将xb中以x为中心的parzen窗内的样本与中心样本x的角度划分成多个箱子,然后使用下式计算x在xa中周围数据的分布特征。

式中表示第个箱子,1(xi∈xj)在xi属于xj时的值为1否则为0,xj是xb的子集,xj内的样本与x之间的角度分布在第j个箱子中。

步骤(1-4-3)使用下式计算两数据集在x点附近的数据分布差异:

式中表示两向量之间的距离,可使用多种距离计算方法。

步骤(1-4-4)根据步骤(1-4-3)的计算结果可以得到倾向于a情感的片段集合倾向于b情感的片段集合以及倾向于中性情感的片段集合其中为dx>t的x组成的集合。为dx<-t的x组成的集合。为t>dx>-t组成的集合。t是自主设置的阈值。对每个集合,再使用谱聚类的方法聚成多个区域,得到每个片段xi的区域标签

步骤(1-4-5)定义l=[la,lb,lc],其中la∈rp、lb∈rq、lc∈ru,p、q和u分别为样本的个数,la、lb和lc中的元素值分别为1、2、3。使用下述目标方程,学习片段的特征子空间:

j=j1(oi,oj)+β*j2(oi,oj)

β是平衡参数。其中j1(oi,oj)可以实现三个类之间的类内距离较小,类间距离较大,定义如下:

式中oi和oj为映射到子空间之后的结果。li和lj对应oi和oj在l中的值。m是一个阈值,调整类间距离的范围。gij为xi和xj之间的高斯距离。计算公式如下:

j2(oi,oj)可以尽量保持每个区域内的相对关系不变,以及属于同一类的区域相对靠近,但是并不重叠。定义如下:

式中是xi和xj的区域标签。gli是li类所有gij中的最大值。实现当两个片段属于同一区域时,保持他们之间的关系,当两者不属于同一区域但是属于同一类别时,以一个小的权重最小化他们之间的距离,可使两个区域尽量不重叠。

为了优化目标方程j,定义oi=φ(wqφ(…w3φ(w2φ(w1xi+b1)+b2)+b3)+b4),式中φ(·)为sigmoid函数,w1,w2,…,wq为映射矩阵,b1,b2,…,bq为偏移量。通过求可得到w1,w2,…,wq和b1,b2,…,bq的值,是求j对w的导数,是求j对b的导数。

步骤(1-4-6)对步骤(1-4-5)获得的的特征子空间,训练softmax分类器将情感a,情感b和中性情感c分开。

步骤(1-4-7)依照步骤(1-4-5)和步骤(1-4-6)的操作过程,训练能识别所有情绪对的softmax分类器。

此外,应理解的是,以下为上述内容总结:

第一步:对所有的训练样本语音以0.2秒为间隔分段。

第二步:对所有的语音片段训练信号提取mfcc,lfpc,lpcc,zcpa,plp,r-plp特征,其中mfcc、lfpc的mel滤波器个数为40;lpcc、plp、r-plp的线性预测阶数分别为12、16、16;zcpa的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:ti*39,ti*40,ti*12,ti*16,ti*16,ti*16,其中ti为第i条语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:ti*117,ti*140,ti*36,ti*48,ti*48,ti*48。第i样本的提取到的语音信号特征由上述所有特征组合而成,维度为ti*(117+140+36+48+48+48).

第三步:使用如下统计函数:均值(mean)、标准方差(standarddeviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得上述特征在时间维度上的统计结果。有标签样本的特征统计结果记为{x1,x2,...,xn},其中n为有标签标本的个数。

第四步:将上步中的{x1,x2,...,xn},按语句的标签分成xa=[x1,x2,…,xm],xb=[xm+1,xm+2,…,xn],其中xa是a类情感的片段,xb是b类情感的片段,训练基于倾向性认知学习的语句片段情感分类方法步骤如下:

(1)对x∈xa,将xa中以x为中心的parzen窗内的样本与中心样本x的角度划分成多个箱子,然后使用下式计算x在xa中周围数据的分布特征。

bx=[b1,b2,…,bk]

式中bj表示第j个箱子,1(xi∈xj)在xi属于xj时的值为1否则为0,xj是xa的子集,xj内的样本与x之间的角度分布在第j个箱子中。

(2)对x∈xa,将xb中以x为中心的parzen窗内的样本与中心样本x的角度划分成多个箱子,然后使用下式计算x在xa中周围数据的分布特征。

式中表示第个箱子,1(xi∈xj)在xi属于xj时的值为1否则为0,xj是xb的子集,xj内的样本与x之间的角度分布在第j个箱子中。

(3)使用下式计算两数据集在x点附近的数据分布差异:

式中表示两向量之间的距离,此处使用欧氏距离。

(4)根据上述步骤(1-4-3)的计算结果可以得到倾向于a情感的片段集合倾向于b情感的片段集合以及倾向于中性情感的片段集合其中为dx>t的x组成的集合。为dx<-t的x组成的集合。为t>dx>-t组成的集合。t是自主设置的阈值。对每个集合,再使用谱聚类的方法聚成多个区域,得到每个片段xi的区域标签

(5)定义l=[la,lb,lc],其中la∈rp、lb∈rq、lc∈ru,p、q和u分别为样本的个数,la、lb和lc中的元素值分别为1、2、3。使用下述目标方程,学习片段的特征子空间:

j=j1(oi,oj)+β*j2(oi,oj)

β是平衡参数。其中j1(oi,oj)可以实现三个类之间的类内距离较小,类间距离较大,定义如下:

式中oi和oj为映射到子空间之后的结果。li和lj对应oi和oj在l中的值。m是一个阈值,调整类间距离的范围,本发明中取1。gij为xi和xj之间的高斯距离。计算公式如下:

j2(oi,oj)可以尽量保持每个区域内的相对关系不变,以及属于同一类的区域相对靠近,但是并不重叠。定义如下:

式中是xi和xj的区域标签。gli是li类所有gij中的最大值。实现当两个片段属于同一区域时,保持他们之间的关系,当两者不属于同一区域但是属于同一类别时,以一个小的权重最小化他们之间的距离,可使两个区域尽量不重叠。

为了优化目标方程j,定义oi=φ(wqφ(…w3φ(w2φ(w1xi+b1)+b2)+b3)+b4),式中φ(·)为sigmoid函数,w1,w2,…,wq为映射矩阵,b1,b2,…,bq为偏移量。通过求可得到w1,w2,…,wq和b1,b2,…,bq的值,是求j对w的导数,是求j对b的导数。

(6)对上述步骤(1-4-5)获得的的特征子空间,训练softmax分类器将情感a,情感b和中性情感c分开。

(7)依照上述步骤(1-4-5)和上述步骤(1-4-6)的操作过程,训练能识别所有情绪对的softmax分类器。

本实施例通过获取预设维度的训练语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始训练语音样本,然后对所述初始训练语音样本进行特征提取,获得待处理训练语音信号特征,并通过预设统计函数对所述待处理训练语音信号特征进行特征统计,获取待确认训练特征统计结果,根据所述待确认训练特征统计结果,通过预设多目标优化算法获得目标训练特征数据,之后根据所述目标训练特征数据获取所述目标训练特征数据对应的情感类别,并根据所述情感类别和所述情感类别对应的目标训练特征数据建立预设softmax分类模型。通过上述方法,可以针对语句局部片段训练模型,可避免一句话中不同局部片段含有不同情感、或者同一情感不同局部片段相互冲突,从而降低深度学习物理含义与语音情感识别特性之间的差异。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有语音情感识别程序,所述语音情感识别程序被处理器执行时实现如上文所述的语音情感识别方法的步骤。

参照图4,图4为本发明语音情感识别装置第一实施例的结构框图。

如图4所示,本发明实施例提出的语音情感识别装置包括:获取模块4001,用于获取预设维度的测试语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始语音样本;提取模块4002,用于对所述初始语音样本进行信号特征数据提取,获得待处理语音信号特征数据;统计模块4003,用于通过预设统计函数对所述待处理语音信号特征数据进行特征统计,获得待确认特征统计结果;计算模块4004,用于根据所述待确认特征统计结果,通过预设多目标优化算法获得特征目标数据;确定模块4005,用于将所述特征目标数据输入至预设softmax分类模型中,获得语音情感识别结果。

所述获取模块4001获取预设维度的测试语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始语音样本的操作。

需要说明的是,在获取预设维度的测试语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始语音样本的步骤之前,需要获取预设维度的训练语音样本,并通过预设规则对所述测试语音样本进行分段处理,获得多个初始训练语音样本,对所述初始训练语音样本进行特征提取,获得待处理训练语音信号特征,通过预设统计函数对所述待处理训练语音信号特征进行特征统计,获取待确认训练特征统计结果,根据所述待确认训练特征统计结果,通过预设多目标优化算法获得目标训练特征数据,根据所述目标训练特征数据获取所述目标训练特征数据对应的情感类别,根据所述情感类别和所述情感类别对应的目标训练特征数据建立预设softmax分类模型。

此外,应理解的是,上述所说的预设规则为用户自定义的样本划分规则,也就是说,假如获取的预设维度的测试语音样本对应的时长为5s,将预设规则设定为0.2s,则按照预设规则划分后得到25段0.2s的初始语音样本。

此外,需要说明的是,上述所说的预设维度可以是时间维度,也可以是非时间维度等等,本实施例并不加以限制。

所述提取模块4002对所述初始语音样本进行信号特征数据提取,获得待处理语音信号特征数据的操作。

此外,应理解的是,对所述初始语音样本进行信号特征数据提取mel频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)、对数频率功率系数(logfrequencypowercoefficients,lfpc)、线性预测倒谱系数(linearpredictivecepstralcoding,lpcc)、过零峰值幅度(zerocrossingwithpeakamplitude,zcpa)、感知线性预测(perceptuallinearpredictive,plp)、拉斯塔滤波器感知线性预测(rastaperceptuallinearpredictiv,r-plp)。

应理解的是,上述所说的每类特征的特征提取结果均为二维矩阵,其中一个维度为时间维度,然后计算每类特征fi在时间维度上的一阶导数δfi、二阶导数δδfi,并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接,形成每一类特征的最终特征提取结果;将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。

此外,为了便于理解,以下进行举例说明:

假设,mfcc对应的fmfcc∈r39×z,δfmfcc∈r39×z,δδfi∈r39×z,其中z为帧数,即时间维度数,在非时间维度上的串接结果

在mfcc和lpcc连接时,假如串接后为

此外,应理解的是,在进行每一次语音信号特征提取时,提取mfcc,lfpc,lpcc,zcpa,plp,r-plp特征,其中mfcc、lfpc的mel滤波器个数为40;lpcc、plp、r-plp的线性预测阶数分别为12、16、16;zcpa的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:ti*39,ti*40,ti*12,ti*16,ti*16,ti*16,其中ti为第i条语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:ti*117,ti*140,ti*36,ti*48,ti*48,ti*48。第i样本的提取到的语音信号特征由上述所有特征组合而成,维度为ti*(117+140+36+48+48+48)。

所述统计模块4003通过预设统计函数对所述待处理语音信号特征数据进行特征统计,获得待确认特征统计结果的操作。

需要说明的是,使用统计函数,利用均值(mean)、标准方差(standarddeviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得上述特征在时间维度上的统计结果。

此外,应理解的是,从上述得到的统计结果中进行筛选,获得标签样本特征数据,并通过预设统计函数对所述标签样本特征数据进行特征统计,获得待确认特征统计结果,并将有标签样本的特征统计结果记为{x1,x2,...,xn},其中n为有标签标本的个数。

所述计算模块4004根据所述待确认特征统计结果,通过预设多目标优化算法获得特征目标数据的操作。

此外,需要说明的是,将上步中的{x1,x2,...,xn},按语句的标签分成xa=[x1,x2,…,xm],xb=[xm+1,xm+2,…,xn],其中xa是a类情感的片段,xb是b类情感的片段,训练基于倾向性认知学习的语句片段情感分类方法步骤如下:

(1)对x∈xa,将xa中以x为中心的parzen窗内的样本与中心样本x的角度划分成多个箱子,然后使用下式计算x在xa中周围数据的分布特征。

bx=[b1,b2,…,bk]

式中bj表示第j个箱子,1(xi∈xj)在xi属于xj时的值为1否则为0,xj是xa的子集,xj内的样本与x之间的角度分布在第j个箱子中。

(2)对x∈xa,将xb中以x为中心的parzen窗内的样本与中心样本x的角度划分成多个箱子,然后使用下式计算x在xa中周围数据的分布特征。

式中表示第个箱子,1(xi∈xj)在xi属于xj时的值为1否则为0,xj是xb的子集,xj内的样本与x之间的角度分布在第j个箱子中。

(3)使用下式计算两数据集在x点附近的数据分布差异:

式中表示两向量之间的距离,此处使用欧氏距离。

(4)根据上一步骤的计算结果可以得到倾向于a情感的片段集合倾向于b情感的片段集合以及倾向于中性情感的片段集合其中为dx>t的x组成的集合。为dx<-t的x组成的集合。为t>dx>-t组成的集合。t是自主设置的阈值。对每个集合,再使用谱聚类的方法聚成多个区域,得到每个片段xi的区域标签

(5)定义l=[la,lb,lc],其中la∈rp、lb∈rq、lc∈ru,p、q和u分别为样本的个数,la、lb和lc中的元素值分别为1、2、3。使用下述目标方程,学习片段的特征子空间:

j=j1(oi,oj)+β*j2(oi,oj)

β是平衡参数。其中j1(oi,oj)可以实现三个类之间的类内距离较小,类间距离较大,定义如下:

式中oi和oj为映射到子空间之后的结果。li和lj对应oi和oj在l中的值。m是一个阈值,调整类间距离的范围,本发明中取1。gij为xi和xj之间的高斯距离。计算公式如下:

j2(oi,oj)可以尽量保持每个区域内的相对关系不变,以及属于同一类的区域相对靠近,但是并不重叠。定义如下:

式中是xi和xj的区域标签。gli是li类所有gij中的最大值。实现当两个片段属于同一区域时,保持他们之间的关系,当两者不属于同一区域但是属于同一类别时,以一个小的权重最小化他们之间的距离,可使两个区域尽量不重叠。

为了优化目标方程j,我们定义oi=φ(wqφ(…w3φ(w2φ(w1xi+b1)+b2)+b3)+b4)式中φ(·)为sigmoid函数,w1,w2,…,wq为映射矩阵,b1,b2,…,bq为偏移量。通过求可得到w1,w2,…,wq和b1,b2,…,bq的值,是求j对w的导数,是求j对b的导数。

所述确定模块4005将所述特征目标数据输入至预设softmax分类模型中,获得语音情感识别结果的操作。

此外,应理解的是,根据上述步骤获得w1,w2,…,wq和b1,b2,…,bq,计算{x1,x2,...,xm}的特征选择结果z。

此外,需要说明的是,上述所说的w1,w2,…,wq和b1,b2,…,bq为本申请中的特征目标数据。

此外,应理解的是,使用训练过程中获得的预设softmax分类器,分别获得{x1,x2,...,xm}的语音情感类别{l1,l2,...,lm}。然后根据{l1,l2,...,lm}投票获得该语句的情感。

此外,需要说明的是,将所述特征目标数据输入至所述预设softmax分类模型中,获得语音情感类别数据,对所述语音情感类别数据进行数据统计,获得语音情感类别数据值,根据所述语音情感类别数据值获得语音情感识别结果。

此外,上述所说的根据所述语音情感类别数据值获得语音情感识别结果的步骤为判断所述语音情感类别数据值是否属于预设语音情感类别阈值范围,若所述语音情感类别数据值属于所述预设语音情感类别阈值范围,则根据所述语音情感类别数据值获得语音情感识别结果;若所述语音情感类别数据值不属于所述预设语音情感类别阈值范围,则返回所述将所述特征目标数据输入至所述预设softmax分类模型中,获得语音情感类别数据的步骤。

此外,还需要说明的是,本发明的情感识别的效果评价采用的语料库是语音情感识别领域的标准数据库。首先完成训练过程,然后进行识别测试。测试模式按5倍交叉方式进行。可以识别愤怒、恐惧、烦躁、厌恶、开心、中性、悲伤7种情感,在说话人依赖的情况下平均分类正确率为94.65%,除了开心与愤怒比较容易混淆以外,其它情绪之间区分度较好。在说话人独立的情况下平均分类正确率为89.30%。

应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。

本实施例通过先获取预设维度的测试语音样本,并通过预设规则对测试语音样本进行分段处理,获得多个初始语音样本,然后对初始语音样本进行信号特征数据提取,获得待处理语音信号特征数据,并对所述待处理语音信号特征数据进行筛选,获得标签样本特征数据,通过预设统计函数对所述标签样本特征数据进行特征统计,获得待确认特征统计结果,之后对所述待确认训练特征统计结果进行情感类别划分,获得不同情感类别对应的待优化训练特征数据,根据所述待优化训练特征数据,通过预设多目标优化算法获得目标训练特征数据,最后将特征目标数据输入至预设softmax分类模型中,获得语音情感识别结果。通过上述方法,能够充分利用语音情感片段,以及语句与片段之间的情感关系形成一种倾向性的数据,从而可以模拟人类处理倾向性的过程,利用数据的不平衡信息,相互比较,互为约束条件,将不同情感的片段分离开,从而增加样本规模和提高样本多样性。

需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。

另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的语音情感识别方法,此处不再赘述。

此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(readonlymemory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1