集成语音情感识别方法、装置、设备及存储介质与流程

文档序号:20195553发布日期:2020-03-27 20:07阅读:180来源:国知局
集成语音情感识别方法、装置、设备及存储介质与流程

本发明涉及语音信号处理和模式识别技术领域,尤其涉及一种集成语音情感识别方法、装置、设备及存储介质。



背景技术:

语音情感识别的目的是使计算机从语音信号中发现人的情感状态,让机器能够理解人的感性思维,从而使计算机具有更人性化更复杂的功能。语音作为人类交流的最主要方式,以及语音信号的易于捕获性,使语音情感识别技术能够用于非常多的领域:(1)推荐系统。一个能够理解你心情的推荐,推荐的不是广告,而是人心;推荐的不是服务,而是懂你;自然能大大提升推荐效果。(2)电话客服情绪管理系统。能提升客服服务质量,也能避免客服产生心理疾病。(3)个人健康监控。可避免一个人长时间处于消极状态。另外,在智能家居、远程教育、游戏反馈、情感治疗等领域均有较大作用。如果语音情感识别技术发展成熟,能够使用随身携带的设备,随时理解使用者的情感状态,然后根据使用者的情感状态为他服务。将对整个互联网服务方式产生颠覆性的影响,对日常生活中常用的设备产生一次重大的洗牌,毕竟没有人愿意面对冷冰冰的机器!这对提升我国电子商务,社交软件,智能电视,手机,机器人等it产业竞争力有重要意义。

目前有较多种语音情感识别方法,其中集成学习是一个很好的用于提升语音情感识别效果的方法。目前常见的基于集成学习的语音情感识别方法有以下几种:(1)人工定义分层的集成框架。(2)人工指定特征子模型。(3)使用多种分类器。(4)随机子模型以及其它的通用集成学习方法。其中第(1)和第(2)种方法需要较多的人工参与,设计的模型的通用性较差。第(3)种大部分在原始特征模型执行,可能存在维数灾难的问题。第(4)种特征子模型的多样性和分类能力难以确保。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种集成语音情感识别方法、装置、设备及存储介质,旨在解决如何提升语音识别准确度的技术问题。

为实现上述目的,本发明提供了一种集成语音情感识别方法,所述方法包括以下步骤:

对待识别语音样本进行特征提取,获得预设维度的语音信号特征;

通过预设统计函数对所述语音信号特征进行特征统计,获得特征统计结果;

对所述特征统计结果进行归一化处理,获得特征初始数据;

对所述特征初始数据进行筛选,获得特征目标数据;

将所述特征目标数据输入至预设训练分类模型中,获得集成语音情感识别结果。

优选地,所述对所述特征统计结果进行归一化处理,获得特征初始数据的步骤,包括:

对所述特征统计结果进行初步归一化处理,获得样本特征数据;

对所述样本特征数据进行说话人归一化处理,获得样本处理数据,并将所述样本处理数据作为特征初始数据。

优选地,所述对所述特征初始数据进行筛选,获得特征目标数据的步骤,包括:

根据所述样本处理数据,通过预设特征选择算法获得标签样本处理数据,并将所述标签样本目标数据作为特征目标数据。

优选地,所述对待识别语音样本进行特征提取,获得预设维度的语音信号特征的步骤之前,还包括:

对训练识别语音样本进行特征提取,获得预设维度的训练语音信号特征;

通过预设统计函数对所述训练语音信号特征进行特征统计,获得训练特征统计结果;

对所述训练特征统计结果进行初步归一化处理,获得训练样本数据;

对所述训练样本数据进行说话人归一化处理,获得训练样本处理数据;

根据所述训练样本处理数据,通过预设特征选择算法获得标签训练样本处理数据;

根据所述标签训练样本处理数据获取所述标签训练样本处理数据对应的类别标签;

根据所述标签训练样本处理数据和所述类别标签建立预设训练分类模型。

优选地,所述预设训练分类模型包括多个预设训练分类子模型;

所述将所述特征目标数据输入至预设训练分类模型中,获得集成语音情感识别结果的步骤,包括:

将所述特征目标数据输入至所述预设训练分类子模型中,获得语音情感类别数据;

对所述语音情感类别数据进行数据统计,获得语音情感类别数据值;

根据所述语音情感类别数据值获得集成语音情感识别结果。

优选地,所述根据所述语音情感类别数据值获得集成语音情感识别结果的步骤,包括:

判断所述语音情感类别数据值是否属于预设语音情感类别阈值范围;

若所述语音情感类别数据值属于所述预设语音情感类别阈值范围,则根据所述语音情感类别数据值获得集成语音情感识别结果。

优选地,所述判断所述语音情感类别数据值是否属于预设语音情感类别阈值范围的步骤之后,还包括:

若所述语音情感类别数据值不属于所述预设语音情感类别阈值范围,则返回所述将所述特征目标数据输入至所述预设训练分类子模型中,获得语音情感类别数据的步骤。

此外,为实现上述目的,本发明还提出一种集成语音情感识别装置,所述装置包括:

获得模块,用于对待识别语音样本进行特征提取,获得预设维度的语音信号特征;

统计模块,用于通过预设统计函数对所述语音信号特征进行特征统计,获得特征统计结果;

处理模块,用于对所述特征统计结果进行归一化处理,获得特征初始数据;

筛选模块,用于对所述特征初始数据进行筛选,获得特征目标数据;

确定模块,用于将所述特征目标数据输入至预设训练分类模型中,获得集成语音情感识别结果。

此外,为实现上述目的,本发明还提出一种电子设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的集成语音情感识别程序,所述集成语音情感识别程序配置为实现如上文中任一项所述的集成语音情感识别方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有集成语音情感识别程序,所述集成语音情感识别程序被处理器执行时实现如上文中任一项所述的集成语音情感识别方法的步骤。

本发明通过需要对待识别语音样本进行特征提取,然后获得预设维度的语音信号特征,并通过预设统计函数对所述语音信号特征进行特征统计,获得特征统计结果,对所述特征统计结果进行初始归一化处理和说话人归一化处理,获得特征初始数据,之后对所述特征初始数据进行筛选,获得特征目标数据,通过将所述特征目标数据输入至所述预设训练分类子模型中,获得语音情感类别数据,对所述语音情感类别数据进行数据统计,获得语音情感类别数据值,最后根据所述语音情感类别数据值获得集成语音情感识别结果,避免了特征选择结果过拟合于训练数据,选择有利于识别该说话人语音情感的特征,从而能够很好的提升特征子模型的多样性和分类能力,进而提升集成分类器的效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图;

图2为本发明集成语音情感识别方法第一实施例的流程示意图;

图3为本发明集成语音情感识别方法第二实施例的流程示意图;

图4为本发明集成语音情感识别装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的电子设备结构示意图。

如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(centralprocessingunit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(randomaccessmemory,ram)存储器,也可以是稳定的非易失性存储器(non-volatilememory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及集成语音情感识别程序。

在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中,所述电子设备通过处理器1001调用存储器1005中存储的集成语音情感识别程序,并执行本发明实施例提供的集成语音情感识别方法。

本发明实施例提供了一种集成语音情感识别方法,参照图2,图2为本发明一种集成语音情感识别方法第一实施例的流程示意图。

本实施例中,所述集成语音情感识别方法包括以下步骤:

步骤s10:对待识别语音样本进行特征提取,获得预设维度的语音信号特征。

此外,需要说明的是,在对待识别语音样本进行特征提取,获得预设维度的语音信号特征的步骤之前,需要对训练识别语音样本进行特征提取,获得预设维度的训练语音信号特征,通过预设统计函数对所述训练语音信号特征进行特征统计,获得训练特征统计结果,对所述训练特征统计结果进行初步归一化处理,获得标签训练样本数据和无标签训练样本数据,对所述标签训练样本数据和所述无标签训练样本数据进行说话人归一化处理,获得标签训练样本处理数据和无标签训练样本处理数据,根据所述标签训练样本处理数据和所述无标签训练样本处理数据,通过训练半督导特征选择算法获得标签训练样本选择数据,根据所述标签训练样本选择数据获取所述标签训练样本对应的类别标签,根据所述标签训练样本选择数据和所述类别标签建立预设训练分类模型。

需要说明的是,从待识别语音样本中提取的语音信号特征包括:mel频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)、对数频率功率系数(logfrequencypowercoefficients,lfpc)、线性预测倒谱系数(linearpredictivecepstralcoding,lpcc)、过零峰值幅度(zerocrossingwithpeakamplitude,zcpa)、感知线性预测(perceptuallinearpredictive,plp)、拉斯塔滤波器感知线性预测(rastaperceptuallinearpredictiv,r-plp)。

应理解的是,上述所说的每类特征的特征提取结果均为二维矩阵,其中一个维度为时间维度,然后计算每类特征fi在时间维度上的一阶导数δfi、二阶导数δδfi,并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接,形成每一类特征的最终特征提取结果;将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。

此外,为了便于理解,以下进行举例说明:

假设,mfcc对应的fmfcc∈r39×z,δfmfcc∈r39×z,δδfi∈r39×z,其中z为帧数,即时间维度数,在非时间维度上的串接结果

在mfcc和lpcc连接时,假如串接后为

此外,应理解的是,在进行每一次语音信号特征提取时,提取mfcc,lfpc,lpcc,zcpa,plp,r-plp特征,其中mfcc、lfpc的mel滤波器个数为40;lpcc、plp、r-plp的线性预测阶数分别为12、16、16;zcpa的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:ti*39,ti*40,ti*12,ti*16,ti*16,ti*16,其中ti为第i条语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:ti*117,ti*140,ti*36,ti*48,ti*48,ti*48。第i样本的提取到的语音信号特征由上述所有特征组合而成,维度为ti*(117+140+36+48+48+48)。

步骤s20:通过预设统计函数对所述语音信号特征进行特征统计,获得特征统计结果。

需要说明的是,使用统计函数,利用均值(mean)、标准方差(standarddeviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得上述特征在时间维度上的统计结果。

步骤s30:对所述特征统计结果进行归一化处理,获得特征初始数据。

应理解的是,对所述特征统计结果进行初步归一化处理,获得样本特征数据,对所述样本特征数据进行说话人归一化处理,获得样本处理数据,并将所述样本处理数据作为特征初始数据。

此外,有上述步骤可知有标签样本的特征统计结果记为{x1,x2,…,xn},某一说话人无标签训练样本的特征统计结果记为{xn+1,xn+2,…,xn+m},则对所有特征统计结果{x1,x2,…,xn+m}分别使用下式进行初步归一化:。

其中表示所有样本的均值,表示所有样本的方差;

之后,对初步归一化结果{x'1,x'2,…,x'n+m}使用下式执行说话人归一化:

其中x'j,j=1,2,…,ni是训练样本中与x'i说话人标签相同的样本,ni为训练样本中与x'i说话人标签相同的样本的个数。

此外,应理解的是,多个特征子集通过一个统一的特征选择框架得到,每个特征子集的数据描述能力和分类能力都能确保。在该基础上训练的基分类器有较好的多样性和分类强度。能明显降低基分类器的个数,和提高基分类器的分类能力。

同时,使用改进的归一化算法对特征统计结果进行归一化。该归一化算法包含初步归一化和说话人归一化两步,其中初步归一化使用所有样本的均值和方差对每个样本进行归一化,能够避免特征取值范围的不同带来的影响;说话人归一化只需使用该说话人所有样本的均值,而对均值的估计在样本数量较少时也能得到较高的置信度,所以能够在说话人无标签样本数量很少的情况下,达到较好的说话人归一化效果。

步骤s40:对所述特征初始数据进行筛选,获得特征目标数据。

需要说明的是,根据所述样本处理数据,通过预设特征选择法获得标签样本处理数据和无标签样本处理数据,并将所述标签样本目标数据作为特征目标数据。

步骤s50:将所述特征目标数据输入至预设训练分类模型中,获得集成语音情感识别结果。

需要说明的是,所述预设训练分类模型包括多个预设训练分类子模型,其每个预设分类子模型都支持向量机。

此外,应理解的是,上述得到预设训练分类子模型的步骤为:

(1)定义描述样本局部几何结构的矩阵l:

l=(i-s)t(i-s)

式中i∈rn×n是单位矩阵,即对角线元素值为1,其它元素值为0;s通过下式优化得到:

(2)使用下式定义样本之间的关系:

然后计算拉普拉斯矩阵其中d是一个对角矩阵dii=∑jgij;解决特征分解问题并且让v=[v1,v2,l,vc]为最小的2到c+1个特征值对应的特征向量,其中c为语音情感的类别数;

(3)使用(4)优化下式

其中pkq(i,j)=wk(i,j)*wq(i,j)

(4)使用下述循环优化上式

fork=1top

初始化为单位矩阵,(对角线为1,其余为0)设置t=0,p为需要的子模型个数,

使用下述循环迭代优化wk重复:

(4-1)使用下式计算

式中x是训练数据,i是单位矩阵,α,β,γ是三个平衡参数,l为公式(1)计算得到,v为公式(2)计算得到。

(4-2)计算是对角矩阵,其中的第i个对角元素通过下式计算得到:

(4-3)计算其中的第i行,第j列的元素由下式计算得到:

式中pqk(i,·)的第i行,第j列的元素通过下式计算得到:

pkq(i,j)=wk(i,j)*wq(i,j)

(4-4)t=t+1,直到之差小于一定的预设阈值。

此外,应理解的是,将所述特征目标数据输入至所述预设训练分类子模型中,获得语音情感类别数据,将所述语音情感类别数据进行数据统计,获得语音情感类别数据值,根据所述语音情感类别数据值获得集成语音情感识别结果。

此外,需要说明的是,上述所说的根据所述语音情感类别数据值获得集成语音情感识别结果的步骤为,判断所述语音情感类别数据值是否属于预设语音情感类别阈值范围;若所述语音情感类别数据值属于所述预设语音情感类别阈值范围,则根据所述语音情感类别数据值获得集成语音情感识别结果,若所述语音情感类别数据值不属于所述预设语音情感类别阈值范围,则返回所述将所述特征目标数据输入至所述预设训练分类子模型中,获得语音情感类别数据的步骤。

此外,应理解的是上述为识别阶段,所述识别阶段的步骤为:

在这一阶段中,针对已知说话人的待识别情感样本的语音信号进行处理,根据上面训练阶段得到的训练分类器得到此待识别样本的情感类别。具体过程如下:

第一步:对待识别情感样本的语音信号提取mfcc,lfpc,lpcc,zcpa,plp,r-plp特征,其中mfcc、lfpc的mel滤波器个数为40;lpcc、plp、r-plp的线性预测阶数分别为12、16、16;zcpa的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:t*39,t*40,t*12,t*16,t*16,t*16,其中t为该待识别情感语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:t*117,t*140,t*36,t*48,t*48,t*48。对该待识别情感语句提取到的语音信号特征由上述所有特征组合而成,维度为t*(117+140+36+48+48+48)。

第二步:使用如下统计函数:均值(mean)、标准方差(standarddeviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得该待识别情感语句的特征统计结果x。

第三步:说话人归一化。首先根据训练阶段获得的μ、σ使用式(1)计算x的初步归一化结果x';然后使用式(2)对x'计算说话人归一化结果

第四步:根据训练过程中获得的特征选择向量v,计算的特征选择结果z。

第五步:使用训练过程中获得的分类器,获得z的语音情感类别l。

本发明的情感识别的效果评价采用的语料库是德国的emo-db语音情感数据库,其为语音情感识别领域的标准数据库。首先完成训练过程,然后进行识别测试。测试模式按5倍交叉方式进行。可以识别愤怒、恐惧、烦躁、厌恶、开心、中性、悲伤7种情感,在说话人依赖的情况下平均分类正确率为90.84%,除了开心与愤怒比较容易混淆以外,其它情绪之间区分度较好。在说话人独立的情况下平均分类正确率为86.50%。

本实施例通过对待识别语音样本进行特征提取,获得预设维度的语音信号特征,通过预设统计函数对所述语音信号特征进行特征统计,获得特征统计结果,对所述特征统计结果进行归一化处理,获得特征初始数据,对所述特征初始数据进行筛选,获得特征目标数据,将所述特征目标数据输入至预设训练分类模型中,获得集成语音情感识别结果,通过上述方式,寻找多个有足够能力描述数据的特征子集,使得数据的利用率更高,从而更够准确的得到语音情感识别效果。

参考图3,图3为本发明一种集成语音情感识别方法第二实施例的流程示意图。

基于上述第一实施例,本实施例集成语音情感识别方法在所述步骤s10之前,还包括:

步骤s000:对训练识别语音样本进行特征提取,获得预设维度的训练语音信号特征。

步骤s001:通过预设统计函数对所述训练语音信号特征进行特征统计,获得训练特征统计结果。

步骤s002:对所述训练特征统计结果进行初步归一化处理,获得训练样本数据。

步骤s003:对所述训练样本数据进行说话人归一化处理,获得训练样本处理数据。

步骤s004:根据所述训练样本处理数据,通过预设特征选择算法获得标签训练样本处理数据。

步骤s005:根据所述标签训练样本处理数据获取所述标签训练样本处理数据对应的类别标签。

步骤s006:根据所述标签训练样本处理数据和所述类别标签建立预设训练分类模型。

此外,应理解的是,在进行训练阶段时,(1-1)提取有标签训练样本的特征以及每个说话人的无标签样本的特征;(1-2)对所有特征执行特征统计;(1-3)对特征统计结果执行归一化算法;(1-4)使用统一的特征选择框架选择多个特征子模型;(1-5)对每个特征子模型训练支持向量机;(1-6)分类结果由所有支持向量机的结果投票获得。

此外,为了便于理解以下进行训练阶段的具体步骤:

在这一阶段中,针对所有说话人均分别进行训练,得到每个说话人所对应的分类器,具体过程如下:

第一步:对所有的语音训练信号(每一次训练时,为所有有标签样本的语音信号和当前某一说话人的无标签样本的语音信号)提取mfcc,lfpc,lpcc,zcpa,plp,r-plp特征,其中mfcc、lfpc的mel滤波器个数为40;lpcc、plp、r-plp的线性预测阶数分别为12、16、16;zcpa的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:ti*39,ti*40,ti*12,ti*16,ti*16,ti*16,其中ti为第i条语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:ti*117,ti*140,ti*36,ti*48,ti*48,ti*48。第i样本的提取到的语音信号特征由上述所有特征组合而成,维度为ti*(117+140+36+48+48+48).

第二步:使用如下统计函数:均值(mean)、标准方差(standarddeviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得上述特征在时间维度上的统计结果。有标签样本的特征统计结果记为{x1,x2,…,xn},某一说话人无标签训练样本的特征统计结果记为{xn+1,xn+2,…,xn+m},其中n为有标签标本的个数,m是某一说话人无标签样本的个数。

第三步:对特征统计结果进行归一化。步骤如下:

(1)对第二步中得到的所有特征统计结果{x1,x2,…,xn+m}分别使用下式进行初步归一化:

其中表示所有样本的均值,表示所有样本的方差;

(2)对初步归一化结果{x'1,x'2,…,x'n+m}使用下式执行说话人归一化:

其中x'j,j=1,2,…,ni是训练样本中与x'i说话人标签相同的样本,ni为训练样本中与x'i说话人标签相同的样本的个数。

第四步:训练半监督特征选择算法。该算法包含如下步骤:

此外,应理解的是,上述所说的预设特征选择法包括训练半监督特征选择算法。该算法包含如下步骤:

(1)使用下式定义样本之间的关系:

式中,sij表示样本之间的关系,nli表示类别标签为li的样本个数,li、lj表示样本的类别标签,为样本的邻域,为样本的邻域,并且aij定义如下:

其中,表示之间的欧氏距离,表示的欧式距离,表示的欧式距离,的第k个邻居。

(2)计算拉普拉斯图l=d-s,其中d是一个对角矩阵dii=∑jsij。

(3)解决特征分解问题ly=λdy。并且让y=[y1,y2,…,yc]为最小的2到c+1个特征值对应的特征向量,其中c为语音情感的类别数。

(4)使用最小角回归算法(lars)解决l1正规化回归问题得到c个稀疏系数向量其中yc为(1-4-3)求出的第c个特征向量,

(5)计算每个特征的重要性得分j表示第j个特征,score(j)表示第j个特征的得分。

(6)返回得分最大的d个特征的下标即为特征选择结果v。其中d为需要选择的特征的维数。

此外,需要说明的是,该半监督特征选择算法能够考虑数据的流形结构、数据的类别结构、以及利用无标签样本提供的信息,从而避免了特征选择结果过拟合于训练数据,选择有利于识别该说话人语音情感的特征。

第五步:根据特征选择结果v获得有标签样本的特征选择结果{z1,z2,…,zn}。将上述的特征选择结果均储存在语音情感向量数据库中。

第六步:使用{z1,z2,…,zn}及其类别标签训练分类器。

此外,应理解的是,根据特征选择结果获得有标签样本的特征选择结果{z1,z2,…,zn}并使用训练过程中获得的分类器,获得{z1,z2,…,zn}的语音情感类别。

此外,需要说明的是,完成训练过程后,然后进行识别测试。测试模式按5倍交叉方式进行。可以识别愤怒、恐惧、烦躁、厌恶、开心、中性、悲伤7种情感,在说话人依赖的情况下平均分类正确率为90.84%,除了开心与愤怒比较容易混淆以外,其它情绪之间区分度较好。在说话人独立的情况下平均分类正确率为86.50%。

本实施例通过对训练识别语音样本进行特征提取,获得预设维度的训练语音信号特征,通过预设统计函数对所述训练语音信号特征进行特征统计,获得训练特征统计结果,对所述训练特征统计结果进行初步归一化处理,获得标签训练样本数据和无标签训练样本数据,对所述标签训练样本数据和所述无标签训练样本数据进行说话人归一化处理,获得标签训练样本处理数据和无标签训练样本处理数据,根据所述标签训练样本处理数据和所述无标签训练样本处理数据,通过训练半督导特征选择算法获得标签训练样本选择数据,根据所述标签训练样本选择数据获取所述标签训练样本对应的类别标签,根据所述标签训练样本选择数据和所述类别标签建立预设训练分类模型。通过上述方式避免了其他说话人无标签样本的影响,从而可以最大化提高该说话人对语音数据流形结构的影响,而选择出对该说话人语音情感识别有利的特征。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有集成语音情感识别程序,所述集成语音情感识别程序被处理器执行时实现如上文所述的集成语音情感识别方法的步骤。

参照图4,图4为本发明集成语音情感识别装置第一实施例的结构框图。

如图4所示,本发明实施例提出的集成语音情感识别装置包括:获得模块4001,用于对待识别语音样本进行特征提取,获得预设维度的语音信号特征;统计模块4002,用于通过预设统计函数对所述语音信号特征进行特征统计,获得特征统计结果;处理模块4003,用于对所述特征统计结果进行归一化处理,获得特征初始数据;筛选模块4004,用于对所述特征初始数据进行筛选,获得特征目标数据;确定模块4005,用于将所述特征目标数据输入至预设训练分类模型中,获得集成语音情感识别结果。

所述获得模块4001,用于对待识别语音样本进行特征提取,获得预设维度的语音信号特征的操作。

此外,需要说明的是,在对待识别语音样本进行特征提取,获得预设维度的语音信号特征的步骤之前,需要对训练识别语音样本进行特征提取,获得预设维度的训练语音信号特征,通过预设统计函数对所述训练语音信号特征进行特征统计,获得训练特征统计结果,对所述训练特征统计结果进行初步归一化处理,获得标签训练样本数据和无标签训练样本数据,对所述标签训练样本数据和所述无标签训练样本数据进行说话人归一化处理,获得标签训练样本处理数据和无标签训练样本处理数据,根据所述标签训练样本处理数据和所述无标签训练样本处理数据,通过训练半督导特征选择算法获得标签训练样本选择数据,根据所述标签训练样本选择数据获取所述标签训练样本对应的类别标签,根据所述标签训练样本选择数据和所述类别标签建立预设训练分类模型。

需要说明的是,从待识别语音样本中提取的语音信号特征包括:mel频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)、对数频率功率系数(logfrequencypowercoefficients,lfpc)、线性预测倒谱系数(linearpredictivecepstralcoding,lpcc)、过零峰值幅度(zerocrossingwithpeakamplitude,zcpa)、感知线性预测(perceptuallinearpredictive,plp)、拉斯塔滤波器感知线性预测(rastaperceptuallinearpredictiv,r-plp)。

应理解的是,上述所说的每类特征的特征提取结果均为二维矩阵,其中一个维度为时间维度,然后计算每类特征fi在时间维度上的一阶导数δfi、二阶导数δδfi,并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接,形成每一类特征的最终特征提取结果;将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。

此外,为了便于理解,以下进行举例说明:

假设,mfcc对应的fmfcc∈r39×z,δfmfcc∈r39×z,δδfi∈r39×z,其中z为帧数,即时间维度数,在非时间维度上的串接结果

在mfcc和lpcc连接时,假如串接后为

此外,应理解的是,在进行每一次语音信号特征提取时,提取mfcc,lfpc,lpcc,zcpa,plp,r-plp特征,其中mfcc、lfpc的mel滤波器个数为40;lpcc、plp、r-plp的线性预测阶数分别为12、16、16;zcpa的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:ti*39,ti*40,ti*12,ti*16,ti*16,ti*16,其中ti为第i条语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:ti*117,ti*140,ti*36,ti*48,ti*48,ti*48。第i样本的提取到的语音信号特征由上述所有特征组合而成,维度为ti*(117+140+36+48+48+48)。

所述统计模块4002,用于通过预设统计函数对所述语音信号特征进行特征统计,获得特征统计结果的操作。

需要说明的是,使用统计函数,利用均值(mean)、标准方差(standarddeviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得上述特征在时间维度上的统计结果。

所述处理模块4003,用于对所述特征统计结果进行归一化处理,获得特征初始数据的操作。

应理解的是,对所述特征统计结果进行初步归一化处理,获得样本特征数据,对所述样本特征数据进行说话人归一化处理,获得样本处理数据,并将所述样本处理数据作为特征初始数据。

此外,有上述步骤可知有标签样本的特征统计结果记为{x1,x2,…,xn},某一说话人无标签训练样本的特征统计结果记为{xn+1,xn+2,…,xn+m},则对所有特征统计结果{x1,x2,…,xn+m}分别使用下式进行初步归一化:

其中表示所有样本的均值,表示所有样本的方差;

之后,对初步归一化结果{x'1,x'2,…,x'n+m}使用下式执行说话人归一化:。

其中x'j,j=1,2,…,ni是训练样本中与x'i说话人标签相同的样本,ni为训练样本中与x'i说话人标签相同的样本的个数。

此外,应理解的是,多个特征子集通过一个统一的特征选择框架得到,每个特征子集的数据描述能力和分类能力都能确保。在该基础上训练的基分类器有较好的多样性和分类强度。能明显降低基分类器的个数,和提高基分类器的分类能力。

同时,使用改进的归一化算法对特征统计结果进行归一化。该归一化算法包含初步归一化和说话人归一化两步,其中初步归一化使用所有样本的均值和方差对每个样本进行归一化,能够避免特征取值范围的不同带来的影响;说话人归一化只需使用该说话人所有样本的均值,而对均值的估计在样本数量较少时也能得到较高的置信度,所以能够在说话人无标签样本数量很少的情况下,达到较好的说话人归一化效果。

所述筛选模块4004,用于对所述特征初始数据进行筛选,获得特征目标数据的操作。

需要说明的是,根据所述样本处理数据,通过预设特征选择法获得标签样本处理数据和无标签样本处理数据,并将所述标签样本目标数据作为特征目标数据。

所述确定模块4005,用于将所述特征目标数据输入至预设训练分类模型中,获得集成语音情感识别结果的操作。

需要说明的是,所述预设训练分类模型包括多个预设训练分类子模型,其每个预设分类子模型都支持向量机。

此外,应理解的是,上述得到预设训练分类子模型的步骤为:

(1)定义描述样本局部几何结构的矩阵l:

l=(i-s)t(i-s)

式中i∈rn×n是单位矩阵,即对角线元素值为1,其它元素值为0;s通过下式优化得到:

(2)使用下式定义样本之间的关系:

然后计算拉普拉斯矩阵其中d是一个对角矩阵dii=∑jgij;解决特征分解问题并且让v=[v1,v2,l,vc]为最小的2到c+1个特征值对应的特征向量,其中c为语音情感的类别数;

(3)使用(4)优化下式

其中pkq(i,j)=wk(i,j)*wq(i,j)

(4)使用下述循环优化上式

fork=1top

初始化为单位矩阵,(对角线为1,其余为0)设置t=0,p为需要的子模型个数,

使用下述循环迭代优化wk重复:

(4-1)使用下式计算

式中x是训练数据,i是单位矩阵,α,β,γ是三个平衡参数,l为步骤(1-4-1)计算得到,v为步骤(1-4-2)计算得到。

(4-2)计算是对角矩阵,其中的第i个对角元素通过下式计算得到:

(4-3)计算其中的第i行,第j列的元素由下式计算得到:

式中pqk(i,·)的第i行,第j列的元素通过下式计算得到:

pkq(i,j)=wk(i,j)*wq(i,j)

(4-4)t=t+1,直到之差小于一定的预设阈值。

此外,应理解的是,将所述特征目标数据输入至所述预设训练分类子模型中,获得语音情感类别数据,将所述语音情感类别数据进行数据统计,获得语音情感类别数据值,根据所述语音情感类别数据值获得集成语音情感识别结果。

此外,需要说明的是,上述所说的根据所述语音情感类别数据值获得集成语音情感识别结果的步骤为,判断所述语音情感类别数据值是否满足预设语音情感类别阈值范围;若所述语音情感类别数据值满足所述预设语音情感类别阈值范围,则根据所述语音情感类别数据值获得集成语音情感识别结果,若所述语音情感类别数据值不满足所述预设语音情感类别阈值范围,则返回所述将所述特征目标数据输入至所述预设训练分类子模型中,获得语音情感类别数据的步骤。

此外,应理解的是上述为识别阶段,所述识别阶段的步骤为:

在这一阶段中,针对已知说话人的待识别情感样本的语音信号进行处理,根据上面训练阶段得到的训练分类器得到此待识别样本的情感类别。具体过程如下:

第一步:对待识别情感样本的语音信号提取mfcc,lfpc,lpcc,zcpa,plp,r-plp特征,其中mfcc、lfpc的mel滤波器个数为40;lpcc、plp、r-plp的线性预测阶数分别为12、16、16;zcpa的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:t*39,t*40,t*12,t*16,t*16,t*16,其中t为该待识别情感语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:t*117,t*140,t*36,t*48,t*48,t*48。对该待识别情感语句提取到的语音信号特征由上述所有特征组合而成,维度为t*(117+140+36+48+48+48)。

第二步:使用如下统计函数:均值(mean)、标准方差(standarddeviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得该待识别情感语句的特征统计结果x。

第三步:说话人归一化。首先根据训练阶段获得的μ、σ使用式(1)计算x的初步归一化结果x';然后使用式(2)对x'计算说话人归一化结果

第四步:根据训练过程中获得的特征选择向量v,计算的特征选择结果z。

第五步:使用训练过程中获得的分类器,获得z的语音情感类别l。

本发明的情感识别的效果评价采用的语料库是德国的emo-db语音情感数据库,其为语音情感识别领域的标准数据库。首先完成训练过程,然后进行识别测试。测试模式按5倍交叉方式进行。可以识别愤怒、恐惧、烦躁、厌恶、开心、中性、悲伤7种情感,在说话人依赖的情况下平均分类正确率为90.84%,除了开心与愤怒比较容易混淆以外,其它情绪之间区分度较好。在说话人独立的情况下平均分类正确率为86.50%。

应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。

本实施例通过对待识别语音样本进行特征提取,获得预设维度的语音信号特征,通过预设统计函数对所述语音信号特征进行特征统计,获得特征统计结果,对所述特征统计结果进行归一化处理,获得特征初始数据,对所述特征初始数据进行筛选,获得特征目标数据,将所述特征目标数据输入至预设训练分类模型中,获得集成语音情感识别结果,通过上述方式,寻找多个有足够能力描述数据的特征子集,使得数据的利用率更高,从而更够准确的得到语音情感识别效果。

需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。

另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的集成语音情感识别方法,此处不再赘述。

此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(readonlymemory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1