基于神经网络的语音与情绪的同步识别方法与流程

文档序号:15938115发布日期:2018-11-14 02:43阅读:170来源:国知局

本发明涉及音频数据处理领域,尤其涉及一种能够同时识别音频数据中的语音与情绪的方法。

背景技术

语音识别技术是指将语音信号转变为相应的文本或命令的技术。早期语音识别是建立在声学模型和语言模型以及解码的基础上,训练时需要同时训练声学模型和语言模型,因此在识别时要综合声学模型和语言模型的得分得到的标签,还要进行解码才是识别的结果。这种方式存在着模型复杂,模型的通用性不高,准确度较低以及实时性较差的缺点。另外,语音信号中除包含义能转化成文本信息的语义信息外,还包括了说话者的情绪,大多数情况下,说话内容相同,但是情绪不同,说话者的状态会大相径庭。

目前电话客服系统主要采用对电话进行录音存档,这种方式有着存储量大,不便查找的问题,同时人工打分对服务过程评价存在着恶意评分的问题。通过对音频的转换,以文字的方式进行储存,不仅减少了空间的占用,也为方便对特殊内容进行检索。从语音中挖掘出说话人的情绪,对情绪或者情绪的变化进行分析,便可以得出客户对服务的满意程度,可以省去评价的环节,对客服的服务态度做出客观的评价。

此外,随着语音交互设备在车载系统的普及,语音情绪识别功能也开始用于监控情绪、保障驾驶安全。研究发现,积极的情绪可以促使驾驶者更好地驾驶,减少危险驾驶的行为。当驾驶者处于情绪不稳定的状态时,系统可以给予提醒,或者自动调节驾驶参数以防止事故的发生;系统也可以根据驾驶者的情绪提供关怀式的语音,提高驾驶体验。

不仅如此,语音识别与情绪识别的结合还可应用于此外,随着医疗技术和语音分析技术的进步,通过声音诊断病情也将成为可能,通过患者的特定语音特征,辅助医生诊断抑郁症等心理疾病。

因此,在语音识别的同时进行情绪识别,对提高各个领域的智能化水平具有重要意义。但是,目前语音识别和情绪识别是独立进行的,并且未考虑到语音和情绪之间的相互关性,还未对语音识别和情绪识别进行良好的融合。



技术实现要素:

针对上述现有技术的不足,本发明提供一种基于神经网络的语音与情绪的同步识别方法,解决现有技术中语音识别和情绪识别独立进行不能同步识别语音和情绪的技术问题,能够对语音信号进行语音和情绪的同步识别,提高识别效率,还能够通过同步识别的方式提高语音识别与情绪识别的准确性。

为了解决上述技术问题,本发明采用了如下的技术方案:一种基于神经网络的语音与情绪的同步识别方法,包括以下步骤:

步骤1:建立语音特征训练样本集,语音特征训练样本集中包含若干语音特征输入矩阵,每个语音特征输入矩阵均对应有音素特征理论输出矩阵fx和情绪特征理论输出矩阵fy,其中,fx={x1,...xi,...,xn},xi表示音素特征理论输出矩阵fx中的第i个音素特征理论输出向量,每个音素特征理论输出向量均对应有音素标签;fy={y1,...yj,...,ym},yj表示情绪特征理论输出矩阵fy中的第j个情绪特征理论输出向量,每个情绪特征理论输出向量均对应有情绪标签;

步骤2:建立同步识别模型,所述同步识别模型包括用于对输入的语音特征矩阵进行降维与降噪处理的卷积神经网络,所述卷积神经网络的输出端分别连接有语音识别模型与情绪识别模型;

步骤3:采用语音特征训练样本集以及代价函数对同步识别模型进行训练,所述代价函数包括用于训练语音识别模型的语音代价函数l(θ)1以及用于训练情绪识别模型的情绪代价函数l(θ)2;对语音识别模型与情绪识别模型迭代交替训练,从而使得卷积神经网络用于语言特征提取的权值能够交替更新;每利用语音代价函数l(θ)1训练一次语音识别模型后,则将语音代价函数l(θ)1的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音模型与卷积神经网络用于语音特征提取的权值;每利用情绪代价函数l(θ)2训练一次情绪识别模型后,则将情绪代价函数l(θ)2的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;训练完成后,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别;

步骤4:采用训练完成后的同步识别模型同步识别语音信号中的语音与情绪。

优选的,交替训练按如下步骤进行:

步骤301:初始化同步识别模型的用于语音特征提取的权值,包括卷积神经网络用于语音特征提取的权值、语音识别模型用于语音特征提取的权值以及情绪识别模型用于语音特征提取的权值;初始化t=1;

步骤302:从卷积神经网络输入语音特征训练样本集中的一个语音样本,对语音识别模型进行训练,设当前次训练为第t次,t∈{1,3,5,....,2n-1},得到第t次训练的语音代价函数的值,将语音代价函数的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音识别模型与卷积神经网络用于特征提取的权值;

步骤303:从卷积神经网络输入语音样本,对情绪识别模型进行训练,设当前次训练为第t+1次训练,得到第t+1次训练的情绪代价函数的值,将情绪代价函数的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;

步骤304:根据预先设定的语音代价函数的期望值判断语音代价函数的值是否收敛,并同时根据预先设定的情绪代价函数的期望值判断情绪代价函数是否收敛;

若不能同时收敛,则令t=t+2,并回到步骤302;

若同时满足收敛,则在语音识别模型中保存以语音代价函数的值反向传递更新得到的用于语音特征提取的权值,并且在情绪识别模型中保存以情绪代价函数的值反向传递更新得到的用于语音特征提取的权值,同时在卷积神经网络中保存以情绪代价函数的值反向传递更新得到的用于语音特征提取的权值;交替训练完成,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别。

优选的,所述语音识别模型包括能够从语音特征矩阵中提取音素特征矩阵的语音识别深度特征提取神经网络以及用于根据音素标签将音素特征矩阵转化文本的ctc时序分类模块;所述情绪识别模型包括能够从语音特征矩阵中提取情绪特征矩阵并能输出对应情绪标签的情绪识别深度特征提取神经网络。

优选的,所述语音识别深度特征提取神经网络包括第一双向lstm循环神经网络,第一双向lstm循环神经网络的输入端与卷积神经网络的输出端连接;所述情绪识别深度特征提取神经网络包括第二双向lstm循环神经网络,第二双向lstm循环神经网络的输入端与卷积神经网络的输出连接。

优选的,所述语音识别深度特征提取神经网络还包括第一dnn深度神经网络,第一dnn深度神经网络的输入端、输出端分别与第一双向lstm循环神经网络输出端、ctc时序分类模块输入端连接;所述情绪识别深度特征提取神经网络还包括第二dnn深度神经网络,第二dnn深度神经网络的输入端与第二双向lstm循环神经网络输出端连接。

优选的,在训练阶段语音识别模型的音素特征训练输出矩阵为表示音素特征训练输出矩阵中的第i个音素特征训练输出向量;在训练阶段情绪识别模型的情绪特征训练输出矩阵为表示情绪特征训练输出矩阵中的第j个情绪特征训练输出向量;

语音代价函数l(θ)1的计算公式为:

其中,为交叉熵:

为方差:

r(θ)为防止训练过程中出现过拟合的正则项,λ1为权重系数;

lρc1为语音相关系数损失函数,lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;

ρc1的计算公式如下:

其中,为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;

情绪代价函数l(θ)2的计算公式为:

其中,其中,为交叉熵:

为方差:

r(θ)为防止训练过程中出现过拟合的正则项;

lρc2为情绪相关系数损失函数,lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;

ρc2的计算公式如下:

其中,为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差。

优选的,语音识别模型与情绪识别模型双向通信连接,使得在训练阶段语音识别模型能将音素特征训练输出矩阵发送给情绪识别模型,并且情绪识别模型能够将情绪特征训练输出矩阵发送给语音识别模型;其中,表示音素特征训练输出矩阵中的第i个音素特征训练输出向量;表示情绪特征训练输出矩阵中的第j个情绪特征训练输出向量。

优选的,语音代价函数l(θ)1的计算公式为:

其中,为交叉熵:

为方差:

λ1、λ2均为权重系数,r(θ)为防止训练过程中出现过拟合的正则项;

lρc1为语音相关系数损失函数,lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;

ρc1的计算公式如下:

其中,为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;

jtxtem为灵敏度矩阵:

fx为音素特征理论输出矩阵,fy为情绪特征理论输出矩阵;

mvx为音素特征训练输出向量的均值方差矩阵:

mvy为情绪特征训练输出向量的均值方差矩阵;

情绪代价函数l(θ)2的计算公式为:

其中,为交叉熵:

为方差:

λ1、λ2均为权重系数,r(θ)为防止训练过程中出现过拟合的正则项;

lρc2为情绪相关系数损失函数,lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;

ρc2的计算公式如下:

其中,为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差;

jtxtem为灵敏度矩阵:

fx为音素特征理论输出矩阵,fy为情绪特征理论输出矩阵;

mvx为音素特征训练输出向量的均值方差矩阵:

mvy为情绪特征训练输出向量的均值方差矩阵。

与现有技术相比,本发明具有以下有益效果:

1、同步识别模型中语音识别模型与情绪识别模型共用同一卷积神经网络对语音特征矩阵进行降维与降噪处理,简化了同步识别模型的结构,大大降低了数据处理量,并且在输入层保证了语音识别与情绪识别的同步性;对同步识别模型进行交替训练,使得语音识别模型与情绪识别模型共用的卷积神经网络的用于语音特征提取的权值能同时适用于语音识别与情绪识别。

2、音素特征深度根据网络根据卷积神经网络提取出的语音特征矩阵进一不提取语音识别需要的音素特征矩阵,情绪识别深度特征提取神经网络根据网络根据卷积神经网络提取出的情绪特征矩阵。

3、语音识别模型与情绪识别模型双向通信连接还进行双向通信连接,使得语音识别结果与情绪识别结果能够相互影响:分别交换音素特征训练输出向量与情绪特征训练输出向量,从而计算语音代价函数与情绪代价函数,获得能够将音素识别与情绪识别相互关联用于语音特征提取的权值。

4、由于本发明在训练完成后所获得的用于语音特征提取的权值是情绪与音素相互影响的结果,因此在利用本发明的同步识别模型进行语音与情绪的同步识别时,虽然语音识别与情绪识别独立并行进行,但是语音识别模型与情绪识别模型中用于语音特征提取的权值是同时考虑情绪与语音的相互影响的,因此,不仅能通过独立并行识别提高识别效率和实时性,还能在用于语音特征提取的权值作用下,分别提高语音识别与情绪识别的准确性。

附图说明

图1是具体实施方式1中同步识别模型训练过程的原理框图;

图2是具体实施方式1中基于神经网络的语音与情绪的同步识别方法的总体流程图;

图3是具体实施方式1中利用训练完成后的同步识别模型识别语音信号的流程图;

图4是具体实施方式2中同步识别模型训练过程的原理框图。

具体实施方式

下面结合附图和优选实施方式对本发明作进一步的详细说明。

具体实施方式1

一种基于神经网络的语音与情绪的同步识别方法,如图2所示,包括以下步骤:

步骤1:建立语音特征训练样本集,语音特征训练样本集中包含若干语音特征输入矩阵,每个语音特征输入矩阵均对应有音素特征理论输出矩阵fx和情绪特征理论输出矩阵fy,其中,fx={x1,...xi,...,xn},xi表示音素特征理论输出矩阵fx中的第i个音素特征理论输出向量,每个音素特征理论输出向量均对应有音素标签;fy={y1,...yj,...,ym},yj表示情绪特征理论输出矩阵fy中的第j个情绪特征理论输出向量,每个情绪特征理论输出向量均对应有情绪标签;

步骤2:建立同步识别模型,所述同步识别模型包括用于对输入的语音特征矩阵进行降维与降噪处理的卷积神经网络,所述语音特征矩阵由若干语音特征向量组成,所述卷积神经网络的输出端分别连接有语音识别模型与情绪识别模型;

步骤3:采用语音特征训练样本集以及代价函数对同步识别模型进行训练,所述代价函数包括用于训练语音识别模型的语音代价函数l(θ)1以及用于训练情绪识别模型的情绪代价函数l(θ)2;如图1所示,对语音识别模型与情绪识别模型迭代交替训练,从而使得卷积神经网络用于语言特征提取的权值能够交替更新;每利用语音代价函数l(θ)1训练一次语音识别模型后,则将语音代价函数l(θ)1的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音模型与卷积神经网络用于语音特征提取的权值;每利用情绪代价函数l(θ)2训练一次情绪识别模型后,则将情绪代价函数l(θ)2的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;训练完成后,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别;

步骤4:采用训练完成后的同步识别模型同步识别语音信号中的语音与情绪。

本具体实施方式中交替训练按如下步骤进行:

步骤301:初始化同步识别模型的用于语音特征提取的权值,包括卷积神经网络用于语音特征提取的权值、语音识别模型用于语音特征提取的权值以及情绪识别模型用于语音特征提取的权值;初始化t=1;

步骤302:从卷积神经网络输入语音特征训练样本集中的一个语音样本,对语音识别模型进行训练,设当前次训练为第t次,t∈{1,3,5,....,2n-1},得到第t次训练的语音代价函数的值,将语音代价函数的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音识别模型与卷积神经网络用于特征提取的权值;

步骤303:从卷积神经网络输入语音样本,对情绪识别模型进行训练,设当前次训练为第t+1次训练,得到第t+1次训练的情绪代价函数的值,将情绪代价函数的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;在更新卷积神经网络的权值时,可以利用情绪代价函数或语音代价函数中的正则项,得到一个稀疏权值矩阵,进而可以用于语音特征提取。

步骤304:根据预先设定的语音代价函数的期望值判断语音代价函数的值是否收敛,并同时根据预先设定的情绪代价函数的期望值判断情绪代价函数是否收敛;

若不能同时收敛,则令t=t+2,并回到步骤302;

若同时满足收敛,则在语音识别模型中保存以语音代价函数的值反向传递更新得到的用于语音特征提取的权值,并且在情绪识别模型中保存以情绪代价函数的值反向传递更新得到的用于语音特征提取的权值,同时在卷积神经网络中保存以情绪代价函数的值反向传递更新得到的用于语音特征提取的权值;交替训练完成,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别。

由于语音识别模型与情绪识别模型是交替进行训练的,避免了语音识别模型训练完成后,再来训练情绪识别模型,造成卷积神经网络中用于语音特征提取的权值变化剧烈,然而通过交替训练的方式,卷积神经网络中用于语音特征提取的权值是通过微小的变化来累积进行更新的,因此,交替训练完成,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别。

本具体实施方式中,所述语音识别模型包括能够从语音特征矩阵中提取音素特征矩阵的语音识别深度特征提取神经网络以及用于根据音素标签将音素特征矩阵转化文本的ctc时序分类模块;所述情绪识别模型包括能够从语音特征矩阵中提取情绪特征矩阵并能输出对应情绪标签的情绪识别深度特征提取神经网络。

本具体实施方式中,所述语音识别深度特征提取神经网络包括第一双向lstm循环神经网络,第一双向lstm循环神经网络的输入端与卷积神经网络的输出端连接;所述情绪识别深度特征提取神经网络包括第二双向lstm循环神经网络,第二双向lstm循环神经网络的输入端与卷积神经网络的输出连接。

本具体实施方式中,所述语音识别深度特征提取神经网络还包括第一dnn深度神经网络,第一dnn深度神经网络的输入端、输出端分别与第一双向lstm循环神经网络输出端、ctc时序分类模块输入端连接;所述情绪识别深度特征提取神经网络还包括第二dnn深度神经网络,第二dnn深度神经网络的输入端与第二双向lstm循环神经网络输出端连接。

本具体实施方式中,在训练阶段语音识别模型的音素特征训练输出矩阵为表示音素特征训练输出矩阵中的第i个音素特征训练输出向量;在训练阶段情绪识别模型的情绪特征训练输出矩阵为表示情绪特征训练输出矩阵中的第j个情绪特征训练输出向量;

语音代价函数l(θ)1的计算公式为:

其中,为交叉熵:

为方差:

r(θ)为防止训练过程中出现过拟合的正则项,λ1为权重系数;

lρc1为语音相关系数损失函数,lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;

ρc1的计算公式如下:

其中,为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;

情绪代价函数l(θ)2的计算公式为:

其中,其中,为交叉熵:

为方差:

r(θ)为防止训练过程中出现过拟合的正则项;

lρc2为为情绪相关系数损失函数,lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;

ρc2的计算公式如下:

其中,为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差。

本具体实施方式中,所述卷积神经网络包含用于消除时间差异的时间卷积层与用于减少相位变化的频域卷积层,频域卷积层的输入端与时间卷积层的输入端连接,频域卷积层的输出端同时与语音识别模型、情绪识别模型的输入端连接。

如图3所示,本具体实施方式中,语音信号在输入同步识别模型进行识别前,进行预处理,以初步提取语音信号中的语音特征矩阵,所述语音特征矩阵中的语音特征向量包含以下32维语音特征:12维梅尔频谱倒谱系数mfcc、12维线性预测倒谱系数lpcc、过零率、短时能量、基频、共振峰、谱熵、频谱通量、频谱通量以及频谱滚降点;在进行语音识别时,卷积层同时向语音识别模型与情绪识别模型输出语音特征向量,语音识别模型与情绪识别模型同时分别独立根据输入的语音特征向量进行语音识别和情绪识别。

具体实施方式2

本具体实施方式是针对具体实施方式1进行的改进,改进之处主要在于同步识别模型结构的改进和训练过程中代价函数的改进,同步识别模型结构的改进如下:语音识别模型与情绪识别模型双向通信连接,使得在训练阶段语音识别模型能将音素特征训练输出矩阵发送给情绪识别模型,并且情绪识别模型能够将情绪特征训练输出矩阵发送给语音识别模型;其中,表示音素特征训练输出矩阵中的第i个音素特征训练输出向量;表示情绪特征训练输出矩阵中的第j个情绪特征训练输出向量。

基于上述同步识别模型的改进,交替训练按如下步骤进行:

步骤401:初始化同步识别模型的用于语音特征提取的权值,包括卷积神经网络用于语音特征提取的权值、语音识别模型用于语音特征提取的权值以及情绪识别模型用于语音特征提取的权值;初始化t=1;

步骤402:从卷积神经网络输入语音特征训练样本集中的一个语音样本,对语音识别模型进行训练,设当前次训练为第t次,t∈{1,3,5,....,2n-1},得到第i次训练的语音代价函数的值,将语音代价函数的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音模型与卷积神经网络用于特征提取的权值;并将当前次训练得到的音素特征训练输出矩阵发送给情绪识别模型,使得情绪代价函数能够根据音素特征训练输出矩阵进行计算;

步骤403:从卷积神经网络输入语音样本,对情绪识别模型进行训练,设当前次训练为第t+1次训练,得到第t+1次训练的情绪代价函数的值,将情绪代价函数的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;并将当前次训练得到的情绪特征训练输出矩阵发送给语音识别模型,使得语音代价函数能够根据情绪特征训练输出矩阵进行计算;

步骤404:根据预先设定的语音代价函数的期望值判断语音代价函数的值是否收敛,并同时根据预先设定的情绪代价函数的期望值判断情绪代价函数的值是否收敛;若不能同时收敛,则令t=t+2,并回到步骤302;

若同时满足收敛,则在语音识别模型中保存以语音代价函数的值反向传递更新得到的用于语音特征提取的权值,并且在情绪识别模型中保存以情绪代价函数的值反向传递更新得到的用于语音特征提取的权值,同时在卷积神经网络中保存以情绪代价函数的值反向传递更新得到的用于语音特征提取的权值;交替训练完成,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别。

本具体实施中,语音代价函数l(θ)1的计算公式为:

其中,为交叉熵:

为方差:

λ1、λ2均为权重系数,r(θ)为防止训练过程中出现过拟合的正则项;

lρc1为语音相关系数损失函数,lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;

ρc1的计算公式如下:

其中,为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;

jtxtem为灵敏度矩阵:

fx为音素特征理论输出矩阵,fy为情绪特征理论输出矩阵;

mvx为音素特征训练输出向量的均值方差矩阵:

mvy为情绪特征训练输出向量的均值方差矩阵;

情绪代价函数l(θ)2的计算公式为:

其中,为交叉熵:

为方差:

λ1、λ2均为权重系数,r(θ)为防止训练过程中出现过拟合的正则项;

lρc2为情绪相关系数损失函数,lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;

ρc2的计算公式如下:

其中,为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差;

jtxtem为灵敏度矩阵:

fx为音素特征理论输出矩阵,fy为情绪特征理论输出矩阵;

mvx为音素特征训练输出向量的均值方差矩阵:

mvy为情绪特征训练输出向量的均值方差矩阵。

本具体实施方式中由于训练过程中考虑到了语音与情绪的相互关系,即情绪代价函数考虑了语音识别结果对情绪识别的影响,语音代价函数考虑了情绪识别结果对语音识别的影响,从而使得语音识别模型中用于语音特征提取的权值能够提取到隐含的情绪特征,同样,情绪识别模型中用于语音特征提取的权值能够提取到隐含的音素特征。

为了使本发明更容易理解,现进行如下举例说明:设语音特征训练样本集中的一个语音特征输入矩阵则对应了一段语音a,一段语音为一句话,一句话中的一个发音对应多个语音特征向量,一个语音特征向量对应一个音素标签(音素标签为声母、韵母),一个语音特征输入矩阵对应一个情绪标签(可将情绪分为“高兴”、“惊喜”、“愤怒”、“中性”、“悲伤”、“害怕”等,为了简化还可大致分为三类“正面、”“中性”以及“负面”,分别对应的情绪标签为“1”“0”“-1”),该段语音的真实语义为“报酬”,说话者的情绪为“高兴”,那么整个语音特征输入矩阵对应的音素标签集为“baochou”,情绪标签为“1”。

将语音a输入同步识别模型中进行训练时,卷积神经网络对原始语音信号进行降维降噪,然后分别输入给语音识别模型和情绪识别模型,语音识别深度特征提取神经网络得到了个音素特征训练输出矩阵,所对应的音素标签集“baochou”,该音素标签集对应的文本信息可能是“报酬”也可能是“报仇”由于所对应的情绪标签为“1”,那么ctc时序分类模块则将音素标签集“baochou”进行文本对齐得到“报酬”而不是“报仇”。

经过上述训练后,再输入相同的语音信息a进行识别时,则能准确的识别出“报酬”的文本信息,而避免识别成“报仇”等文本信息,从而大大提高了语音识别的准确性,

同样,若语音特征训练样本集中有一段语音信息b,其真实语义为“太棒了”,情绪为“喜悦”,那么语音信息b的语音特征输入矩阵所对应的音素标签集为“taibangle”,情绪标签为“1”。

将语音b输入同步识别模型中进行训练,卷积神经网络对原始语音信号进行降维降噪,然后分别输入给语音识别模型和情绪识别模型,情绪识别深度特征提取神经网络得到了情绪特征训练输出矩阵,该情绪特征训练输出矩阵对应的情绪标签可能是“1”也可能是“0”,由于ctc时序分类模块中音素标签集为“taibangle”,那么经过多次训练后情绪识别深度特征提取神经网络则会输出情绪标签“1”。

经过上述训练后,再输入相同的语音信息b进行识别时,则能准确的识别出正面情绪标签“1”,而避免识别成负面或中性情绪,从而大大提高了情绪识别的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1