一种增强愤怒与开心识别的语音情感识别方法及系统与流程

文档序号:15562142发布日期:2018-09-29 02:29阅读:358来源:国知局

本发明属于人工智能与情感计算领域,涉及一种增强愤怒与开心识别的语音情感识别方法及系统。



背景技术:

情感对于人类的智力、理性决策、社交、感知、记忆和学习以及创造都有很重要的作用,有研究显示人类交流有80%的信息都是情感性的信息。在计算机自动情感识别中,一般依据离散情感模型或维度情感模型上对情感进行分类;在离散情感模型分类中,将情感分为激动,开心,悲伤,愤怒,惊讶,中性等基础情感。在维度情感模型分类中,1970年russell认为利用四个象限来定义情感空间,从激活度和效价度两个维度进行分类,对应着四种主要的情感:愤怒、高兴、悲伤和平静,因此在语音识别情感研究中常采用的有愤怒、高兴、悲伤和平静四类。

情感识别指的是计算机对从传感器采集来的信号进行分析和处理,从而得出人类表达的情感状态。语音情感识别指采用从声音中提取的语音信号,识别出情感的种类。当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这3种类型。这些特征常以帧为单位进行提取,以全局特征统计值的形式参与情感的识别。全局特征统计的单位一般是听觉上独立的语句或者单词,常用的统计指标有极值、极值范围、方差等。然而,在目前基于语音特征的情感识别中,广泛存在愤怒与开心之间难以区分的问题。

文本情感识别指通过对文本内容中包含的情感信息进行提取,从而识别情感。基于统计的文本特征提取方法中,最为有效的实现方法就是词频和逆词频tf*idf,它是由salton在1988年提出的。其中tf称为词频,用于计算该词描述文档内容的能力;idf称为反文档频率,用于计算该词区分文档的能力。tf*idf法认为一个单词出现的文本频率越小,它区别不同类别的能力就越大,所以引入了逆文本频度idf的概念,以tf和idf的乘积作为特征空间坐标系的取值测度。然而,目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。因此在使用单文本对情感识别时,使用文本特征向量会给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。所以,如何对愤怒和开心进行清晰有效的区分,又能有效的降低工作量,这是目前急需解决的问题。



技术实现要素:

发明目的:针对以上问题,本发明提出一种增强愤怒与开心识别的语音情感识别方法及系统,通过该方法及系统可以增强对愤怒和开心进行清晰有效的区分,又能有效的降低工作量。

技术内容:为实现本发明的目的,本发明所采用的技术方案是:一种增强愤怒与开心识别的语音情感识别方法,包括如下步骤:

(1.1)接收用户语音信号,提取语音的声学特征矢量;

(1.2)将语音信号转换为文本信息,获取语音的文本特征矢量;

(1.3)将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;

(1.4)对步骤(1.3)得到的愤怒和开心的情感概率值进行降低和增强,得到最终的情感判断识别结果。

其中,所述情感包括愤怒、开心、悲伤和平静。

其中,在步骤(1)中,使用如下方法提取语音的声学特征矢量:

(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;

(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到n维度的声学特征矢量;

(1.3)结合注意力机制,对n维度的声学特征矢量进行加权,对权值进行排序,选择前m维度的声学特征矢量,得到语音的声学特征矢量。

其中,在步骤(2)中,使用如下方法获取语音的文本特征矢量:

(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;

(2.2)根据统计结果,每种情感选取前n个词,合并去除重复词后形成去除重复词,合并成基本词汇表;

(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。

其中,在步骤(3)中,对声音样本数据集和文本样本数据集所有的样本进行提取语音的声学特征矢量集和语音文本特征矢量集,使用如下卷积神经网络结构分别对声学特征矢量和语音文本特征矢量进行训练,得到所述语音情感识别模型和文本情感识别模型:

(a)分类器结构为两个卷积层加上一个全连接层,第一层使用32个卷积核,第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用same,保留边界处的卷积结果;

(b)第一、第二层的激活函数采用relu函数,训练时设置变量dropoutrate为0.2;

(c)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用上下左右补0的方法,保留边界处的卷积结果;

(d)最后的全连接层选用softmax激活函数对所有的dropout层的输出进行回归得到情感类型的输出概率。

其中,在步骤(4)中,得到语音情感的最终判断识别结果的方法如下:

(4.1)通过语音情感识别模型对语音信号进行处理,得到愤怒的概率sh、开心的概率sa、悲伤的概率ss和平静的概率sm;

(4.2)通过文本情感识别模型对语音信号进行处理,得到愤怒的概率th、开心的概率ta、悲伤的概率ts和平静的概率tm;

(4.3)降低步骤(4.1)愤怒的概率sh、开心的概率sa的权重,增强步骤(4.2)中愤怒的概率th、开心的概率ta的权重:

sh′=sh*90%(1)

sa′=sa*90%(2)

th′=th*110%(3)

ta′=ta*110%(4)

(4.4)最终得到情感识别结果:

ci=max{sh′+th′,sa′+ta′,ss+ts,sm+tm}

其中,sh′+th′,sa′+ta′,ss+ts,sm+tm分别表示加权后愤怒、开心、悲伤、平静的概率值,max{}表示取最大值。

此外,本发明还提出了一种增强愤怒与开心识别的语音情感识别系统,其特征在于,包括如下模块:

声学特征矢量模块,用于接收用户语音信号,提取语音的声学特征矢量;

文本特征矢量模块,用于将语音信号转换为文本信息,获取语音的文本特征矢量;

情感概率计算模块,将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;

情感判断识别模块,对情感概率计算模块计算得到的愤怒和开心的情感概率值进行降低和增强,得到最终的情感判断识别结果。

其中,声学特征矢量模块功能如下:

(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;

(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度的声学特征矢量;

(1.3)结合注意力机制,对n维度的声学特征矢量进行加权,对权值进行排序,选择前m维度的声学特征矢量,得到语音的声学特征矢量。

其中,文本特征矢量模块功能如下:

(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;

(2.2)根据统计结果,每种情感选取前n个词,合并去除重复词后形成去除重复词,合并成基本词汇表;

(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。

其中,情感判断识别模块功能如下:

(4.1)通过语音情感识别模型对语音信号进行处理,得到愤怒的概率sh、开心的概率sa、悲伤的概率ss和平静的概率sm;

(4.2)通过文本情感识别模型对语音信号进行处理,得到愤怒的概率th、开心的概率ta、悲伤的概率ts和平静的概率tm;

(4.3)降低(4.1)中愤怒的概率sh、开心的概率sa的权重,增强(4.2)中愤怒的概率th、开心的概率ta的权重:

sh′=sh*90%(1)

sa′=sa*90%(2)

th′=th*110%(3)

ta′=ta*110%(4)

(4.4)最终得到情感识别结果:

ci=max{sh′+th′,sa′+ta′,ss+ts,sm+tm}

其中,sh′+th′,sa′+ta′,ss+ts,sm+tm分别表示加权后愤怒、开心、悲伤、平静的概率值,max{}表示取最大值。

有益效果:与现有的技术相比,本发明的优点如下:

(1)本发明由于将声学特征与文本特征相结合训练情感识别模型,改善了语音中愤怒与开心的误判问题;

(2)本发明使用深度学习算法建立情感识别模型,充分利用了声音信息与文本信息中与情感相关的特征进行情感识别,提高了语音情感的整体准确率。

附图说明

图1增强愤怒与开心识别的语音情感识别框架图;

图2是语音特征模型speechmf和文本特征模型textf构建图;

图3是基于注意力机制的语音特征选择过程图;

图4是本发明中采用语音、文本情感识别模型,与改进后的语音情感识别模型进行愤怒与开心识别的混淆矩阵对比图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明中语音增强情感识别模型构建框架如图1所示,本发明公开了一种增强愤怒与开心识别的语音情感识别方法,其包括如下步骤:

(1)语音与文本数据收集

通过对数据集iemocap中的语音数据进行选择,建立speechset数据集。本发明使用南加利福利亚大学收集的公开情感数据库(interactiveemotionalmotioncapture,iemocap)iemocap包含12小时的视听数据,即视频、音频和语音文本、面部表情,10名演员,5段对话,每段对话一男一女在有表演或自然状态的情况下,进行语言与动作结合的情感表达。此数据集中每个句子样本对应一个标签,离散方式上标注为愤怒、悲伤、开心、厌恶、恐惧、惊讶、沮丧、激动、中性情感九类情感。通过对此数据集中的样本进行选择,选择了四类情感样本数据,分别为愤怒、开心、悲伤、平静来进行情感识别。由于激动和开心在之前研究中,在情感聚类识别时,表现相似,区分不明显。因此将其处理为一类情感,合并为开心,由愤怒、开心、悲伤和平静最终构成了4类情感识别数据集speechset,总共5531个语音样本。如表1所示,其展示了speechset和textset数据集中情感样本数量分布。

(a)根据russell的四个象限定义的情感空间,从iemocap数据集中选择愤怒、开心、悲伤和平静四类情感,共5531个语音数据样本的speechset集合。

(b)利用语音识别软件对speechset中的5531个语音信号样本进行语音识别,获得对应的5531个与语音对应的文本数据集textset。

表1

(2)语音声学特征矢量提取,图2所示。

(2.1)用于提取输入语音样本的特征,以便进行进一步的与情感相关的声学特征的选择。

(2.1.1)语音样本的预处理

(a)预加重使语音高频部分得以提升,使声道参数分析或频谱分析更加便捷可靠,其可以利用计算机中6db/倍频程的提升高频特性的预加重数字滤波器来实现;

(b)进行加窗分帧处理,一般约为33帧/s到100帧/s,其中选择50帧/s为最佳;本发明中分帧采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性;前一帧与后一帧的交叠部分称为帧移,帧移与帧长的比值取1/2,分帧是用可移动的有限长度窗口进行加权的方法来实现的,利用窗函数ω(n)在原始语音信号s(n)之上叠加来实现,公式如下:

sω(n)=s(n)*ω(n)

其中,sω(n)就是加窗分帧处理后的语音信号,并且窗函数使用汉明窗函数,表达式如下:

(c)去除静音段和噪声段,为了获得更好的端点检测结果,本发明综合短时能量和短时过零率进行两级判决,具体算法如下:

计算短时能量:

其中,si(n)为每一帧的信号,i表示帧数,n为帧长;

计算短时过零率:

其中,

(d)计算语音和噪声的平均能量,设置一高一低两个能量门限t1和t2,高门限确定语音开端,低门限判断语音结束点;

(e)计算背景噪声的平均过零率,可以设置过零率门限t3,该门限用于判断语音前端的清音位置和后端的尾音位置,从而完成辅助判决。

(2.1.2)语音信号的声学特征提取

本发明首先对每个语音句子提取了帧级的低层次声学特征(lowleveldescriptors,llds),在基础声学特征上应用了多个不同的统计函数,将每个句子的一组时长不等的基础声学特征转化为等长的静态特征。首先使用opensmile工具包将音频分割为帧,计算llds,最后应用全局统计函数。本发明参考了interspeech2010年泛语言学挑战赛(paralinguisticchallenge)中广泛使用的特征提取配置文件“embose2010.conf”。其中提取基频特征和声音质量特征用40ms的帧窗和10ms的帧移抽取,频谱相关特征使用25ms的帧窗和10ms的帧移抽取。它包含了多个不同的低层次的声学特征,如mfcc,音量等,多个全局统计函数应用于低层次的声学特征和它们相应的系数,这些统计函数包括最大最小值、均值、时长、方差等,得到共1582维声学特征。部分低层次声学特征和统计函数如表2所示。

表2声学特征

(2.2)利用注意力机制算法建立与情感相关的声学特征。

通过以上步骤,得到1582维声学特征矢量,通过运用注意力机制结合长短时记忆分类器(longshorttermmemory,lstm),根据注意力参数进行特征选择,选择出与情感识别相关性大的特征,特征选择模型结构如图3所示。

(a)使用的注意力机制,对每一维声学特征,使用lstm标准函数softmax函数去获得在训练过程中每一维特征的权重,进行求和后归一化。计算得到注意力特征矩阵u[α1,α2,αi,…αn]后,将u和lstm的输出x做内积运算得到z矩阵,作为每一维特征对于情感识别的贡献率。

(b)将lstm层的输出b[b1,b2…bi,bn],通过softmax进行计算,得到注意力权重u[α1,α2,αi,…αn],对于每一个特征序列{xn}中的每个特征参数xi,注意力权重αi可通过如下公式计算:

此处f(xi)为计分函数,在本实验中,f(xi)是线性函数f(xi)=wtxi,其中w是lstm模型中可训练的参数。注意力机制的输出为z是由输出序列b和加权矩阵得出的:

z=[αi*bi](2)

(c)采用lstm结合注意力机制的方式,去训练语音声学特征,对特征进行排序,结合注意力机制的lstm模型具体结构如下所述。

(a)输入序列{xn}代表语音情感特征,由{x1,x2……xn}组成,其中n为1582维特征集中的维数,为总的特征种类的数量,xi代表一种声学特征,时间步设为1582,输入维度为1维。

(b)将输入特征序列连接到lstm层中,每个lstm由32个神经元节点组成。将lstm输出接入注意力机制,连接到一个1582个节点的全连接层,通过一个softmax进行识别,调用注意力机制计算方法,得到注意力矩阵u[α1,α2,αi,…αn]。

其中,

其中n为1582,i和j为特征变量数[1,1582]间的临时变量。

(c)在连接到全连接之前lstm进行维度转置为(32,1582),以便与将1582维特征对应到每个节点上。经过全连接后再转置为(1582,32)的形式,与原lstm进行运算。之后将基于注意力特征矩阵u[α1,α2,αi,…αn]与原lstm的输出b[b1,b2…bi,bn]融合,得到加权矩阵z=[αi*bi],进行内乘运算后,接入情感识别中全连接层。

(d)连接到全连接层,全连接层一设300个节点,激活函数使用‘relu’,为防过拟合,在训练过程中每次更新参数时按0.2的概率随机断开输入神经元。将全连接一的输出连接到全连接层二,设置四个节点,对应四种情感分类,激活函数使用‘softmax’。使用‘adam’优化器,计算交叉熵作为损失函数对模型进行编译。对数据循环20轮,采用批梯度下降更新权重,每一个batch大小设为128。

(d)通过以上步骤,得出1582维特征重要性排序权重值,根据此权重值,选择排名靠前460的特征,此时相比于其他特征数得到的识别率最佳。因此,最终得到特征子集speechf。最终的语音特征矢量speechf为5531样本与对应各自的460维特征。

(3)文本特征矢量textf建立,用于提取输入文本样本的特征矢量,进行文本的情感识别。

(a)情感词提取:利用文本数据集textset对四种情绪分别进行词频与逆词频统计,即词频-逆词频(termfrequency-inversedocumentfrequency,tf-idf);

(b)根据tf-idf每种情绪选取前400个词共400*4个情感词,合并去除重复词后形成去除重复词,并将它们合并成情感特征基本词汇955;

(c)得到的955个词作为文本的特征矢量textf,以语音中每个词在每个样本中出现与否作为该特征的值,出现为1,不出现为0,得到语音的文本特征矢量表达textf。

(4)利用语音样本speechset和文本样本textset训练语音情感识别模型和文本情感识别模型建立。

(4.1)对speechset数据库样本提取语音特征集矢量speechf,对文本数据库textset样本提取文本特征矢量集textf;

(4.2)使用卷积神经网络(convolutionalneuralnetworks,cnn)进行训练情感识别模型,参数选择如下:

(a)卷积神经网络模型使用两个卷积层加上一个全连接层,经过softmax激活层后得到四类预测结果。

(b)使用“adam”优化器,损失函数使用交叉熵。每十个样本计算一次梯度下降,更新一次权重。

(c)对于模型中具体参数设置,第一层使用一维的卷积层,卷积核数目采用32个,第二层卷积层采用64个卷积核,卷积核的窗长度为10,卷积步长为1,补零策略采用“same”,保留边界处的卷积结果。激活函数使用“relu”,为防止过拟合,在训练过程中每次更新参数时按0.2的概率随机断开输入神经元。

(d)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用“same”,保留边界处的卷积结果,对所有训练样本循环20轮。

(4.3)将4.1中的语音样本的speechf输入4.2的模型进行训练,得到语音情感识别模型,将4.1中的文本样本的textf输入4.2中建立的模型进行训练,得到文本情感识别模型,语音情感模型输出为输入语音时属于愤怒、开心、悲伤和平静的概率值sh、sa、ss和sm,文本情感模型输出为输入文本时四类情感的概率值th、ta、ts和tm。

(5)语音情感识别模型eemode是一个决策模型,利用公式(1)-(4)分别对愤怒和开心的语音和文本分类结果进行加权得到sh′、sa′和th′、ta′,最终得到决策公式(5):

sh′=sh*90%(1)

sa′=sa*90%(2)

th′=th*110%(3)

ta′=ta*110%(4)

ci=max{sh′+th′,sa′+ta′,ss+ts,sm+tm}(5)

ci是最终识别出愤怒、开心、悲伤和平静概率的最大值。

通过混淆矩阵分析eemodel对不同情感的识别结果。混淆矩阵是人工智能中一种可视化工具,这里采用混淆矩阵方式分析愤怒与开心、以及其它各类情感之间的误判情况。对四类情感进行分析,横向每行表示真实结果,纵向每列表示预测结果。每一行四类值的和为一,表示所有样本数标准化后的值。从左上到右下的对角线上的值为预测正确的值,其余为误分值。混淆矩阵能详细表示出四类情感之间的误判情况愤怒与开心的误判情况。

图4a中从声学特征识别中把愤怒识别成开心的误分率为18%,把开心识别为愤怒的误分率为14%。图4b可见从文本特征中把愤怒识别成开心的误分率为7%,把开心识别为愤怒的误分率为3%。可见在文本特征对愤怒和开心有较好的区分性。但在总体准确率上声学特征的准确率为59%,而文本特征只有55.8%。声学特征在四类情感中具有较好的区分性。

图4c显示了将声学和文本特征融合后的识别效果,把愤怒识别成开心的误分率为12%,把开心识别为愤怒的误分率为9%。总体准确率是67.5%。可见融合识别方法在保证总体识别准确率的情况下,特别提高了愤怒和开心的识别准确率。

并且,对5531个语音样本通过语音特征进行识别的结果如表3所示,通过结合语音与文本识别模型,识别结果如所示。根据混淆矩阵分析发现,声音中加入文本信息以后,有效的区分了愤怒与开心。愤怒的识别准确率由原来的66%提高到72%,开心识别准确率由单一语音的56%提高到68%。可见本发明有效解决了单通道声音容易对愤怒与开心误判的问题。

表3基于三种数据识别结果准确率的对比

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1