语音信息的情感识别方法及装置与流程

文档序号:33713614发布日期:2023-04-01 02:20阅读:69来源:国知局
语音信息的情感识别方法及装置与流程

1.本发明属于计算机技术领域,特别是涉及一种语音信息的情感识别方法、装置、电子设备及可读存储介质。


背景技术:

2.语音信息的情感识别,是人机交互的重要研究课题,如在智能客服场景下,准确识别用户语音的情感表达,是提升智能客服的服务质量的重要因素。
3.在目前,语音情感识别研究的数据来源,主要是标准格式的语音数据库,通过这些语音数据使得模型可以学习语音和情感之间的关联,从而让模型具有识别语音情感的功能。
4.但是,上述方案在具体实施时,常会出现数据不平衡和局部最优的问题,进而对模型的学习造成较大干扰,影响情感识别准确性。


技术实现要素:

5.本发明提供一种语音信息的情感识别方法、装置、电子设备及可读存储介质,以解决现有技术中数据不平衡和局部最优对模型的学习造成较大干扰,影响情感识别准确性的技术问题。
6.第一方面,本发明提供一种语音信息的情感识别方法,所述方法包括:
7.获取语音信息,提取所述语音信息的语音特征;
8.对所有所述语音特征进行分类,获得少数类语音特征集合以及多数类语音特征集合;
9.对所述少数类语音特征集合进行随机过采样处理,并将处理后的少数类语音特征集合与所述多数类语音特征集合合并,获得目标语音特征集合;
10.按照逆顺序选择算法,对所述目标语音特征集合中的语音特征进行特征选择,将选择得到的语音特征构成候选特征集合;
11.将所述候选特征集合中的语音特征输入分类器,获得所述语音信息的语音情感类别。
12.第二方面,本发明提供一种语音信息的情感识别装置,所述装置包括:
13.获取模块,用于获取语音信息,提取所述语音信息的语音特征;
14.分类模块,用于对所有所述语音特征进行分类,获得少数类语音特征集合以及多数类语音特征集合;
15.随机采样模块,用于对所述少数类语音特征集合进行随机过采样处理,并将处理后的少数类语音特征集合与所述多数类语音特征集合合并,获得目标语音特征集合;
16.逆顺序选择模块,用于按照逆顺序选择算法,对所述目标语音特征集合中的语音特征进行特征选择,将选择得到的语音特征构成候选特征集合;
17.识别模块,用于将所述候选特征集合中的语音特征输入分类器,获得所述语音信
息的语音情感类别。
18.第三方面,本发明提供一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述语音信息的情感识别方法。
19.第四方面,本发明提供一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述语音信息的情感识别方法。
20.在本发明实施例中,采用随机过采样的方法,通过复制少数类样本,使得少数类语音特征集合中的特征数量提升到与多数类语音特征集合相同的水平,从而在保证信息不丢失的基础上,达到平衡数据的目的,避免模型从不平衡的数据中学习到的决策规则过于偏向多数类样本,进一步的,本发明实施例采用迭代的方式对声信号特征集进行分析,通过逆顺序选择算法,删除每个迭代过程中对目标语音特征集合中表征能力贡献度最小的特征,使得最终剩余的语音特征构成候选特征集合并输入分类器进行语音情感类别的识别,这样可以在保证特征集表征能力的前提下,通过特征之间的相关性分析选择出最优的候选特征集,降低初始的目标语音特征集合的特征维数,提升模型的计算效率,并提升模型的检测性能。
附图说明
21.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本发明实施例提供的一种语音信息的情感识别方法的步骤流程图;
23.图2是本发明实施例提供一种语音信息的情感识别方法的具体步骤流程图;
24.图3是本发明实施例提供的一种随机过采样处理流程示意图;
25.图4是本发明实施例提供的一种逆顺序选择算法处理流程示意图;
26.图5是本发明实施例提供一种极限学习机的架构示意图;
27.图6是本发明实施例提供的一种语音信息的情感识别装置的结构图;
28.图7是本发明实施例提供的一种电子设备的结构图。
具体实施方式
29.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.图1是本发明实施例提供的一种语音信息的情感识别方法的步骤流程图,如图1所示,该方法可以包括:
31.步骤101、获取语音信息,提取所述语音信息的语音特征。
32.在本发明实施例中,语音信息可以是由电子设备采集的包含语音内容的声信号,进一步的,由于语音信息的数据维度较高,较难以对其直接处理,因此,本发明实施例可以
提取语音信息的语音特征,语音特征可以在保留语音信息的声学含义的基础上,降低数据维度,从而降低后续对语音特征处理的难度。
33.其中,特征是某一类对象区别于其他类对象的相应特点或特性,或是这些特点和特性的集合,特征是通过测量或处理能够抽取的数据,特征提取的主要目的是降维,且其主要思想是将原始图像样本投影到一个低维特征空间,得到最能反应语音信息本质或进行语音信息区分的低维语音特征。
34.步骤102、对所有所述语音特征进行分类,获得少数类语音特征集合以及多数类语音特征集合。
35.本发明实施例中,模型学习过程中的数据不平衡问题是严重影响模型识别准确度的因素,因此,情感类别直接的数据不平衡会对语音情感识别模型的学习造成很大影响,不平衡的情感语音往往表现出多类别、量级小、情感混淆程度高等特点,针对这些特性,如何进行语音情感数据不平衡处理,是语音情感识别技术面向实用亟待解决的问题。具体的,实际应用中对语音信息提取得到的语音特征即存在数据不平衡的现象,具体是由于将语音特征区分为少数类语音特征和多数类语音特征后,少数类语音特征的数量相较于多数类语音特征的数量较少而导致的,使用不平衡的数据进行模型训练,会影响算法在模型拟合过程中对决策规则的学习,进而可能会导致少数类样本被多数类样本吞噬。这是因为,机器学习算法通常是通过在模型训练过程中不断优化奖励函数和代价函数来学习样本数据所体现的可能的潜在规则,而这些函数的计算结果与模型训练过程中所遇到的训练样本数量强相关,这会导致从不平衡的数据中学习到的决策规则很可能偏向于多数类样本。
36.可以理解,语音信号的数据不平衡是指声信号数据集中的数据具有偏斜的类别分布,即不同语音情感声信号样本量存在较大差异。当某一类或者某几类情感类别中的样本数量与其他类别的样本数量存在较大差异时,样本量相对较多的类别则被称为多数类,而样本数量相对较少的类别则被称为少数类,多数类语音特征也称为负样本(指不属于某一类别的样本),少数类语音特征也称为正样本(是指属于某一类别的样本)。本发明实施例旨在解决该数据不平衡的问题。在该步骤中,区分少数类语音特征以及多数类语音特征时,可以根据特征数量来判断,若一类语音特征的数量相较其他类别的语音特征的数量较少,则该类语音特征可以作为少数类语音特征;若一类语音特征的数量相较其他类别的语音特征的数量较多,则该类语音特征可以作为多数类语音特征。
37.步骤103、对所述少数类语音特征集合进行随机过采样处理,并将处理后的少数类语音特征集合与所述多数类语音特征集合合并,获得目标语音特征集合。
38.在本发明实施例中,可以采用对少数类语音特征集合中的特征进行随机过采样的方式,以解决数据不平衡的问题。随机过采样算法的原理是通过随机的方式对少数类语音特征集合进行采样,并将采样获得的新特征与原有少数类语音特征集合进行合并,使得合并后的少数类语音特征集合中的特征数量提升到与多数类语音特征集合相同的水平,合并后的少数类语音特征集合和多数类语音特征集合可以共同构成目标语音特征集合来进行后续处理,随机过采样算法通过复制少数类样本来达到平衡数据的目的,这不会导致任何信息丢失。
39.步骤104、按照逆顺序选择算法,对所述目标语音特征集合中的语音特征进行特征选择,将选择得到的语音特征构成候选特征集合。
40.本发明实施例中,在进行语音信号的特征提取和数据不平衡的处理后,得到的目标语音特征集合可能存在数据维数过高或特征之间存在信息冗余等问题。使用这样的目标语音特征集合进行模型训练会导致维数灾难的发生,即样本在高维空间中呈现稀疏状态,使得模型预测结果的偏差和方差的增加,还会导致模型变得愈加难以解释,模型容易出现过拟合现象,并且会增加模型的计算成本。
41.为了解决上述问题,本发明实施例可以采用迭代的方式对声信号特征集进行分析,即通过逆顺序选择算法,删除每个迭代过程中对目标语音特征集合中表征能力贡献度最小的特征,使得最终剩余的语音特征构成候选特征集合,这样可以在保证特征集表征能力的前提下,通过特征之间的相关性分析选择出最优的候选特征集,降低初始的目标语音特征集合的特征维数,该过程充分考虑了特征之间的相关性,消除了信息冗余,进而提升模型的计算效率,并提升模型的检测性能。
42.步骤105、将所述候选特征集合中的语音特征输入分类器,获得所述语音信息的语音情感类别。
43.在本发明实施例中,将候选特征集合中的语音特征输入分类器,分类器可以是一种基于单隐层前馈神经网络的极限学习机模型,由于其网络模型输入的参数是被随机分配的,极限学习机只需要一次迭代求解就能训练出模型,因此它可以得到比反向传播神经网络更快的学习速度,并且具备更优良的泛化能力,不易产生局部最优解,本发明实施例的候选特征集合中的语音特征经过分类器处理后,即可输出语音信息的语音情感类别,由于本发明实施例克服了相关技术中局部最优的问题,进而提升了模型的语音情感类别的识别准确性。
44.综上所述,本发明实施例采用随机过采样的方法,通过复制少数类样本,使得少数类语音特征集合中的特征数量提升到与多数类语音特征集合相同的水平,从而在保证信息不丢失的基础上,达到平衡数据的目的,避免模型从不平衡的数据中学习到的决策规则过于偏向多数类样本,进一步的,本发明实施例采用迭代的方式对声信号特征集进行分析,通过逆顺序选择算法,删除每个迭代过程中对目标语音特征集合中表征能力贡献度最小的特征,使得最终剩余的语音特征构成候选特征集合并输入分类器进行语音情感类别的识别,这样可以在保证特征集表征能力的前提下,通过特征之间的相关性分析选择出最优的候选特征集,降低初始的目标语音特征集合的特征维数,提升模型的计算效率,并提升模型的检测性能。
45.图2是本发明实施例提供的一种语音信息的情感识别方法的具体步骤流程图,如图2所示,该方法可以包括:
46.步骤201、对所述语音信息进行预处理,获得预处理信号。
47.在本发明实施例中,对语音信息的语音特征进行提取前,可以对语音特征进行预处理,获得预处理信号,预处理旨在将语音信息采样量化为标准信号,在保留语音信息的内容的基础上,消除语音信息中的杂质,提升后续对语音信息的处理便捷度。
48.可选的,步骤201具体可以包括:
49.子步骤2011、按照预设时间间隔,对所述语音信息进行离散采样,获得离散语音信号。
50.在该步骤中,离散采样的目的是通过预设时间间隔,将连续的语音信息s(t)离散,
得到离散语音信号s(nt),其中,t为预设时间间隔,其取值一般大于语音信息中最高频率的两倍,这样的离散采样方式能够保证采样出来的信号信息较为完整,失真较小。
51.子步骤2012、对所述离散语音信号进行量化处理,获得量化语音信号。
52.在该步骤中,采样后得到的离散语音信号只是时间上的离散信号,为了获得可处理的数字信号,本发明实施例可以对离散语音信号进行量化处理,以获得数字信号形式的量化语音信号,量化是指在数字信号处理领域,将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。量化主要应用于从连续信号到数字信号的转换中。连续信号经过采样成为离散信号,离散信号经过量化即成为数字信号。其中,量化操作所划分的一个幅值区间可以为8比特或16比特。
53.子步骤2013、将所述量化语音信号输入预设的一阶高通滤波器,滤除所述量化语音信号中的低频信号,获得第一滤波信号。
54.在该步骤中,对量化处理后的量化语音信号可以进一步进行预加重处理,这是因为电机运行影响功率谱的高频阶段会造成信号衰减,所以需要采用预加重对衰减的功率进行增强处理,从而提高信号的保真程度。
55.具体的,一种可实现的预加重方法是采用一个一阶高通滤波器,将量化语音信号的低频部分滤去,留下量化语音信号的高频部分,也就是相当于高频部分增强,其可按如下公式表示:
56.h(z)=1-μz-1
57.其中,h代表高通滤波器,z表示输入量化语音信号的复频域变量,μ是预加重系数,其通常取值范围是0.95-0.98。
58.子步骤2014、将所述第一滤波信号进行分帧处理后,对所述分帧信号进行加窗处理,获得所述预处理信号。
59.在实际应用中,由于人在说话过程中,声信号是处于连续变化的,但是人在说话期间的声信号变化相对较平稳,对于某一小段时间来讲,可以认为声信号变化很小,称作局部平稳。根据这个思路,本发明实施例可以模拟人说话的特性,通过分帧手段将声信号处理成一帧一帧的,帧是连续的,每帧内部又是平稳的,其中,分帧得到的单帧帧长可以为10-30ms。
60.在本发明实施例中,加窗操作是指对分帧后的分帧信号进行短时分析,声信号的分帧是通过移动一个有限长度的窗口进行实现的,前一帧和后一帧重叠的部分称作帧移。而加窗操作能够使信号的全局更加连续,并且使原本的无规则的声信号呈现出一种近似于周期函数的特性。
61.声信号处理过程中,一种可实现的加窗函数为汉明窗,其表达式为:
[0062][0063]
其中,φ(n)代表汉明窗函数,n为帧长。
[0064]
步骤202、提取所述预处理信号的语音特征。
[0065]
通过对预处理后的预处理信号进行语言特征的提取,由于预处理过程提升了信号
的处理便捷度和滤除了信号中的杂质成分,这就使得特征提取更加轻松,且提取得到的语音特征的表征更加准确。
[0066]
可选的,步骤202具体可以通过对所述预处理信号进行快速傅里叶变换处理,获得变换信号;将所述变换信号输入预设的梅尔滤波器组,获得第二滤波信号;将所述第二滤波信号进行离散余弦变换,获得所述语音特征的方式实现。
[0067]
在本发明实施例中,提取预处理信号的第一步是对预处理信号进行快速傅里叶变换处理,获得变换信号,通过快速傅里叶变换可以将预处理信号的时域特性转换成频域上的能量分布观察。快速傅里叶变换一般需要将预处理信号离散化,离散傅里叶变换可以由快速傅里叶变换计算得到,其公式为:
[0068][0069]
其中,x
(n)
,为采样后的一帧声音序列,n为帧长,x
(k)
为n点的复数系列。
[0070]
之后,可以将所述变换信号输入预设的梅尔滤波器组,获得第二滤波信号,梅尔滤波器组的其传递函数为:
[0071][0072]
其中,f(m)为中心频率,m为梅尔滤波器的个数。
[0073]
将能量谱传送到梅尔滤波器中,取对数后得到如下对数频谱,对数公式为:
[0074]
其中,s(m)为对数频谱,hm(k)为三角滤波器的传递函数。
[0075]
在本发明实施例中,梅尔滤波器组的作用是将能量谱转换为更接近人耳机理的梅尔频率,提高语音特征的可表达性。
[0076]
最后,可以将第二滤波信号进行离散余弦变换,获得语音特征。本发明实施例将第二滤波信号经离散余弦变换到倒谱频域,得到的梅尔频率倒谱系数信号如下:
[0077][0078]
其中,c(n)表示梅尔倒谱系数。
[0079]
步骤203、对所有所述语音特征进行分类,获得少数类语音特征集合以及多数类语音特征集合。
[0080]
该步骤具体可以参照上述步骤102,此处不做赘述。
[0081]
步骤204、对所述少数类语音特征集合进行随机过采样处理,并将处理后的少数类语音特征集合与所述多数类语音特征集合合并,获得目标语音特征集合。
[0082]
该步骤具体可以参照上述步骤103,此处不做赘述。
[0083]
可选的,经过所述随机过采样处理后的少数类语音特征集合的特征数量,与所述多数类语音特征集合的特征数量的差值小于或等于预设阈值。
[0084]
在本发明实施例中,参照图3,其示出了本发明实施例的一种随机过采样处理流程示意图,其中,针对存在数据不平衡现象的语音特征集合(不平衡的声信号数据集),可以将其分类为少数类语音特征集合(少数类样本)和多数类语音特征集合(多数类样本),其中,多数类语音特征也称为负样本(指不属于某一类别的样本),少数类语音特征也称为正样本(是指属于某一类别的样本),若一类语音特征的数量相较其他类别的语音特征的数量较少,则该类语音特征可以作为少数类语音特征;若一类语音特征的数量相较其他类别的语音特征的数量较多,则该类语音特征可以作为多数类语音特征。
[0085]
之后,可以对少数类语音特征集合(少数类样本)进行随机过采样处理,并采样获得新特征,将采样获得的新特征与原有少数类语音特征集合(少数类样本)合并后,获得的新的少数类语音特征集合中的特征数量,与多数类语音特征集合的特征数量的差值小于或等于预设阈值(该预设阈值可以根据实际需求进行设定)。这样获得的新的少数类语音特征集合中的特征数量与多数类语音特征集合中的特征数量几乎相同,从而解决了少数类、多数类数据不平衡的问题。最后,将新的少数类语音特征集合中与多数类语音特征集合合并,获得目标语音特征集合以供后续处理(即平衡的声信号数据集)。
[0086]
具体的,假设处理前的特征集合(不平衡的声信号数据集)为s,对少数类语音特征集合(少数类样本)进行随机过采样处理获得的新特征为e,则最后输出的目标语音特征集合s

如下:
[0087]
|s

|=|s
maj
|+|s
min
|+|e|,
[0088]
其中,s
maj
和s
min
分别表示的是多数类样本和少数类样本。
[0089]
步骤205、在每个迭代中,通过预设的评价函数,计算所述目标语音特征集合每个语音特征的损失值,并从所述目标语音特征集合中删除所述损失值最小的语音特征;所述损失值用于表征删除所述语音特征后对所述目标语音特征集合造成的损失大小。
[0090]
在本发明实施例中,在进行语音信号的特征提取和数据不平衡的处理后,得到的目标语音特征集合可能存在数据维数过高或特征之间存在信息冗余等问题,为了解决上述问题,本发明实施例可以按照逆顺序选择算法,对目标语音特征集合中的语音特征进行特征选择,将选择得到的语音特征构成候选特征集合。这样可以在保证特征集表征能力的前提下,通过特征之间的相关性分析选择出最优的候选特征集,降低初始的目标语音特征集合的特征维数,该过程充分考虑了特征之间的相关性,消除了信息冗余,进而提升模型的性能。
[0091]
具体的,本发明实施例可以采用迭代的方式对目标语音特征集合进行分析和特征选择,充分考虑特征相互之间的相关性,选择出最优的特征子集。逆顺序选择算法属于贪心算法,其通过从初始的i维特征集中依次去除某些特征,使得处理后的特征集中的特征维数达到目标值。
[0092]
参照图4,其示出了本发明实施例的一种逆顺序选择算法处理流程示意图,首先,
逆顺序选择算法属于贪心算法,其通过从初始的i维特征集中依次去除某些特征,使得处理后的特征集中的特征维数达到目标值j(j《i)。
[0093]
逆顺序选择算法需要初始化算法参数y0=x,j=i,定义预期最小化的评价函数f,并以该函数计算出来的评价值作为每个迭代过程中衡量分类器在对去除某个特定特征前后的特征集的分类性能差异的标尺;本发明实施例可以根据预期最小化评价函数f,每个迭代中计算每个特征的损失值,并寻找出在每个迭代过程中,因特征删除对分类性能损失值最小的特征,该特征也可以称为分类性能贡献度最小特征,并且可以被表示如下:
[0094]
y-←
arg max f(y
j-yk),yk∈yj,yk∈x.
[0095]
之后,在每个迭代中从目标语音特征中删除所找到的损失值最小的语音特征,此过程可以表示为:
[0096]yj-1
←yj-y-,j=j-1
[0097]
最后,在多轮迭代后,可以判断目标语音特征集合中剩余特征的维数j是否达到目标维数n。如果达到则结束计算流程,将目标语音特征集合中剩余特征构成候选特征集合(最优特征子集)。否则继续迭代,直至满足条件并获得候选特征集合。
[0098]
基于逆顺序选择算法的特征选择方法的思想是通过最小的模型分类性能衰减,来降低初始的目标语音特征集合的特征维数,进而提升模型的计算效率,并提升模型的识别性能。
[0099]
使用x表示一个特征维数为i的目标语音特征集合,特征选择过程中特征子集的特征维数为j,并假定所要选择出的候选特征集合的目标维数为n,且n≤j≤i,使用y表示选择出的声信号特征子集,则特征集x和y可以表示如下
[0100]
x={x1,x2,

,xi},
[0101]
yj={yk∣k=1,2,

,j;yk∈x},j=1,2,

,i.
[0102]
步骤206、在所述目标语音特征集合的维度达到目标维度时,停止迭代,选择所述目标语音特征集合中的剩余语音特征构建所述候选特征集合。
[0103]
本发明实施例中,在目标语音特征集合的维度达到目标维度时,达到终止条件停止迭代,选择目标语音特征集合中的剩余语音特征构建候选特征集合,通过删除每个迭代过程中对目标语音特征集合中表征能力贡献度最小的特征,使得最终剩余的语音特征构成候选特征集合,这样可以在保证特征集表征能力的前提下,通过特征之间的相关性分析选择出最优的候选特征集,降低初始的目标语音特征集合的特征维数。
[0104]
步骤207、将所述候选特征集合中的语音特征输入极限学习机分类器,获得所述语音信息的语音情感类别。
[0105]
在本发明实施例中,参照图5,其示出了本发明实施例的一种极限学习机的架构示意图,极限学习机包括:输入层、隐层和输出层,极限学习机是一种单隐层前馈神经网络,由于其输入的参数是被随机分配的,极限学习机只需要一次迭代求解就能训练出模型,因此它可以得到比反向传播神经网络更快的学习速度,并且具备更优良的泛化能力,不易产生局部最优解。具体的,极限学习机的目标是将一个原始的输入空间映射到一个输出空间,进而处理分类或回归问题。极限学习机提出随机初始化网络参数,输出权重是用基于moore-penrose广义逆的最小均方法计算得出的,因此计算成本要比使用其他经典算法要低得多。
[0106]
参照图5,不同于传统的单隐层前馈神经网,,极限学习机随机分配输入权重和隐
层偏置,同时不需要向神经网络中误差反向传播那样调整参数。极限学习机网络模型的输出权重直接通过求解线性模型确定,因此极限学习机的训练阶段只通过一次迭代完成,训练速度极快。极限学习机的输入层与隐含层之间的连接通过输入权重ω建立,隐含层与输出层之间的连接由输出权重β建立。
[0107]
假设给定由n个任意不同样本组成的训练数据集其中单个样本包括:
[0108]
n个特征;
[0109]
标签包括m个输出类别。一个包含l个神经元的标准网络的输出可以表示为:
[0110][0111]
其中,是第i个隐层神经元的输入权重,bi是第i个隐层神经元的偏置。是第i个神经元的输出权重,网络的输出值是g()是激活函数。极限学习机中,sigmoid函数常被当作激活函数:
[0112][0113]
标准的损失函数在网络参数ω,b,β完全可调的情况下,能够无限接近于零误差。在这种情况下,将公式转换为:
[0114][0115]
因此,上述n个式子可以组合在一起,变成矩阵的形式hβ=t。
[0116][0117][0118]
其中:矩阵h是隐含层的输出,t是真实类标签。输出权重β是通过解决最小二乘问题计算:
[0119]
隐层输出h的mp广义逆,极限学习机算法的流程如下:
[0120]
输入:训练数据集激活函数g(),隐层神经元数目l。
[0121]
输出:输出权重β。
[0122]
第一步、随机生成取值范围是[-1,1]的输入权重ω和隐层偏置b。
[0123]
第二步、通过公式计算隐含层输出矩阵。
[0124]
第三步、通过mp广义逆计算输出权重
[0125]
因此,本发明实施例的候选特征集合中的语音特征经过极限学习机分类器处理后,即可输出语音信息的语音情感类别,由于本发明实施例克服了相关技术中局部最优的问题,进而提升了模型的语音情感类别的识别准确性。
[0126]
综上所述,本发明实施例采用随机过采样的方法,通过复制少数类样本,使得少数类语音特征集合中的特征数量提升到与多数类语音特征集合相同的水平,从而在保证信息不丢失的基础上,达到平衡数据的目的,避免模型从不平衡的数据中学习到的决策规则过于偏向多数类样本,进一步的,本发明实施例采用迭代的方式对声信号特征集进行分析,通过逆顺序选择算法,删除每个迭代过程中对目标语音特征集合中表征能力贡献度最小的特征,使得最终剩余的语音特征构成候选特征集合并输入分类器进行语音情感类别的识别,这样可以在保证特征集表征能力的前提下,通过特征之间的相关性分析选择出最优的候选特征集,降低初始的目标语音特征集合的特征维数,提升模型的计算效率,并提升模型的检测性能。
[0127]
图6是本发明实施例提供的一种语音信息的情感识别装置的结构图,该装置可以包括:
[0128]
获取模块301,用于获取语音信息,提取所述语音信息的语音特征;
[0129]
分类模块302,用于对所有所述语音特征进行分类,获得少数类语音特征集合以及多数类语音特征集合;
[0130]
随机采样模块303,用于对所述少数类语音特征集合进行随机过采样处理,并将处理后的少数类语音特征集合与所述多数类语音特征集合合并,获得目标语音特征集合;
[0131]
逆顺序选择模块304,用于按照逆顺序选择算法,对所述目标语音特征集合中的语音特征进行特征选择,将选择得到的语音特征构成候选特征集合;
[0132]
识别模块305,用于将所述候选特征集合中的语音特征输入分类器,获得所述语音信息的语音情感类别。
[0133]
可选的,经过所述随机过采样处理后的少数类语音特征集合的特征数量,与所述多数类语音特征集合的特征数量的差值小于或等于预设阈值。
[0134]
可选的,所述逆顺序选择模块304,包括:
[0135]
迭代子模块,用于在每个迭代中,通过预设的评价函数,计算所述目标语音特征集合每个语音特征的损失值,并从所述目标语音特征集合中删除所述损失值最小的语音特征;所述损失值用于表征删除所述语音特征后对所述目标语音特征集合造成的损失大小;
[0136]
终止子模块,用于在所述目标语音特征集合的维度达到目标维度时,停止迭代,选择所述目标语音特征集合中的剩余语音特征构建所述候选特征集合。
[0137]
可选的,所述装置还包括:
[0138]
预处理模块,用于对所述语音信息进行预处理,获得预处理信号;
[0139]
所述获取模块301,包括:
[0140]
提取子模块,用于提取所述预处理信号的语音特征。
[0141]
可选的,所述预处理模块,包括:
[0142]
离散子模块,用于按照预设时间间隔,对所述语音信息进行离散采样,获得离散语音信号;
[0143]
量化子模块,用于对所述离散语音信号进行量化处理,获得量化语音信号;
[0144]
滤波子模块,用于将所述量化语音信号输入预设的一阶高通滤波器,滤除所述量化语音信号中的低频信号,获得第一滤波信号;
[0145]
分帧加窗子模块,用于将所述第一滤波信号进行分帧处理后,对所述分帧信号进行加窗处理,获得所述预处理信号。
[0146]
可选的,所述获取模块301,包括:
[0147]
傅里叶变换子模块,用于对所述语音信息进行快速傅里叶变换处理,获得变换信号;
[0148]
梅尔滤波子模块,用于将所述变换信号输入预设的梅尔滤波器组,获得第二滤波信号;
[0149]
余弦变换子模块,用于将所述第二滤波信号进行离散余弦变换,获得所述语音特征。
[0150]
可选的,所述分类器为极限学习机分类器。
[0151]
综上所述,本发明实施例采用随机过采样的方法,通过复制少数类样本,使得少数类语音特征集合中的特征数量提升到与多数类语音特征集合相同的水平,从而在保证信息不丢失的基础上,达到平衡数据的目的,避免模型从不平衡的数据中学习到的决策规则过于偏向多数类样本,进一步的,本发明实施例采用迭代的方式对声信号特征集进行分析,通过逆顺序选择算法,删除每个迭代过程中对目标语音特征集合中表征能力贡献度最小的特征,使得最终剩余的语音特征构成候选特征集合并输入分类器进行语音情感类别的识别,这样可以在保证特征集表征能力的前提下,通过特征之间的相关性分析选择出最优的候选特征集,降低初始的目标语音特征集合的特征维数,提升模型的计算效率,并提升模型的检测性能。
[0152]
本发明还提供了一种电子设备,参见图7,包括:处理器901、存储器902以及存储在所述存储器上并可在所述处理器上运行的计算机程序9021,所述处理器执行所述程序时实现前述实施例的语音信息的情感识别方法。
[0153]
本发明还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的语音信息的情感识别方法。
[0154]
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0155]
需要说明的是,本发明实施例中获取的各种信息、数据,均是在得到信息/数据持有方授权的情况下获取的。
[0156]
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。
各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语音。应当明白,可以利用各种编程语音实现在此描述的本发明的内容,并且上面对特定语音所做的描述是为了披露本发明的最佳实施方式。
[0157]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0158]
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0159]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0160]
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明的排序设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0161]
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0162]
本发明所涉及的用户信息(包括但不限于用户的设备信息、用户个人信息等)、相关数据等均为经用户授权或经各方授权后的信息。
[0163]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0164]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
[0165]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1