基于频谱平移的情感说话人识别方法

文档序号：2836841阅读：641来源：国知局

专利名称：基于频谱平移的情感说话人识别方法
技术领域：
本发明涉及信号处理和模式识别，主要是一种基于频谱平移的情感说话人识别方法。
背景技术：
说话人识别技术是指利用信号处理和模式识别方法，根据说话人的语音识别其身份的技术。情感说话人识别是训练语音和测试语音中包含情感语音的说话人识别。在情感说话人识别中，由于受到测试语音和训练语音情感不一致的影响，系统的识别率将降大幅降低。本专利提出的方法就是为了减弱训练和测试语音情感不一致引起的系统性能的下降。
目前说话人识别方法主要分成两个步骤，第一个步骤为特征提取，主
要的特征提取方法有梅尔倒谱系数(MFCC),线形预测编码倒谱系数 (LPCC),感觉加权的线性预测系数(PLP)。第二个步骤为说话人识别过程，包括说话人建模和训练。主要的建模方法有高斯混合模型法(GMM), 通用背景模型法(GMM-UBM),支持向量机(SVM)。
在情感说话人识别中，训练语音通常为中性情感语音，而测试语音包括各种情感的语音，比如高兴情感语音，悲伤情感语音。所以，解决情感问题的关键是在训练时也能得到除中性情感语音之外的情感语音。如果只是让用户提供各种各样的情感语音，显然是不符合应用要求的。一般情况下，用户只能提供中性语音，因此提出了采用中性情感语音得到与各种情感语音等效的语音频谱。

发明内容
本发明提供了一种基于频谱平移的情感说话人识别方法。该方法通过平移语音信号的短时频谱，将中性语音频谱转换成情感语音等效的语音频谱，降低情感变化因素对说话人识别性能的影响。
共振峰位置的不同是各类情感语音的一个主要差别，通过改变中性语音的共振峰位置，可以得到与情感语音等效的语音频谱，让系统在训练的时候熟悉各种情感语音，从而提高情感说话人识别的性能。本专利提出了一种基于频谱平移的情感说话人识别方法。通过平移中性语音的频谱来改变共振峰分布，从而得到与情感语音等效的语音频谱。
本发明首先采用平移中性语音频谱的方法，得到和中性语音有不同共振峰分布的频谱，再从这些频镨中提取情感语音特征，然后采用高斯混合模型对各类情感特征建立模型，最后采用最大得分方法求出测试语音得分，并进行识别。
一种基于频谱平移的情感说话人识别方法，包括如下步骤
(1)音频预处理
采集待测音频信号后，对音频信号依次进行采样量化、去零漂、预加
重和加窗，得到加窗后的语音帧； (2 )频谱平移
加窗后的语音帧经过快速傅立叶变换得到频谱信号，采用频谱平移方法得到多组分别拥有不同共振峰分布的频谱信号；
由于说话人处于不同情感状态下的语音频谱的共振峰分布情况不同，通过改变中性语音频谱的共振峰分布就等效于得到该说话人不同情感状态下的语音的特征； (3 )特征提取
采用美尔滤波器对频谱信号进行滤波，再采用离散余弦压缩得到语音特征；
(4)说话人识别
训练采用频谱平移方法对每个说话人的语音4是^^多种情感语音,并对每种情感的语音建立一个高斯混合模型；
测试将按步骤(1) ~步骤(3 )的流程提取的待测音频信号的语音特征，计算待测音频信号在各种情感语音高斯混合模型下的得分，采用最大得分方法计算其得分，得到识别结果。
步骤(1)的音频预处理包括
1) 采样量化
A)用对采集得到的音频信号^W进行滤波，滤波时奈奎斯特频率& 为4KHZ,音频采样率尸=2^ ，滤波后得到数字音频信号(即数字化的音
频信号)的振幅序列s/^力
尸
B)用脉沖编码调制对数字音频信号的振幅序列^W进行量化编码，得到振幅序列的量化表示s 丫^;
其中/表示该信号是时间连续信号，"身表示离散/,f序列，"取值时一般可取为连续的自然数。
2) 去零漂
A) 计算振幅序列的量化表示s丫"j的平均值
B) 将振幅序列中的每个振幅值分别减去平均值卩，得到去零漂后平均值为0的振幅序歹'J s'丫"」；
3 )预力口重
将去零漂后的振幅序列,f^通过数字滤波器进行预加重，预加重时数字滤波器的传递函数为H(zhl-az-1，得到预加重的振幅序列s"，(h」。
对语音信号进行预加重，使信号频谱变得平坦，压缩信号器的动态范围，提高信噪比。这样处理可以使低频到高频的整个频带内能用相同的信噪比来求频谱。预加重部分可采用6dB/倍频程来增强语音信号的高频部分，经预加重的语音信号其高频部分可与中频部分(1 2kHz)的能量大致
相等。；
4)加哈明窗
A)把预加重后的振幅序列s，"^)划分成若干音频帧每一音频帧尸M的帧长为W、帧移量为r,且满足二 = 0.032 二 = 0.010
其中，F是音频采样率，单位为Hz; —般每一音频帧尸w的帧长为iV、
帧移量为r在划分振幅序列前预先计算出来。
B) 计算哈明窗函数
0.54 - 0.46 cos(^~) 0 S " iV — 1
w=L i 其他；
式中7V为每一音频帧/^的帧长；
C) 利用公式《(")《(")- (n)xFj")对每一音频帧Fw加哈明窗，得到加哈明窗后的音频帧。
步骤(2)的频谦平移包括
1) 音频信号转换成频谱信号
对加哈明窗后的音频帧Fm W进行快速傅立叶变换，得到频谱信号厶，
频谱信号厶的能量谱为&;
2) 平移频语信号
对频谱信号厶进行平移，得到平移后频谱信号y;,;,其能量谱《；
平移公式为
<formula>formula see original document page 8</formula>
其中ft表示频谱信号人平移的距离，单位为他。平移后的能量谱《在
频率为/Hz处的能量和原能量谱五在频率/ + /z Hz处相等。
其目的是得到和中性语音的频谱信号人具有不同共振峰分布的语音信号，具有不同共振峰分布的语音帧包含该"i兌话人的情感语音信息。步骤(3)的音频特征提取包括美尔滤波器的实施步骤分为三步 1)计算梅尔域刻度<formula>formula see original document page 9</formula>
^表示需计算的美尔刻度的个数；
2) 计算梅尔域刻度M,处对应的频谱刻度
且固
<formula>formula see original document page 9</formula>
3) 计算每个梅尔域通道A上的对数能量谱五/.
f一
其中A("表示梅尔域通道^的权重，^>,(" = 1。其中k为滤波器的
个数。上述三步完成了对美尔滤波器的构建。
上述频谱信号经过美尔滤波器后，再采用离散余弦变换压缩对对数能量谱^进行压缩，得到语音特征。
步骤(4)的所述说话人识别中，训练时采集说话人的中性语音作为测试语音，采用频谱平移的方法得到各种情感的语音特征，然后为每个说话人的每种情感语音建立一个高斯混合模型。训练高斯混合模型的方法采用期望最大化方法。
测试时测试语音在提取特征之后，对应每种情感的高斯混合模型计算后验概率，作为其得分。并根据设定的阀值接收或拒绝该测试语音。
本发明方法中提及的梅尔域刻度可参见JOSEPHP. CAMPBELL, JR., "Speaker Recognition: A Tutorial", PROCEEDINGS OF THE IEEE， VOL. 85， NO. 9, pp.1437-1462, SEPTEMBER 1997.
本发明方法中提及的期望最大化方法Douglas A.Reynolds, Richard C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models" , IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING VOL. 3, no.l, pp.72-83， JANUARY 1995.
本发明有益的效果是采用频谱平移的方法，改变中性情感语音的共振峰分布情况，生成具有不同共振峰分布的与情感语音等效的语音频谱，增强系统对各种情感语音的熟悉程度，提高系统识别率。
具体实施例方式
本发明方法实施时第一步音频预处理
音频预处理分为采样量化，去零漂，预加重和加窗四个部分。
1、采样量化
A) 用锐截止滤波器对采集得到的待测音频信号进行滤波，使其奈奎斯特频率FN为4KHZ;
B) 设置音频采样率F-2Fw;
C) 对音频信号^/"按周期进行采样，得到数字音频信号的振幅序列
D) 用脉冲编码调制(PCM)对s(^进行量化编码，得到振幅序列的量化表示s丫",
2、去零漂
A) 计算量化的振幅序列的平均值S;
B) 将每个振幅值减去平均值，得到去零漂后平均值为0的振幅序列 s，，(n)。
3、预力口重
A) 设置数字滤波器的Z传递函数H(z)-l-az-1中的预加重系数a， a可取比1稍小的值，可取为0.97;
B) s，丫",通过数字滤波器，得到音频信号的高、中、低频幅度相当的振幅序列,丫"」。
4、力口窗
A)预先计算音频帧的帧长N (32毫秒)和帧移量T (IO毫秒)，分别满足<formula>formula see original document page 11</formula>
这里F是音频采样率，单位为Hz;
B) 以帧长为N、帧移量为T,把s"丫")划分成一系列的音频帧」F^，每一音频帧包含N个音频信号样本；
C) 计算哈明窗函数
<formula>formula see original document page 11</formula>
D)对每一音频帧Fm加哈明窗
利用公式《(n):《(")= (")>^ 对每一音频帧」加哈明窗，得到加哈明窗后的音频帧《(")。第二步频谱平移
音频帧上的频谱平移包括快速傅立叶变换和频谱平移'
曰
1、时域到频域的变化采用快速傅立叶变换，转变{《(叫得到频谱信号厶，其能量谱为&。快速傅立叶变化时其大小可取为512。
2、平移频谱信号
<formula>formula see original document page 11</formula>
其中A表示频谱信号人平移的距离，单位为抢。平移后的能量谱《在频率为/Hz处的能量和原能量语^在频率/ + Hz处相等。第三步、特征提取
采用美尔滤波器对上述频谱进行滤波，再采用离散余弦变化得到特征。
1、计算梅尔域刻度
<formula>formula see original document page 11</formula>
p表示需计算的美尔刻度的个数；
2、计算对应的频域刻度<formula>formula see original document page 12</formula>
3、计算每个梅尔域通道^上的对数能量谱<formula>formula see original document page 12</formula>其中fcv^W二i， A为通道个数，A("为每个梅尔域通道的权重，可
以都取为1，表示每个通道的权重相同。也可以根据需要取不同的数值。一般情况下梅尔域通道的个数为40个或者60个。
4、采用离散余弦变换(dct)对梅尔域通道上的能量谱进行压缩得到特征。压缩后，取dct变化的前13或者16维作为特征。
第四步、说话人建才莫及识别
采用高斯混合模型对各种情感语音特征建模，得到各种情感语音模型，也可以称为说话人训练；
模型训练中包括两个部分，第一部分是采用似然估计法得到语音模型 (高斯混合模型)；第二部分采用中性和情感语音转化算法。高斯混合模型的训练
gmm参数包括权重(),均值(a )和方差(《)，其定义如下尸(刈A) = f>,g,
M为混合模型的阶数，g,为高斯分量。
训练是一个迭代的估计过程，其过程可分为两步，计算训练数据在第 /阶时的概率，这一步称为求期望；然后以上一步的参数(a ( w,, m,,《))
估计下一步gmm的参数(a' (〃.; ， i ;)),这一步被-称为求最大化。 EE柳<formula>formula see original document page 12</formula>u — J^]_=旦
A — jr 一 7'
/=1 /=1
尺
其中，z,表示训练的语音特征，其总数为"
用户的每种情感特征建立一个高斯混合模型，每个高斯混合模型代表
了其情感语音特征的分布情况。如果，有"e种情感，那么每个说话人都拥有恥个高斯混合模型。
计算测试语句在各种情感语音模型下的得分，采用最大得分方法计算该语句的最后得分，并做出判断。
根据贝叶斯理论，在输入语音特征Z下，符合声紋模型A,的概率为
7Y、 l"-尸即'"尸(入)
同一个说话人有"e个模型，对于一个语音帧可以得到"e个得分，那么把这些得分中的最高得分当成该语音帧的最后得分
尸(入IX)二m;x尸(入|Z)
那么对于该测试语句的所有语音帧的最后得分为，Z)二flog(尸獣》
其中为测试语音帧的总帧数。
在说话人鉴别中，其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中，需要设定一个岡值，如果得分高于该阀值就被接受；否则被拒绝。
效果测试实验中采用的数据库为中文情感语音数据库(MASC)。该数据库包括68人，其中女性23人。一共录制了 5种情感的语音，分别为中性，生气，高兴，愤怒和悲伤。每个说话人要在每种情感情况下说出5个单词和20句i吾句3遍。
实验中，采用中性的20句话的前5句的三遍，一共15句话用于训练，组成训练语音集。五种情感的后15句语音(三遍)用于测试，组成测试语音集合(共15*3*68)。实验中，模拟的是说话人鉴别的过程。共有两组实验:
1. 对比实验在频谱平移方法中，采用的平移量为O,也就是得到一组特征。由于训练语音为中性语音，该组特征就是该说话人中性语音的特征。
2. 频谱平移采用本发明方法，采用的平移为土l, ±2, ±3 ±4, ± 5单位，单位的大小为8000/512=15.625Hz。
两组实-险的识别率分别为45.17%和54.43%。说明采用本发明移动频i普方法得到的识别结果要优于未采用移动频谱的方法。
权利要求
1、一种基于频谱平移的情感说话人识别方法，其特征在于，包括如下步骤(1)音频预处理采集待测音频信号后，对音频信号依次进行采样量化、去零漂、预加重和加窗，得到加窗后的语音帧；(2)频谱平移加窗后的语音帧经过快速傅立叶变换得到频谱信号，采用频谱平移方法对频谱信号进行平移得到多组分别拥有不同共振峰分布的频谱信号，不同的共振峰分布表示信号不同的情感类型；(3)特征提取采用美尔滤波器对频谱信号进行滤波，再采用离散余弦压缩得到语音特征；(4)说话人识别采用频谱平移方法将每个说话人的中性语音频谱转换成各种情感语音频谱，并利用每种情感语音频谱建立说话人的相应情感下的模型；将按步骤(1)～步骤(3)的流程提取的待测音频信号的语音特征，计算待测音频信号在各种情感语音的说话人模型下的得分，采用最大得分方法计算其得分，得到识别结果。
2、根据权利要求1所述的基于频语平移的情感说话人识别方法，其特征在于，步骤(1)中所述的采样量化的步骤为A) 用对采集得到的音频信号s。^进行滤波，滤波时奈奎斯特频率Fw 为4KHZ，音频采样率F=2FW ，滤波后得到数字音频信号的振幅序列B) 用脉沖编码调制对数字音频信号的振幅序列sf^进行量化编码，得到振幅序列的量化表示s 丫w」。
3、根据权利要求1所述的基于频谱平移的情感说话人识别方法，其特征在于，所述的去零漂的步骤为A) 计算振幅序列的量化表示s 丫"J的平均值S;B) 将振幅序列中的每个振幅值分别减去平均值S ,得到去零漂后平均值为0的振幅序列s'丫w」。
4、根据权利要求1所述的基于频谱平移的情感说话人识别方法，其特征在于，所述预加重的步骤为将去零漂后的振幅序列s'Y^通过数字滤波器来增强信号的高频部分，经预加重的信号其高频部分可与中频部分的能量相当，得到预加重后的振幅序列, 。
5、根据权利要求1所述的基于频谱平移的情感说话人识别方法，其特征在于，所述加哈明窗的步骤为A) 把预加重后的振幅序列,丫^划分成若干音频帧FM，每一音频帧 F^的帧长为7V、帧移量为r,且满足—=0.032 F二 = 0.010 F其中，F是音频采样率，单位为Hz;B) 计算哈明窗函数0.54 - 0.46 cos("^") 0 S " S7V -11 廿" j 其他式中iV为每一音频帧FM的帧长；C)利用公式《(")《(")- (")xi^(n)对每一音频帧/^加哈明窗，得到加哈明窗后的音频帧《(n)。
6、根据权利要求5所述的基于频谱平移的情感说话人识别方法，其特征在于，步骤(2)中对频谱信号进行平移的步骤为对进行快速傅立叶变换后得到频谱信号人进行平移，得到平移后频谱信号X,其能量谱&; 平移公式为<formula>formula see original document page 4</formula>其中&为频谱信号人的能量谱，A表示频谱信号人平移的距离，单位为他，平移后的能量谱《在频率为/Hz处的能量和原能量谱&在频率 /十認z处相等。
7、根据权利要求1所述的基于频谱平移的情感说话人识别方法，其特征在于，步骤(3)中美尔滤波器的构建步骤为1) 计算梅尔域刻度<formula>formula see original document page 4</formula>p表示需计算的美尔刻度的个数；2) 计算梅尔域刻度M,.处对应的频谱刻度<formula>formula see original document page 4</formula>3)计算每个梅尔域通道^上的对数能量谱^:<formula>formula see original document page 4</formula>其中A("表示梅尔域通道A的权重，t^(/c)^1，其中k为滤波器的个数。
全文摘要
本发明公开了一种基于频谱平移的情感说话人识别方法，包括如下步骤(1)采集待测音频信号后，对音频信号依次进行采样量化、去零漂、预加重和加窗，得到加窗后的语音帧；(2)加窗后的语音帧经过快速傅立叶变换得到频谱信号，采用频谱平移方法得到多组分别拥有不同共振峰分布的频谱信号；(3)采用美尔滤波器对上述频谱进行滤波，再采用离散余弦压缩得到语音特征；(4)按步骤(1)～步骤(3)的流程提取的待测音频信号的语音特征，采用最大得分方法计算气氛得分，并给出识别结果。本发明方法改变中性情感语音的共振峰分布情况，合成具有不同共振峰分布的语音频谱，增强系统对各种情感语音的熟悉程度，提高系统识别率。
文档编号G10L17/00GK101419800SQ200810162450
公开日2009年4月29日申请日期2008年11月25日优先权日2008年11月25日
发明者单振宇, 吴朝晖, 杨莹春申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨莹春;吴朝晖;单振宇
技术所有人：浙江大学
我是此专利的发明人

上一篇：美式着色仿古效果在电吉它表面上的施工方法
上一篇：基于混合t模型的说话人识别方法