说话人识别中不同语音编码影响的补偿方法

文档序号：2830785阅读：431来源：国知局

专利名称：说话人识别中不同语音编码影响的补偿方法
技术领域：
本发明涉及一种说话人识别技术领域的补偿方法，具体是一种在因特网上对说话人识别中语音编码不匹配时的补偿方法。
背景技术：
说话人识别考指通过对说话人语音信号的分析处理，自动确认说话人是否在所记录的话者集合中，以及进一步确认说话人是谁。尽管在实验室的干净语音环境下，说话人识别系统已经取得了比较好的效果，但是在现实应用当中，说话人识别系统的性能要受到很多因素制约，系统的识别结果还不能让人满意。其中影响性能的主要原因之一是由于各种因素而导致的训练和测试时语音信号编码的不匹配问题。随着现代网络技术的发展，通过因特网传送语音信号的应用越来越多。网络传送中的语音多采用压縮比相对较高的中、低速率语音编码或音频编码。低速率的语音(音频)压縮编码虽然给信道的传输带来了方便，也节省了存储空间，但是由于大部分语音(音频)编码都是有损压縮，语音质量势必会受到损失，同时，更为突出的是，不同的编码方式其编码机理并非一样，尤其是采用流媒体编码方式的情况。因此，采用不同编码方式后的语音信号存在着特征参数等方面的不匹配问题，而往往我们在进行网络下说话人识别时，所能获得的训练数据是采用某种语音(音频) 编码方式下的信号，而在实际使用时，待测语音信号为其他编码方式的信号，这时的说话人识别就面临着训练和测试语音由于编码不同而产生的不匹配问题，这将影响说话人识别的性能，为此，需要研究有效克服不同语音编码影响的补偿方法。

发明内容
本发明为解决在说话人识别过程中，训练语音和测试语音编码不匹配时造成的说话人识别性能下降的问题，提供一种说话人识别中不同语音编码影响的补偿方法。本发明由以下步骤实现-
步骤一、采用某种编码方式作为标准编码方式，将N个说话人在标准编码方式下的语音信号依次进行特征处理和最大期望算法训练得到的N个标准编码方式下的说话人模型^丄作为匹配对象库，其中N表示自然数；
步骤二、输入待识别说话人的语音信号s(n),对输入的语音信号进行特征提取得到特征矢量序列X: {Xl，x2，...,Xs}，其中S代表自然数；
步骤三、在特征矢量序列X中选其前T帧得到序列XT^ {Xl,X2,...，xT}，用此T帧序列Xt迸行MAP算法自适应获得当前编码和标准编码的偏差^^ ，其中T代表自然数；
步骤四、用获得的当前编码和标准编码偏差^^对特征矢量序列X作调整补偿，得到新特征矢量序列又，其中X"
步骤五、用新特征矢量序列^分别和N个标准编码方式下的说话人模型
Kd进行匹配和判决获得识别结果。
有益效果本发明通过调整说话人识别时所采用的编码下的特征，使其
接近匹配对象库中的语音特征，并采用高斯分布估计编码偏差，减小编码引起的说话人语音特征失真，从而降低说话人语音编码不匹配造成的识别率降
低的问题，使编码不匹配时的系统平均识别率提高了7.1%。

图1是当调整因子"的取值从0到0.9时系统识别率的变化图；图2是分别采用基线系统和最大后验概率算法进行编码补偿时系统识别率的变化图，其中"—"表示采用MAP算法得到的系统识别率的变化线，i'表示采用基线系统得到的系统识别率的变化线。
具体实施例方式
具体实施方式
一参见图1和图2，本实施方式由以下步骤组成
步骤一、采用未编码、mp3编码、rm编码或wma编码其中一种编码方式作为标准编码方式，将N个说话人在标准编，方式下的语音信号依次进行特征处理和最大期望算法训练得到的N个标准编码方式下的说话人高斯混合模型^丄作为匹配对象库，其中N表示自然数；
步骤二、输入待识别说话人的语音信号s(n)，对输入的语音信号进行特征提取得到特征矢量序列X- {Xl，x2，...,xs}，其中S代表自然数；
步骤三、在特征矢量序列X中选其前T帧得到序列XT- {Xl,x2,...，XT}，用此T帧序列Xt迸行MAP算法自适应获得当前编码和标准编码的偏差，其中T代表自然数；
步骤四、用获得的当前编码和标准编码偏差S^P对特征矢量序列X作调整补偿，得到新特征矢量序列5，其中又—x,-S，,X2-5，，…，Xs-5，h
步骤五、用新特征矢量序列又分别和N个标准编码方式下的说话人模型 ^丄进行匹配和判决获得识别结果。
在本实施方式中步骤二中的特征提取的过程为对说话人信号s(n)进行
采样量化和预加重处理，假设说话人信号是短时平稳的，所以说话人信号可进行分帧处理，具体分帧方法是采用可移动的有限长度窗口进行加权的方法
来实现的，对加权后的语音信号Sw(n)计算线性预测编码(LPC)，然后根据LPC 和线性预测倒谱系数(LPCC)之间的关系得到特征矢量序列X—x，,、,…,x^， LPC与LPCC之间的关系如下
<formula>formula see original document page 5</formula>
其中，^(")代表LPCC的第"维分量，" 为LPC的第"维分量，p为 LPC的维数，"代表自然数。
步骤三和四的计算过程为假设测试语音所属编码与训练语音所属编码之间存在编码偏差A，该偏差A可以用一个均值为/v协方差矩阵为&的单高斯分布iV(/^2J来表示，根据MAP估计准则，L^的MAP估计为
^麼=arg max{; (/z 1X, A)} (1)
其中，义为参考说话人模型，X代表选取的前T帧序列XT;
根据贝叶斯公式以及对数函数的单调性，公式(l)等价于
= arg max{log p(X | /z，义)+ log / (/z》 (2)
其中，/7(/0为编码偏差^的先验知识。
为了限制在自适应数据量不同时编码偏差A的先验知识所占比重，在公
式(2)中加入调整因子"，得到下式
5鮮=argmax{alog/ (X|/ ，；i) + (l-a)logp(/z)} (3)其中，p(II/z,A)满足混合高斯分布形式，艮口
;K単;i)-Z;7(UI/a) = (4)
M为64，！'表示第/个混合分量，c,表示各个混合分量所占的权重。求解式(3)，用最大期望(Expectation Maximum)算法在T帧自适应数据集
中估计当前编码偏差，对于高斯混合模型的隐状态序列e经过一系列公式变化后得到的函数为
，,；)="力￡〈) log水,,I U) + (1 - )r log 4) (5) 其中,//为前一次的迭代结果；5为当前的迭代结果。x,为第/帧的语音特
征；p(x,，/IA,;i)表示用偏差/;调整第f帧语音后，在模型A的第/个混合分量上的概率；p(x,l/z，A)为用偏差/a周整第f帧语音后，在模型义的所有混合分量上
的概率；p(x,，/^,;i)为用偏差^调整第^帧语音后，在模型;i的第/个混合分
量上的概率；/H&为编码偏差Z/前一次的的先验知识。
假设编码偏差/z的协方差矩阵、取对角阵，则令，=0，有
"》f W")xA] + (1-")4 ; O, ct々
(6)
其中，g为当前的迭代结果向量5的第y维的值，y=i,2,...,￡，丄为特征矢量
的维数；~为测试语音的第r帧特征向量的第J'维的值;^ ^ 、 c^分别为标准编码下说话人模型的第/个混合分量的第y个均值和第y个方差；、《分
别为编码偏差A均值A的第y维的值和协方差矩阵；的第/个值。
在上面对编码偏差的估计公式中，关于编码偏差的先验知识的、《是
未知量，因而在进行MAP估计之前，首先需要获得编码偏差/2的先验知识。为了获得编码偏差A的先验知识，令公式(6)中因子"为1，这时最大后验概率估计方法变为极大似然估计方法，相应的迭代公式如下所示<formula>formula see original document page 7</formula>如果有/Z类编码，由公式(7)可以获得7/类编码偏差/;的估计值，表示为 ^,，^,...,^^，最后利用公式(8)和(9)可以估计出^和^的值。
<formula>formula see original document page 7</formula>在公式(7)中存在编码偏差//初始值设定的问题，这里用当前非标准编码下的语音与标准编码下的参考话者模型的均值之间的差值累计作为A的初始值^，如下公式所示，其中c,为参考说话人模型GMM第/个混合分量的权值；
<formula>formula see original document page 7</formula>有了偏差A的估计值，可以将当前编码的原始语音特征空间经过补偿映
射到标准编码的特征空间，具体补偿策略为
X = X —5w尸 (11) 步骤五中匹配和判决过程为对于特征矢量序列X，公式中X代表补偿后的新特征矢量序列^ ，该人为第N个说话人的后验概率
(12)
潮 1>, 風)
其中，P(;i")为第N个人说话的先验概率；p(X)为匹配对象库中N个说话
人条件下特征矢量序列X的概率密度；p(义I义 )为第N个人产生特征矢量序列
义的类条件概率。识别结果的最大后验概率准则
"* =argmax/ (^ |X) (13)
其中"'表示识别判决结果。假设每个人说话的先验概率相等得到
<formula>formula see original document page 7</formula>此外对于每个说话人，式(12)中的p(;o都相等。这样，式(13)可以写成 <formula>formula see original document page 8</formula>(15)
这时，最大后验概率准则就转化成了极大似然准则。
通常为了简化计算，一般采用对数似然函数，判决结果为<formula>formula see original document page 8</formula> (16)
式(16)就是闭集测试判决准则。这里只讨论闭集测试，避免开集测试阈值对识别率的影响，突出编码不匹配的影响，以降低问题复杂度。
权利要求
1、说话人识别中不同语音编码影响的补偿方法，其特征在于它由以下步骤实现步骤一、采用某种编码方式作为标准编码方式，将N个说话人在标准编码方式下的语音信号依次进行特征处理和最大期望算法训练得到的N个标准编码方式下的说话人模型{λn}n＝1N作为匹配对象库，其中N表示自然数；步骤二、输入待识别说话人的语音信号s(n)，对输入的语音信号进行特征提取得到特征矢量序列X＝{x1，x2，...，xS}，其中S代表自然数；步骤三、在特征序列X中选其前T帧得到序列XT＝{x1，x2，...，xT}，用此T帧序列XT进行MAP算法自适应获得当前编码和标准编码的偏差hMAP，其中T代表自然数；步骤四、用获得的当前编码和标准编码偏差hMAP对特征序列X作调整补偿，得到新特征矢量序列X，其中X＝{x1-hMAP，x2-hMAP，...，xS-hMAP}；步骤五、用新特征矢量序列X分别与N个标准编码方式下的说话人模型{λn}n＝1N进行匹配和判决获得识别结果。
2、根据权利要求1所述的说话人识别中不同语音编码影响的补偿方法，其特征在于根据步骤三中所述的MAP算法，S協p的MAP估计为K層-argma^P^IXJ)} (1)其中，A为参考说话人模型，Z代表选取的前T帧序列XT;根据贝叶斯公式以及对数函数的单调性，公式(l)等价于5鮮=虹g max{log 1 / ，义)+ log岸)} (2)其中，p(/0为编码偏差A的先验知识；为了限制在自适应数据量不同时编码偏差A的先验知识所占比重，在公式 (2)中加入调整因子"，得到下式5縱=argmax{alog/ (Jn&A) + (l-")l。g岸" (3)其中，/7(1l力，/l)满足混合高斯分布形式，艮口似 Afp(xi/ah2M义"i^a)-2;c,A(zi/a) (4) 其中，/表示第/个混合分量，c,表示各个混合分量所占的权重。
全文摘要
说话人识别中不同语音编码影响的补偿方法，它涉及一种在因特网上对说话人识别语音编码不匹配时的补偿方法，以解决在说话人识别中，训练语音和测试语音编码不匹配造成说话人识别性能下降的问题。本方法将说话人在标准编码方式下的语音信号进行特征处理和最大期望算法训练得到的标准编码方式下的说话人模型作为匹配对象库；输入待识别说话人的语音信号，进行特征提取得到特征矢量序列；在特征序列中选其前T帧得到序列进行MAP算法自适应获得当前编码和标准编码的偏差；用获得的当前编码和标准编码偏差对原特征序列作调整补偿，得到新特征矢量序列；用新特征矢量序列分别与标准编码方式下的说话人模型进行匹配和判决获得识别结果。
文档编号G10L17/00GK101315771SQ200810064669
公开日2008年12月3日申请日期2008年6月4日优先权日2008年6月4日
发明者李雪林, 韩纪庆申请人:哈尔滨工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩纪庆;李雪林
技术所有人：哈尔滨工业大学
我是此专利的发明人

上一篇：一种语音模数转换方法及装置的制作方法
上一篇：无动衔铁的机动车喇叭的制作方法