基于稀疏表示的信道鲁棒说话人确认方法及其系统的制作方法

文档序号：10490237阅读：343来源：国知局

基于稀疏表示的信道鲁棒说话人确认方法及其系统的制作方法
【专利摘要】本发明公开了一种基于稀疏表示的信道鲁棒说话人确认方法，首先通过构件说话人的过完备字典；同时对测试语音进行身份认证矢量的提取，得到身份认证向量；然后将所述身份认证向量通过所述过完备字典的稀疏求解，得到稀疏表示向量的关联关系；然后通过判断稀疏表示向量的关联关系是否高于一阈值，如果是，表示确认，则接收；否则，拒绝。本发明还对应公开了一种基于稀疏表示的信道鲁棒说话人确认系统，包括构建模块、提取模块、稀疏求解模块和判断模块。采用本发明，无需很大的空间及很多的时间，就具有识别率高的特点。
【专利说明】
基于稀疏表示的信道鲁棒说话人确认方法及其系统
技术领域
[0001] 本发明属于说话人识别技术领域，具体涉及一种基于稀疏表示的信道鲁棒说话人确认方法及其系统。
【背景技术】
[0002] 近年来，稀疏信号表示在数字信号处理方面的应用，已逐渐成为国内外学术界的研究热点。最近几年稀疏表示开始出现了不同的应用，如信号分解、去噪、信号编码、图像修复等等，实验发现基于稀疏表示的分类比其他的分类器有着更优秀的分类结果。例如在人脸识别中，John Wright将稀疏表示引入到人脸识别领域，通过信号重构的残差实现分类，在标准人脸识别数据库上比SVM和近邻法提高了0.4%和7 %的准确率。2010年，Naseem将稀疏表示首次引用到了说话人辨认中，并且取得了不错的结果。
[0003] 尽管这个结果很好，但是该实验中所用的数据库是??ΜΙΤ数据库，TIMIT数据库是在理想环境下录制的，不包含混响噪音、背景噪音等。Kua. J在说话人确认系统中用超矢量和NAP开发了一个基于稀疏表不的分类器，作为对SVM的一个补充或者替代，并且在NIST SRE 2006数据库上进行了实验，发现稀疏表示在对抗遮挡以及噪声问题时，表现强劲的实力。后来又在NIST SRE 2004、2005、2006数据库上进行了大量的实验对比，将基于稀疏表示的ivector说话人确认系统和各种基线系统进行了对比，成功的将稀疏表示引入，并且找到了最优的构建字典的方式。
[0004] 各种实验结果展示了基于稀疏表示的说话人确认系统，可以比其他的分类器达到更优秀的结果，Naseem首先将高斯均值超矢量作为原子构建过完备字典，Kua J研究发现高斯均值超矢量具有很高的维数，在训练过完备字典时需要很大的空间及时间代价，限制了训练样本的数量以及增加了系统识别的时间。

【发明内容】

[0005] 为了解决上述问题，本发明的第一目的提供一种基于稀疏表示的信息鲁棒说话人确认系统，无需很大的空间及很多的时间，就具有识别率高的特点。
[0006] 为实现上述目的，本发明按以下技术方案予以实现的：
[0007] 本发明所述的基于稀疏表示的信道鲁棒说话人确认方法，包括如下步骤：
[0008] 构建说话人的过完备字典Dtar;
[0009] 对测试语音进行身份认证矢量i-vector的提取，得到身份认证向量cotest;
[0010] 所述身份认证向量c〇test通过所述过完备字典Dtar的稀疏求解，得到稀疏表示向量 Y test 的关联关系r ( Y test)；
[0011] 判断所述关联关系r(ytest)是否高于一阈值，如果是，表示确认，则接收；否则，拒绝。
[0012] 进一步地，所述构建说话人的过完备字典Dtar，具体是：
[0013] 对背景说话人的训练语音进行身份认证矢量i-vector的提取，构建背景过完备字典 Dbg;
[0014]对目标说话人的训练语音进行身份认证矢量i-vector的提取，构建目标过完备字典Dmld ;
[0015] 将背景过完备字典Dbg与目标过完备字典Dmid合并为一个矩阵，得到过完备字典 Dtar 〇
[0016] 进一步地，所述身份认证向量Cote3st通过所述过完备字典Dtar的稀疏求解，利用的公式为：
[0017] CO test - Dclm Y test
[0018] 胳;g：鮮ik成龙魅公忒为.
[0019]
[0020] 换算得到的稀疏表不向量y test的关联关系
[0021 ]进一步地，所述背景说话人的训练语音的数目1^>>所述目标说话人的训练语音数目 Itar 〇
[0022]进一步地，所述背景过完备字典Dbg与目标过完备字典Dmld合并为一个矩阵，得到所述过完备字典Dtar= [Dbg,Dmld] 〇
[0023] 本发明的第二目的提供基于稀疏表示的信息鲁棒说话人确认系统，无需很大的空间及很多的时间，就具有识别率尚的特点。
[0024] 为实现上述目的，本发明按以下技术方案予以实现的：
[0025] 本发明所述的基于稀疏表示的信息鲁棒说话人确认系统，包括：
[0026] 构建t吴块，用于构建说话人的过完备字典Dtar ;
[0027] 提取模块，用于对测试语音进行身份认证矢量i-vector的提取；
[0028] 稀疏求解模块，用于对身份认证向量Cotest通过所述过完备字典Dtar进行稀疏求解；
[0029]判断模块，用于判断稀疏表示向量Ytest的关联关系Γ ( Ytest)向量Γ ( Ytest)是否高于阈值。
[0030] 进一步地，所述构建模块在构件说话人的过完备字典Dtar，具体是：
[0031] 对背景说话人的训练语音进行身份认证矢量i-vector的提取，构建背景过完备字典 Dbg;
[0032]对目标说话人的训练语音进行身份认证矢量i-vector的提取，构建目标过完备字典Dmld ;
[0033]将背景过完备字典Dbg与目标过完备字典Dmid合并为一个矩阵，得到过完备字典 Dtar 〇
[0034] 进一步地，所述稀疏求解模块中用于稀疏求解时利用如下公式：
[0035] CO test - Dclm Y test
[0036]将其转化成求解公式为：
[0037]
[0038] 换算得到的稀疏表示向i
[0039] 进一步地，所述构建模块在构建过完
备字典0_时，其中采用的背景说话人的训练语音的数目l bg>>目标说话人的训练语音数目Itar。
[0040] 进一步地，所述背景过完备字典Dbg与目标过完备字典Dmld合并为一个矩阵，得到所述过完备字典D tar= [Dbg,Dmld] 〇
[0041] 与现有技术相比，本发明的有益效果是：
[0042] 本发明所述的一种基于稀疏表示的信道鲁棒说话人确认方法，首先通过构件说话人的过完备字典Dtar;同时对测试语音进行身份认证矢量i-vector的提取，得到身份认证向量ω test;然后将所述身份认证向量ω test通过所述过完备字典Dtar的稀疏求解，得到稀疏表不向量y test的关联关系Γ ( γ test);然后通过判断稀疏表不向量γ test的关联关系Γ (Ytest)是否高于一阈值，如果是，表示确认，则接收;否则，拒绝。
[0043] 同时，与其相对应的基于稀疏表示的信道鲁棒说话人确认系统，是对应设置有构建模块、提取模块、稀疏求解模块和判断模块，通过构建模块构建说话人的过完备字典D tar，同时通过提取模块对测试语音进行身份认证矢量i-vector的提取，然后通过稀疏求解模块对身份认证向量ω test稀疏求解，得到稀疏表示向量γ test的关联关系Γ ( γ test)最后通过判断模块判断该关联关系r ( yte3St)是否高于阈值，该阈值为一个衡量标准，用于衡量两个说话人模型之间的相似程度，如果高于，表示确认，则接受，否则，拒绝。
[0044] 本发明所述的基于稀疏表示的信道鲁棒说话人确认方法，在训练阶段就构建好过完备字典Dtar，因此无需花费很大的空间以及很多的时间，并且在后续通过提取身份认证矢量通过稀疏求解，完全可以实现更高的识别率。
【附图说明】
[0045] 下面结合附图对本发明的【具体实施方式】作进一步详细的说明，其中：
[0046] 图1是本发明实施例所述的基于稀疏表示的信道鲁棒说话人确认方法中的流程图；
[0047] 图2是本发明实施例所述的基于稀疏表示的信道鲁棒说话人确认方法中的结构示意图。
[0048] 图中：
[0049] i :构建模块2:提取模块3:稀疏求解模块4:判断模块
【具体实施方式】
[0050] 以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。
[0051] 本发明所述的基于稀疏表示的信道鲁棒说话人确认方法，在训练阶段就构建好过完备字典Dtar，因此无需花费很大的空间以及很多的时间，并且在后续通过提取身份认证矢量通过稀疏求解，完全可以实现更高的识别率。具体步骤如下，并且结合附图1的流程图： [0052] S01:构建说话人的过完备字典Dtar，具体如下：
[0053]首先，对背景说话人的训练语音进行身份认证矢量i-vector的提取，构建背景过完备字典Dbg;
[0054]同时，对目标说话人的训练语音进行身份认证矢量i-vector的提取，构建目标过完备字典EWd;
[0055]然后，将背景过完备字典Dbg与目标过完备字典Dmid合并为一个矩阵，得到过完备字典 Dtaro
[0056] S02:提取身份认证矢量；
[0057] 对测试语音进行身份认证矢量i-vector的提取，得到身份认证向量c〇test。
[0058] S03:稀疏求解：
[0059] 所述身份认证向量Cotest通过所述过完备字典Dtar的稀疏求解，得到稀疏表示向量 Y test 的关联关系r ( Y test)；
[0060] 在以上求解时，首先利用如下公式：
[0061] ω test = Dclm γ test (公式一)
[0062] 然后，将公式一转化成求解公式为：
[0063]
[0064] 最终，将公式二换算得到的稀疏表示向量γ test的关联关系
[0065] S04:判断是否高于阈值；
[0066] 判断所述关联关系Γ (Yte3st)是否高于一阈值，如果是，表示确认，则接收；否则，拒绝。
[0067] 所述阈值是根据具体情况调试，是经验值。其作为一个衡量标准，用于衡量两个说话人模型之间的相似程度，当两个说话人模型之间的相似度达到某个临界点的时候，我们就认为这两个模型是同一个说话人，这个临界点就是阈值。
[0068] 与之对应的基于稀疏表示的信道鲁棒说话人确认系统，包括如图2所示的组成结构，具体包括构建模块1、提取模块2、稀疏求解模块3和判断模块4。
[0069] 其中，所述构建模块1用于构建说话人的过完备字典Dtar，具体构建的方式如下：
[0070] 对背景说话人的训练语音进行身份认证矢量i-vector的提取，构建背景过完备字典 Dbg;
[0071]对目标说话人的训练语音进行身份认证矢量i-vector的提取，构建目标过完备字典Dmld ;
[0072]将背景过完备字典Dbg与目标过完备字典Dmid合并为一个矩阵，得到过完备字典 Dtar 〇
[0073]所述提取模块2对测试语音进行身份认证矢量i-vector的提取。
[0074] 所述稀疏求解模块3，用于对身份认证向量ω test通过所述过完备字典Dtar进行稀疏求解;具体利用如下公式：
[0075] ω test = Dclm γ test (公式一）
[0076] 然后，将公式一转化成求解公式为：
[0077]
[0078] 最终，将公式二换算得到的稀疏表示向量γ test的关联关系
[0079] 所述判断模块4,用于判断稀疏表示向量γ te3St的关联关系Γ ( γ test)向量Γ (Yte3st)是否高于阈值。所述阈值是根据具体情况调试，是经验值。其作为一个衡量标准，用于衡量两个说话人模型之间的相似程度，当两个说话人模型之间的相似度达到某个临界点的时候，我们就认为这两个模型是同一个说话人，这个临界点就是阈值。
[0080] 在实际实验过程中，首先选用实验数据库：
[0081] RSR2015数据库是由新加坡Institute for Infocomm Research(I2R)研究所下 the Human Language Technology(HLT)部门开发的发布的一个可用来做文本相关的鲁棒的说话人识别的数据库。RSR2015包含300个说话人（157男，143女），对于每个说话人来说有 9个不同的集合，共657句话，其中3个注册的集合每个集合73句话，6个测试的集合每个集合 73句话。该数据库的录音环境是办公室，录音设备为6个移动设备（4个智能手机和2个平板），每个说话人的录音至少包含其中的三个移动设备。具体统计数据如下表一：
[0083] 表一 RSR2015数据库中语音来源
[0084]然后设置实验参数，具体如下表二所示：
[0086] 本发明利用了MSR-toolbox工具包搭建了基于i vector的文本无关的说话人确认系统作为基线系统，本次实验中使用的语音数据库为RSR数据库。Ivector的维数取400。使用过零率端点检测，预加重系数为0.97 JFCC维数为20维，其中第一维为对数能量，对20维的鲁棒性参数MFCC求一阶差分和二阶差分，最后特征维数为60维。对60维的特征进行特征弯折和倒谱均值归一化处理。训练通用背景模型UBM的数据来自NIST SRE 2004数据库下 8sides和16个sides中的792句话，每句话约为3min~5π?η，??ΜΙΤ数据库中的4620句话，每句话约为3s~5s，Noise-92中的15中噪声语音，训练的通用背景模型UBM是一个2028维的性别相关(gender-dependent)的高斯混合GMM模型，训练T的数据和训练通用背景模型UBM的数据一样，训练类内协方差规整WCCN和现行判别分析LDA的数据来自于RSR2015中的男157 人，20句话，3个序列，共9420句话，女143人，20句话，2个序列，共8580句话。
[0087]最终的实验结果与分析：
[0088]取RSR 2015中女133人，3个序列，每人每个序列13句话作为测试，对女性的测试共 9630次测试，取RSR 2015中男147人，3个序列，每人每个序列13句话作为测试，对男性的测试共21609次测试，在无信道失配条件下和有信道失配条件下对男女均进行了测试，测试结果分别如表三和表四所示。
[0090]表三RSR2015中女性在不同的信道鲁棒说话人系统下有信道失配和无信道失配中的实验结果
L〇〇92」表四RSR2015中男性在不同的信道鲁棒说话人糸统下有信道失配和无信道失配中的实验结果
[0093]在表三和表四中，首先我们可以发现，对于同一个系统来说，在男性上的性能比在女性上的性能更优秀一些，即错误率EER和最小决策代价minDCF更小，这也在一定程度上证明了女性的识别比男性的识别任务更艰难一些，所以以下的实验将只在女性上进行测试。同时还可以很明显的发现，在有信道失配条件下，说话人确认系统的性能要差于无信道失配，证明了信道失配会对说话人确认系统产生很大的影响。
[0094]另外，我们可以发现基于高斯概率线性判别的说话人确认系统i-GPLDA-SV相比 Ivector系统和稀疏表示的信道鲁棒说话人系统在有信道失配的情况下更优秀，在女性上能将EER降低3.2%，在男性上能将错误率EER降低约4.8%，并且最小检测代价minDCF也保持较低，并没有特别的提高，尤其是在男性中，保持了最低的minDCF，证明了高斯概率线性判别分析GPLDA可以在一定程度上实现信道鲁棒。但是在无信道失配的情况下，i-SR-SV系统比其他两个系统更为优秀，在女性上比稀疏表示的信道鲁棒说话人统的错误率EER降低了 4.2%，在男性上比i-SV系统的EER降低了 6.2%，说明了稀疏表示的信道鲁棒说话人系统在无信道失配时分类效果要好于其他系统。
[0095]以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，故凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何修改、等同变化与修饰，均仍属于本发明技术方案的范围内。
【主权项】
1. 一种基于稀疏表示的信道鲁棒说话人确认方法，其特征在于，包括如下步骤：构建说话人的过完备字典Dtar; 对测试语音进行身份认证矢量i-vector的提取，得到身份认证向量《test; 所述身份认证向量ω test通过所述过完备字典Dtar的稀疏求解，得到稀疏表示向量丫 test 的关联关系Γ (丫 test); 判断所述关联关系Γ (丫 test)是否高于一阔值，如果是，表示确认，则接收;否则，拒绝。2. 根据权利要求1所述的基于稀疏表示的信息鲁棒说话人确认方法，其特征在于：所述构建说话人的过完备字典Dtar，具体是：对背景说话人的训练语音进行身份认证矢量i-vector的提取，构建背景过完备字典 Dbg；对目标说话人的训练语音进行身份认证矢量i-vector的提取，构建目标过完备字典 Dmld；将背景过完备字典化g与目标过完备字典Dmld合并为一个矩阵，得到过完备字典Dtar。3. 根据权利要求1所述的基于稀疏表示的信息鲁棒说话人确认方法，其特征在于：所述身份认证向量《test通过所述过完备字典Dtar的稀疏求解，利用的公式为： W test - Dclm Υ test 将其转化成求解公式为：换算得到的稀疏表示向量γ test的关联关系4 .根据权利要求2所述的基于稀疏表示的信息鲁棒说话人确认方法，其特征在于：所述背景说话人的训练语音的数目lbg> >所述目标说话人的训练语音数目Itar。5. 根据权利要求1所述的基于稀疏表示的信息鲁棒说话人确认方法，其特征在于：所述背景过完备字典化g与目标过完备字典Dmld合并为一个矩阵，得到所述过完备字典 Dtar 二[Dbg , Dmld ]。6. -种基于稀疏表示的信息鲁棒说话人确认系统，其特征在于，包括：构建模块，用于构建说话人的过完备字典Dtar ; 提取模块，用于对测试语音进行身份认证矢量i-vector的提取；稀疏求解模块，用于对身份认证向量ω test通过所述过完备字典Dtar进行稀疏求解；判断模块，用于判断稀疏表示向量丫 test的关联关系Γ (丫 test)向量Γ (丫 test)是否高于阔值。7. 根据权利要求6所述的基于稀疏表示的信息鲁棒说话人确认系统，其特征在于：所述构建模块在构件说话人的过完备字典Dtar，具体是：对背景说话人的训练语音进行身份认证矢量i-vector的提取，构建背景过完备字典 Dbg; 对目标说话人的训练语音进行身份认证矢量i-vector的提取，构建目标过完备字典 Dmld ；将背景过完备字典化g与目标过完备字典Dmld合并为一个矩阵，得到过完备字典Dtar。8. 根据权利要求6所述的基于稀疏表示的信息鲁棒说话人确认系统，其特征在于：所述稀疏求解模块中用于稀疏求解时利用如下公式： W test 二 Dclm 丫 test 将其转化成求解公式为：换算得到的稀疏表示向量。9. 根据权利要求6所述的基于稀疏表示的信息鲁棒说话人确认系统，其特征在于：所述构建模块在构建过完备字典Dtar时，其中采用的背景说话人的训练语音的数目Ibg > >目标说话人的训练语音数目Itar。 10 .根据权利要求6所述的基于稀疏表示的信息鲁棒说话人确认系统，其特征在于：所述背景过完备字典化g与目标过完备字典Dmld合并为一个矩阵，得到所述过完备字典 Dtar=[Dbg,Dmld]〇
【文档编号】G10L17/20GK105845142SQ201610172955
【公开日】2016年8月10日
【申请日】2016年3月23日
【发明人】陈昊亮
【申请人】广州势必可赢网络科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈昊亮;
技术所有人：广州势必可赢网络科技有限公司;
我是此专利的发明人