基于情感补偿的声纹识别方法

文档序号：2837443阅读：332来源：国知局

专利名称：基于情感补偿的声纹识别方法
基于情感补偿的声纹识别方法坟术领域本发明涉及生物特征识别技术，主要是一种基于情感补偿的声纹识别方法。
技术背景声纹识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。近十年来，声纹识别技术已取得巨大进展，但在应用方面仍面临一个巨大挑战如何克服说话人自身状态的改变对系统识别性能的影响。随着数字娱乐的兴起、智能家电的逐步普及、以及计算的日趋泛在化，人机交互的友好性与自然性尤显重要，如何提高人机交互中声纹技术对用户的情绪状态变化的适应能力日益迫切，即要求处于自然的情感流露状态下的用户能被正确的识别。传统的声纹识别技术很少考虑由于行为的变化所带来的语音变化问题。发明内容本发明要解决上述技术所存在的缺陷，提供一种情感补偿的思路，研究对用户情感变化鲁棒的基于情感补偿的声纹识别方法。本发明解决其技术问题所采用的技术方案这种基于情感补偿的声纹识别方法，所提出的情感补偿包括情感检测、特征补偿、情感拓展三块，拟依据情感检测技术计算语音情感因子，分别从特征与模型两个层面对情感变化所引起的语音变化进行补偿，最终提高声纹识别技术对情感变化的鲁棒性。本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的情感检测主要用于检测语音特征相对于训练模型是否产生形变，并能根据语音特征产生形变的剧烈程度计算情感因子，以指导后续特征与模型补偿的方向与程度。所述的特征补偿为特征层对情感进行补偿的相关技术，主要依据情感因子对语音特征进行调理，使其符合原有模型。主要包括情感弱化技术、情感规整技术、情感屏蔽技术。所述的情感拓展技术从模型层次进行补偿，在模型训练时，使声纹模型尽可能包容不同情感下的特征变化信息。主要涉及基于情感变化规律的情感语料合成技术；个体声纹模型的增量式学习方法等。本发明有益的效果是突破现有的声纹识别技术未考虑声纹情感变化的不足，从特征和模型两个层面应对情感变化引起的语音变化，增强对语音情感漂移的抵抗力。特征层面通过情感弱化、规整和屏蔽的手段，将语音特征规范到训练模型的建模能力范围内，以达到抑制用户情感对识别性能影响的目的。模型层面采用情感变化规律进行情感语音合成的逆向途径获取大规模情感语音，从而大大拓展了声纹模型的建模信息，解决了情感数据获取的困难。

图1是本发明的基于情感补偿的声纹识别方法框架图；具体实施方式
下面结合附图和实施例对本发明作进一步介绍本发明的方法首先通过情感测技术检测情感语音的形变程度计算情感因子，然后在训练与识别两个阶段分别在模型层与特征层对情感所引起的语音变化进行补偿，包括训练阶段采用情感拓展技术对声纹模型做拓广修整；识别阶段可选择采用情感弱化、规整、屏蔽技术对声纹特征进行规范化处理。最终提高声纹识别技术对情感变化的鲁棒性。本发明的具体实施分为训练和识别两个阶段。以下分训练与测试两个阶段分别给出具体实施方式一、训练阶段训练阶段建立用户的声纹模型，分四步实施。第一步、语音信号预处理采用传统的语音信号预处理方法，包括采样与量化、预加重处理、加窗环节第二步、特征提取语音帧上的特征提取包括包括美尔倒谱系数、基频、时长、强度、声质量和元音共振峰等语音的声学与韵律特征。这些特征的提取过程不是本发明的部分，故不作赘述。第三步、情感检测所采用的语音特征包括美尔倒谱系数、基频、时长、强度、声质量和元音共振峰等语音的声学与韵律特征，拟从语音特征统计分析和模型匹配两条线来实现情感检测。(1) 语音特征统计分析采用AN0VA (ANalysis 0f VAriance)、 MAN0VA (Multivariate Analysis of Variance)等统计分析方法分析不同情感下的语音特征的变化强弱，根据变化的强弱对特征进行归类并计算情感因子，实现情感检测；(2) 模型匹配可采用诸如G醒(Gaussian Mixture Models)、 SVM (Support VectorMachine )之类的各种统计模型对归类情感语音分别训练出不同归类情感的模型，由语音与模型的匹配得分来计算情感因子，从而实现情感检测。第四步、情感拓展和模型训练该步主要是考虑到对用户各种情感语音数据获取困难，拟采用情感语音合成和转换技术对训练语音进行变换后生成虛拟的多种情感语音，添加到训练语音中成为拓展训练语音，输入声纹模型进行训练。可采用诸如G醒(Gaussian Mixture Models)、 SVM (Support Vector Machine )之类的各种统计模型，并采用增量学习的方式实现声纹模型的拓展训练，训练数据的情感丰富性使得所获声纹模型对情感变化具有较强的鲁棒性。二、识别阶段识别阶段将用户侧语音与用户的声纹模型进行匹配计算给出判决，分五步实施。第一步、语音信号预处理同训练阶段的第一步。第二步、特征提取同训练阶段的第二步。第三步、情感检测同训练阶段的第三步。第四步、特征补偿按照对测试语音特征处理方式的不同，语音特征的补偿分为情感弱化、情感规整和情感屏蔽技术。(1) 情感弱化技术根据情感检测技术获得情感因子的值，通过设置适当的阈值来筛选一些对情感变化相对不敏感的语音特征，以作为后续训练模型的输入，从而得到情感弱化的声纹模型；(2) 情感规整技术根据情感检测技术获得情感因子的值，对语音特征做高维几何空间映射将其变换到训练模型的表达范围内；(3) 情感屏蔽技术根据情感检测技术获得情感因子的值，通过设置适当的阈值来自动剔除受情感变化影响而发生较大变化部分的语音特征，留下变化相对平稳的语音特征。第五步、模式匹配和逻辑决策经过以上所述的情感弱化、规整、屏蔽技术进行规范化处理后所得的声纹特征，其对声纹模型的匹配度将有不同程度的提高。声纹模型可采用诸如GMM (Gaussian Mixture Models)、 SVM (Support Vector Machine )之类的各种统计模型，将特征补偿后的特征与采用的声纹模型进行相应的匹配计算和逻辑决策给出识别结果。上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。
权利要求
1、一种基于情感补偿的声纹识别方法，其特征在于步骤如下首先通过情感检测方法检测情感语音的形变程度计算情感因子，然后在训练与识别两个阶段分别在模型层与特征层对情感所引起的语音变化进行补偿，包括训练阶段采用情感拓展方法对声纹模型做拓广修整；识别阶段采用特征补偿方法对声纹特征进行规范化处理。
2、根据权利要求1所述的基于情感补偿的声纹识别方法，其特征在于所述的情感检测方法表示从语音特征统计分析和模型匹配两条途径来检测语音特征相对于训练模型是否产生形变，并计算语音特征产生形变的剧烈程度，即情感因子。
3、根据权利要求1所述的基于情感补偿的声纹识别方法，其特征在于所述的情感拓展方法表示从模型层次进行补偿，在模型训练时，使声纹模型尽可能包容不同情感下的特征变化信息，包括基于情感变化规律的情感语料合成方法和个体声纹模型的增量式学习方法。
4、根据权利要求1所述的基于情感补偿的声纹识别方法，其特征在于所述的特征补偿方法表示在特征层对情感语音特征进行规分化处理，依据情感因子对语音特征进行调理，使其符合原有模型。
5、根据权利要求2所述的情感检测技术，其特征在于所述的语音特征统计分析方法表示采用ANOVA、 MANOVA统计分析方法分析不同情感下的语音特征的变化强弱，根据变化的强弱对特征进行归类并计算情感因子。
6、根据权利要求2所述的情感检测技术，其特征在于所述的模型匹配方法表示采用 G醒、SVM的各种统计模型对归类情感语音分别训练出不同归类情感的模型，由语音与模型的匹配得分来计算情感因子。
7、根据权利要求3所述的情感检测技术，其特征在于所述的基于情感变化规律的情感语料合成方法采用情感语音合成和转换技术对训练语音进行变换后生成虚拟的多种情感语音，添加到训练语音中成为拓展训练语音，输入声纹模型进行训练。
8、根据权利要求3所述的情感检测技术，其特征在于所述的个体声纹模型的增量式学习方法表示运用用户的正确识别语料逐步地对声纹模型进行更新以适应用户的语音特征变化，累积用户提供的识别正确的测试语音作为声纹模型的更新语料，对GMM、 SVM之类的统计模型，采用一种不断递进加入更新语料，采用自适应的学习策略对声纹模型进行拓展训练。
9、根据权利要求4所述的特征补偿技术，其特征在于所述的情感弱化技术表示自适应选择对情感变化相对不敏感的语音特征参与声纹建模，根据情感检测技术获得情感因子的值，通过设置适当的阈值来筛选一些对情感变化相对不敏感的语音特征，以作为后续训练模型的输入，从而得到情感弱化的声纹模型。
10、根据权利要求4所述的特征补偿技术，其特征在于所述的情感规整技术表示通过对语音特征做变换，规范到训练模型的表达范围内，根据情感检测技术获得情感因子的值，对语音特征做高维几何空间映射将其变换到训练模型的表达范围内；所述的情感屏蔽技术表示自动剔除受情感变化影响变化较大部分的语音特征，留下变化相对平稳的语音特征；根据情感检测技术获得情感因子的值，通过设置适当的阈值来自动剔除受情感变化影响而发生较大变化部分的语音特征，留下变化相对平稳的语音特征。
全文摘要
本发明涉及一种基于情感补偿的声纹识别方法，所提出的情感补偿包括情感检测、特征补偿、情感拓展三块，拟依据情感检测技术计算语音情感因子，分别从特征与模型两个层面对情感变化所引起的语音变化进行补偿，最终提高声纹识别技术对情感变化的鲁棒性。本发明有益的效果是突破现有的声纹识别技术未考虑声纹情感变化的不足，从特征和模型两个层面应对情感变化引起的语音变化，增强对语音情感漂移的抵抗力。特征层面通过情感弱化、规整和屏蔽的手段，将语音特征规范到训练模型的建模能力范围内，以达到抑制用户情感对识别性能影响的目的。模型层面采用情感变化规律进行情感语音合成的逆向途径获取大规模情感语音，从而大大拓展了声纹模型的建模信息，解决了情感数据获取的困难。
文档编号G10L17/00GK101226742SQ20071015713
公开日2008年7月23日申请日期2007年12月5日优先权日2007年12月5日
发明者吴朝晖, 杨莹春, 纲潘申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨莹春;吴朝晖;潘纲
技术所有人：浙江大学
我是此专利的发明人

上一篇：基于中性和情感声纹模型转换的说话人识别方法
上一篇：根据环境噪音自动调节音量的环保型汽车喇叭的制作方法