非特定人语音情感识别方法及系统的制作方法

文档序号：2833361阅读：520来源：国知局

专利名称：非特定人语音情感识别方法及系统的制作方法
技术领域：
本发明涉及语音识别技术领域，尤其涉及一种非特定人语音情感识别方法及系统。
背景技术：
语音情感识别技术的发展对推动智能化、人性化的新型人机交互技术的发展和应用具有重要的作用，如何使用计算机技术从语音中自动识别说话人的情感状态近年来受到各领域研究者的广泛关注。现有的语音情感识别研究，还存在较多局限性，尤其是语音情感特征参数在情感空间的分布会随着说话人的变化而变化，情感识别的准确率受说话人变化的影响较大，从而导致当待识别语音的说话人不在训练库中时，情感识别率会急剧下降，限制了语音情感识别在自然环境下的实际应用。目前，消除声学情感特征中说话人个性化因素最常用的方法是采用说话人的中性情感语音特征对情感特征参数进行归一化，如东南大学的赵力教授和浙江大学的谢波博士均采用将情感特征与说话人处于平静时的相应情感特征作差值运算的方法对情感特征进行归一化。这种采用中性情感语音特征对情感特征参数进行归一化的方法虽然能够在一定程度上消除说话人个性化说话特征的影响，但是必须要求待识别语音的说话人在识别前至少录制一句中性情感语句，这种要求在一定程度上限制了语音情感识别的实际应用。Vidhyasaharan Sethu等人提出了将所有的情感特征映射到同一种概率分布(正态分布)上，以此消除说话人个人说话特征对情感特征的分布带来的干扰，但将所有说话人的情感特征映射到正态分布是否能够有效地消除说话人个人说话特点的干扰且不丢失其中的情感信息，还缺乏理论的分析。有鉴于此，有必要提供一种非特定人语音情感识别方法及系统以解决上述问题。

发明内容
本发明的目的在于克服现有语音情感识别方法的语音情感识别率容易受说话人变化影响的缺点，充分利用情感副语言受说话人变化干扰较小的特点，提供一种情感副语言辅助的非特定人语音情感识别方法及系统。实现本发明目的的技术方案是—种非特定人语音情感识别方法，包括SI.提取待识别语音信号中用于识别情感副语言的语音特征，输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言，并根据情感副语言与情感类别之间的对应关系，推测出基于情感副语言的情感识别通道的识别结果待识别语音信号所包含的情感类别以及相应的概率；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；S2.提取待识别情感语音信号的声学语音情感特征，输入基于声学语音情感特征的语音情感识别模型，得出基于声学语音情感特征的情感识别通道的识别结果待识别语音信号所包含的情感类别以及相应的概率；S3.对所述基于情感副语言的情感识别通道和基于声学语音情感特征的语言情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。作为本发明的进一步改进，所述步骤SI之前还包括下列步骤S01.建立基于情感副语言的语音情感识别通道，包括S011.建立情感语料库，使其中语音信号样本涉及的情感中的每种情感至少有15个语料，每个语料包含所述情感副语言；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声； S012.对所述语音信号样本进行预处理，包括预加重、加窗处理、分帧、端点检测；S013.在所述语音信号中提取所述识别情感副语言所用的语音特征；S014.训练情感副语言识别模型；S015.建立基于情感副语言的语音情感状态识别模型，基于情感副语言的语音情感状态识别模型中包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，用于识别情感副语言，以及情感副语言所对应的情感类别和该情感类别的置信度，并得到所述基于情感副语言的语音情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶、愤怒，所述情感副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；S02.建立基于声学语音情感特征的语音情感识别通道，包括S021.采用SOll所录制的情感语料库；S022.对所述语音信号样本进行预处理，包括预加重、加窗处理、分帧、端点检测；S023.在所述语音信号中提取声学语音情感特征；S024.训练基于声学语音情感特征的情感识别模型；S025.建立基于声学语音情感特征的的情感状态识别模型，用于根据声学语音情感特征识别语音信号所包含的情感类别和该情感类别的置信度，并得到所述基于声学语音情感特征的情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒。作为本发明的进一步改进，所述识别情感副语言所用的语音特征包括语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些特征的最大值、最小值以及变化范围；所述声学语音情感特征包括，包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数，以及所述声学语音情感特征的最大值、最小值以及变化范围；作为本发明的进一步改进，所述步骤SI具体包括Sll.对待识别语音信号样本进行预处理，包括分帧、加窗和端点检测；S12.从所述待识别语音信号样本中提取识别情感副语音所用的语音特征，包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些语音特征的最大值、最小值以及变化范围；S13.将提取的所述语音特征输入所述基于情感副语言的情感状态模型，通过情感副语言识别模型集识别，得到待识别语音信号样本中包含的情感副语言及其置信度；通过所述情感副语言与情感类别之间的映射关系模型，得到所述情感副语言对应的情感类别及该情感类别的置信度，并进一步得到所述基于情感副语言的语音情感识别通道的识别结果O作为本发明的进一步改进，所述步骤S2具体包括S21.对待识别语音信号样本进行预处理，包括分帧、加窗和端点检测；
S22.从所述的待识别语音信号样本中的提取声学语音情感特征，包括美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等，以及所述声学语音情感特征的最大值、最小值以及变化范围；S23.将提取的所述声学语音情感特征输入所述基于声学语音情感特征的情感状态识别模型，得到所述语音信号所包含的情感类别及该情感类别的置信度，即得到所述基于声学语音情感特征的语音情感识别通道的识别结果。作为本发明的进一步改进，所述情感副语言识别模型采用支持向量机、高斯混合模型或隐马尔科夫模型；所述基于声学语音情感特征的情感语言识别模型采用支持向量机、高斯混合模型或隐马尔科夫模型。相应地，一种非特定人语音情感识别系统，包括识别情感副语言所用的语音特征提取单元用于提取待识别语音信号中用于识别情感副语言的语音特征，输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言，并根据情感副语言与情感类别之间的对应关系，推测出基于情感副语言的情感识别通道的识别结果待识别语音信号所包含的情感类别以及相应的概率；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；所述识别情感副语言所采用的语音特征包括语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些语音特征的最大值、最小值以及变化范围；声学语音情感特征提取单元用于提取待识别情感语音信号的声学语音情感特征，输入基于声学语音情感特征的情感识别模型，得出待识别语音信号所包含的情感状态，即得出基于声学语音情感特征的情感识别通道的识别结果待识别语音信号所包含的情感类别以及相应的概率；融合单元用于对所述基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。作为本发明的进一步改进，所述非特定人语音情感识别系统还包括基于情感副语言的情感识别通道，其中包括情感语料库，语音信号样本涉及的情感中的每种情感至少有15个语料，每个语料包含至少一种所述情感副语言；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；识别情感副语言所采用的语音特征提取单元，用于在所述语音信号中提取所述识别情感副语言所采用的语音特征；情感副语言识别模型训练单元，用于训练情感副语言识别模型；基于情感副语言的情感状态识别模型，包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，所述情感类别包括高兴、悲伤、害怕、厌恶、惊讶和愤怒六类情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怕、惊讶、厌恶、愤怒，所述副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；基于声学情感特征的情感状态识别通道，包括情感语料库，采用基于情感副语言的语音情感识别通道的情感语料库；声学语音情感特征提取单元，用于在所述语音信号中提取声学语音情感特征；基于声学语音情感特征的情感识别模型训练单元，用于训练基于声学情感特征的情感识别模型；基于声学语音情感特征的情感状态识别模型，用于根据声学语音情感特征识别语音信号所包含的情感类别和该情感类别的置信度，即得到所述基于声学语音情感特征的情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒；融合单元，用于融合所述基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别的识别结果，得出情感语音信号样本所包含的情感状态。作为本发明的进一步改进，所述基于情感副语言的情感识别通道训练单元中，采用的统计模型可以为支持向量机、高斯混合模型或隐马尔科夫模型；所述基于声学语音情感特征的情感识别训练单元中，采用的统计模型可以为支持向量机、高斯混合模型或隐马尔科夫模型。作为本发明的进一步改进，所述识别情感副语言所用的语音特征提取单元和声学语音情感特征提取单元之前设有预处理单元，预处理单元用于对情感语音信号进行预处理，包括分帧、加窗和端点检测；作为本发明的进一步改进，所述识别情感副语言的语音特征包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些语音特征的最大值、最小值以及变化范围；所述声学语音情感特征包括提取美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰，以及所述声学语音情感特征的最大值、最小值以及变化范围。本发明的有益效果是克服了传统语音情感特征易受说话人变化干扰的不足，充分利用情感副语言受说话人变化的影响比较小的特点，从情感语音信号中提取反应情感信息的情感副语言，用情感副语言包含的情感信息来辅助传统的声学语音情感特征进行情感识别，从而达到提高语音情感识别鲁棒性和识别率的目的。

图I为本发明一实施例中非特定人语音情感识别方法的流程图。图2为图I中步骤SI的具体流程图。图3为图I中步骤S2的具体流程图。图4为本发明非特定人语音情感识别方法的框架图。图5为本发明非特定人语音情感识别系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。参图I所示为本发明非特定人语音情感识别方法的流程图。该方法包括SI.提取待识别语音信号中用于识别情感副语言的语音特征，输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言，并根据情感副语言与情感类别之间的对应关系，推测出基于情感副语言的情感识别通道的识别结果待识别语音信号所包含的情感类别以及相应的概率；情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；S2.提取待识别情感语音信号的声学语音情感特征，输入基于声学语音情感特征的情感识别模型，得出基于声学语音情感特征的情感识别通道的识别结果待识别语音信号所包含的情感类别以及相应的概率；S3.对基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。优选地，在步骤SI之前还包括下列步骤S01.建立基于情感副语言的情感识别通道，包括S011.建立情感语料库，使其中语音信号样本涉及的情感中的每种情感至少有15个语料，每个语料至少包含一种情感副语言；情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；S012.对语音信号样本进行预处理，包括预加重、加窗处理、分帧、端点检测；S013在预处理后的语音信号中提取识别情感副语言的语音特征；S014.训练情感副语言识别模型；S015.建立基于情感副语言的情感状态识别模型，基于情感副语言的情感状态识别模型中包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，用于识别情感副语言，以及情感副语言所对应的情感类别和该情感类别的置信度，并得到基于情感副语言烦人情感识别通道识别结果；情感类别包括高兴、悲伤、害怕、惊讶、厌恶、愤怒，情感副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；
S02.建立基于声学语音情感特征的情感识别通道，包括S021.采用SOll中所建立的情感语料库；S022.对语音信号进行预处理，包括预加重、加窗处理、分帧、端点检测；S023.在经过预处理后的语音信号中提取声学语音情感特征；S024.训练基于声学语音情感特征的情感识别模型；S025.建立基于声学语音情感特征的情感识别模型，用于根据声学情感特征，识别语音信号中所包含的情感类别和该情感类别的置信度，即得到基于声学语音情感特征的情感识别通道识别结果；情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒。本发明中的识别情感副语言所采用的语音特征包括语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；声学语音情感特征包括，包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数，以及这些声学语音情感特征的最大值、最小值以及变化范围；其中，参图2所示,步骤SI具体包括Sll.对待识别语音信号样本进行预处理，包括分帧、加窗和端点检测；S12.从待识别语音信号样本中提取识别情感副语音所采用的语音特征，包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；S13.将提取的语音特征输入基于情感副语言的情感状态模型，通过情感副语言识别模型集识别，得到待识别语音信号样本中包含的情感副语言及其置信度；通过情感副语言与情感类别之间的映射关系模型识别，得到情感副语言对应的情感类别及该情感类别的置信度，即得到基于情感副语言的情感识别通道的识别结果。参图3所示,步骤S2具体包括S21.对待识别语音信号样本进行预处理，包括分帧、加窗和端点检测；S22.从的待识别语音信号样本中的提取声学语音情感特征，包括美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等，以及声学语音情感特征的最大值、最小值以及变化范围；S23.将提取的声学语音情感特征输入基于声学语音情感特征的情感状态识别模型，得到待识别语音信号所包含的情感类别及该情感类别的置信度，即得到基于声学语音情感特征的情感识别通道的识别结果。本发明通过提取情感语料中的情感副语言来辅助传统声学语音情感特征进行情感语料中情感状态的识别，为语音情感识别提供更多的说话人鲁棒的语音情感信息，最终提高语音情感识别方法对说话人变化的鲁棒性。本发明中的情感副语言属于狭义副语言范畴，内容包括伴随语音的某些声音现象，如哭声、笑声、叹息声等。情感语料库中录制了涵盖日常生活中常用的情感副语音，如哭声、笑声、叹息声、喘息声、质疑声以及叫喊声等。语料库包含六类情感，分别为高兴、伤心、惊奇、生气、害怕、厌恶。根据语境自然的嵌入情感副预言，如高兴常伴有笑声，伤心常伴有哭声等。每种情感有15个语料，每个语料都易于加入相应的情感，使得录制者较易进入情感状态。所有脚本内容不同，且包含较丰富的情感副语言如哭声、笑声、叹息声等。优选地，情感语料库由五个男生六个女生在专业的录音室录制而成，采样率为11025Hz，样本均保存为wav格式。采集好情感语料后，本发明的具体实施分为训练、识别和融合三个阶段，结合图4所示，分别从训练、识别和融合三个阶段作进一步说明。一、训练阶段I、对情感语音信号进行预处理这一步是采用传统的语音信号预处理方法对情感语音信号进行预处理，包括预加重、加窗处理、分帧、端点检测。2、识别情感副语言所采用的语音特征的提取和情感副语言识别模型的训练 2. I提取识别情感副语言所用的语音特征，包括短时能量、过零率、梅尔倒谱系数(前12个系数)、基音频率、音质、静音比率、前三个共振峰系数等，以及这些特征的最大值、最小值以及变化范围等统计特征。2. 2对情感副语言识别模型进行训练，这里的识别模型可采用诸如SVM(SupportVector Machine 支持向量机)、GMM(Gaussian Mixture Model 高斯混合模型)以及HMM(Hidden Markov Model隐马尔科夫模型)之类的各种统计模型。3、传统的声学语音情感特征的提取和基于声学语音情感特征的语音情感识别模型的训练3. I提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰等语音的声学语音情感特征，并在情感语段上分别提取这些特征的最大值、最小值以及变化范围等统计特征。3. 2对基于声学语音情感特征的语音情感识别模型进行训练，这里的识别模型可采用诸如SVM、GMM以及HMM之类的各种统计模型，方法与本阶段第2. 2步相同。二、识别阶段识别阶段是将待识别的情感语音信号输入第一阶段训练好的模型，计算得出该情感语音信号在每个通道的情感状态识别结果，分三步实施。I、对情感语音信号进行预处理，所采用的方法同训练阶段的第I步。2、待识别情感语音信号中识别情感副语言所用的语音特征的提取和基于情感副语目的语首情感识别。2. I提取待识别情感语料中识别情感副语言所采用的语音特征，所采用的方法同训练阶段的2. I步。2. 2识别待识别情感语料中所包含的情感副语言。将本阶段2. I步所提取的待识别语料中识别情感副语言所采用的语音特征输入第一阶段2. 2步已经训练好的情感副语言识别模型，计算得出该待识别情感语音信号所包含的情感副语目。2. 3建立情感副语言的语音情感状态之间的映射关系，并将此时情感副语言识别的置信度作为相应的情感状态的置信度。建立情感副语言与情感状态之间的映射关系如下若识别出待识别情感语音信号中的情感副语言为“笑声”，则推断该情感语音信号所反映的是“高兴”情感状态；
若识别出待识别情感语音信号中的情感副语言为“伤心的哭声”，则推断该情感语音信号所反映的是“悲伤”情感状态；若识别出待识别情感语音信号中的情感副语言为“害怕的哭声”，则推断该情感语音信号所反映的是“害怕”情感状态；若识别出待识别情感语音信号中的情感副语言为“质疑声”，则推断该情感语音信号所反映的是“惊讶”情感状态；若识别出待识别情感语音信号中的情感副语言为“急促的喘息声”，则推断该情感语音信号所反映的是“害怕”情感状态；若识别出待识别情感语音信号中的情感副语言为“无奈的叹息声”，则推断该情感语音信号所反映的是“厌恶”情感状态；若识别出待识别情感语音信号中的情感副语言为“哀怨的叹息声”，则推断该情感语音信号所反映的是“悲伤”情感状态；若识别出待识别情感语音信号中的情感副语言为“叫喊声”，则推断该情感语音信号所反映的是“愤怒”情感状态。3、提取待识别情感语音信号的声学语音情感特征并采用所提取的声学语音情感特征识别待识别情感语音信号所包含的情感状态。3. I待识别情感语音信号的声学语音情感特征的提取，所采用的提取方法同训练阶段的3. I步。3. 2将本阶段3. I步所提取的待识别语料的声学语音情感特征输入第一阶段3. 2步已经训练好的基于声学语音情感特征的语音情感识别模型，得出该待识别情感语音信号所属的情感状态。其中，在步骤2. 2和3. 2中的基于SVM模型概率置信度计算方法如下优选地，本发明使用‘一对一’ SVM模型进行分类识别，SVM决策是采用投票机制的，对于N个模型，相当于有N* (N-1)个专家进行投票，每个情感类别均有一个概率，概率最高者被选为最终识别结果。算法所用的基于SVM的置信度由两部分组成I、计算待测样本到分类决策面距离，距离大于一定阈值时，即决策函数值大于一定的阈值时，取这N*(N-I)个决策距离的平均值。我们接受投票即认为专家投票是有效的，否则认为无效不计入总票数。对于类别i，其得到的有效票数为V，而其可信投票数为V，则类别i对应的概率置信度为conf (i)=v/V。2、计算情感概率之间的分辨率，对N个情感类别，每个待识别样本经模型识别后得出对应的该样本属于N个情感概率，记为P1, P2，. . . Pn,则输出概率Pi的分辨率为该输出概率与其余所有输出概率的平均值之差，其计算方法如公式(I)所示
权利要求
1.一种非特定人语音情感识别方法，其特征在于，所述方法包括 51.提取待识别语音信号中用于识别情感副语言的语音特征，输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言，并根据情感副语言与情感类别之间的对应关系，推测出副语言情感识别通道的情感识别结果待识别语音信号所包含的情感类别以及相应的概率；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声； 52.提取待识别情感语音信号的声学情感特征，输入基于声学情感特征的语音情感识别模型，得出基于声学语音情感特征的情感识别通道的识别结果待识别语音信号所包含的情感类别以及相应的概率； 53.对所述基于副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。
2.据根权利要求I所述的非特定人语音情感识别方法，其特征在于，所述步骤SI之前还包括下列步骤 501.建立基于情感副语言的语音情感识别通道，包括 5011.建立情感语料库，使其中语音信号样本涉及的情感中的每种情感至少有15个语料，每个语料包含至少一种或多种所述情感副语言；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声； 5012.对所述语音信号样本进行预处理，包括预加重、加窗处理、分帧、端点检测； 5013.在所述语音信号样本中提取用于识别所述情感副语言的语音特征； 5014.训练情感副语言识别模型； 5015.建立基于情感副语言的情感状态识别模型，基于情感副语言的情感状态识别模型中包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，用于识别情感副语言，以及情感副语言所对应的情感类别和该情感类别的置信度，并得到所述基于副语言的语音情感识别通道的识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶、愤怒，所述情感副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别； 502.建立基于声学情感特征的语音情感识别通道，包括 5021.采用SOll所建立的情感语料库； 5022.对所述语音信号样本进行预处理，包括预加重、加窗处理、分帧、端点检测； 5023.对预处理后的语音信号提取声学语音情感特征； 5024.训练基于声学语音情感特征的语音情感识别模型； 5025.建立基于声学语音情感特征的情感状态识别模型，当待识别语音信号经过训练好的基于声学语音情感特征的语音情感识别模型，得到所述基于声学语音情感特征的情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒。
3.根据权利要求I或2所述的非特定人语音情感识别方法，其特征在于，所述识别情感副语言所用的语音特征包括语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；所述声学语音情感特征包括，包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数，以及所述传统语言语音特征的最大值、最小值以及变化范围。
4.根据权利要求2所述的非特定人语音情感识别方法，其特征在于，所述步骤SI具体包括 511.对待识别语音信号样本进行预处理，包括分帧、加窗和端点检测； 512.从所述待识别语音信号样本中提取识别情感副语音所用的语音特征，包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围； 513.将提取的所述语音特征输入所述基于情感副语言的情感状态识别模型，通过副语言识别模型集识别，得到待识别语音信号样本中包含的情感副语言及其置信度；通过所述情感副语言与情感类别之间的映射关系模型识别，得到待识别语音信号所包含的情感类别及该情感类别的置信度，即得到待识别语音信号在所述的基于情感副语言的语音情感识别通道的识别结果。
5.根据权利要求2所述的非特定人语音情感识别方法，其特征在于，所述步骤S2具体包括 521.对待识别语音信号样本进行预处理，包括分帧、加窗和端点检测； 522.从所述的待识别语音信号样本中的提取声学语音情感特征，包括美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等，以及所述声学情感特征的最大值、最小值以及变化范围； 523.将提取的所述声学语音情感特征输入所述基于声学情感特征的语音情感状态识别模型，得到语音信号所包含的情感类别及该情感类别的置信度，即得到所述基于声学情感特征的语音情感识别通道的识别结果。
6.根据权利要求2所述的非特定人语音情感识别方法，其特征在于，所述训练情感副语言识别模型中，采用的统计模型可以为支持向量机、高斯混合模型或隐马尔科夫模型等统计模型；所述训练基于声学语音情感特征的语音情感识别模型中，采用的统计模型可以为支持向量机、高斯混合模型或隐马尔科夫模型等统计模型。
7.一种非特定人语音情感识别系统，其特征在于，所述系统包括基于情感副语言的语音情感识别通道，其中包括情感语料库，语音信号样本涉及的情感中的每种情感至少有15个语料,每个语料包含至少一种所述情感副语言；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；用于识别情感副语言的语音特征提取单元用于提取待识别语音信号中用于识别情感副语言的语音特征，再输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言及其概率。所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；所述的用于识别情感副语言的语音特征包括语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；情感副语言识别模型训练单元，用于训练情感副语言识别模型；基于情感副语言的情感状态识别模型，包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，所述情感类别包括高兴、悲伤、害怕、惊讶、愤怒、厌恶六类情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怕、惊讶、厌恶、愤怒，所述副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；基于声学语音情感特征的语音情感识别通道，包括情感语料库采用基于情感副语言的语音情感识别通道中所录制的情感语料库；声学语音情感特征提取单元用于提取待识别情感语音信号中的声学语音情感特征，所述的声学语音情感特征包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述声学语音特征的最大值、最小值以及变化范围；传统语言识别模型训练单元，用于训练传统语言识别模型；基于声学语音情感特征的语音情感状态识别模型，该模型根据声学语音情感特征，识别情感语料中所包含的情感类别，并得到该情感类别的置信度，即得到所述基于声学语音情感特征的语音情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒；融合单元，用于融合所述基于情感副语言的语音情感识别通道和基于声学语音情感特征的语音情感识别通道的情感识别结果，得出情感语音信号样本所包含的情感状态。
8.根据权利要求6所述的非特定人语音情感识别系统，其特征在于，所述副语言通道中，采用的统计模型为支持向量机、高斯混合模型或隐马尔科夫模型；所述声学语音情感特征通道中，采用的统计模型为支持向量机、高斯混合模型或隐马尔科夫模型。
9.根据权利要求6所述的非特定人语音情感识别系统，其特征在于，所述识别情感副语言的语音特征提取单元和声学语音情感特征提取单元之前设有预处理单元,包括分巾贞、加窗和端点检测。
10.根据权利要求6所述的非特定人语音情感识别系统，其特征在于，所述提取识别情感副语言的语音特征包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些语音特征的最大值、最小值以及变化范围；所述提取声学语音情感特征包括提取美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等，以及所述声学语音情感特征的最大值、最小值以及变化范围。
全文摘要
本发明提供了一种非特定人语音情感识别方法及系统，其中该方法包括提取待识别语音信号中用于识别情感副语言的语音特征；提取待识别情感语音信号的声学语音情感特征；对所述基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。本发明利用情感副语言特征受说话人变化的影响比较小的特点，从情感语音信号中提取反应情感信息的情感副语言，用情感副语言包含的情感信息来辅助传统的声学语音情感特征进行情感识别，从而达到提高语音情感识别鲁棒性和识别率的目的。
文档编号G10L15/02GK102881284SQ20121032178
公开日2013年1月16日申请日期2012年9月3日优先权日2012年9月3日
发明者毛启容, 赵小蕾, 詹永照, 白李娟, 王治锋, 杨华宇申请人:江苏大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛启容;赵小蕾;詹永照;白李娟;王治锋;杨华宇
技术所有人：江苏大学
我是此专利的发明人

上一篇：八音琴音针调律激振测试装置的制作方法
上一篇：乐音发生装置及乐音发生方法