语音情感辨识系统及方法

文档序号：10513527阅读：373来源：国知局

语音情感辨识系统及方法
【专利摘要】本发明提供一种语音情感辨识系统及方法，其中，方法包括：接收语音信号，并计算语音信号的情感特征集合的值；根据情感特征集合的值判别说话者的性别；根据说话者的性别选择对应的情感匹配表，并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配，实现对语音信号进行情感辨识。本发明提供的语音情感辨识系统及方法，在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。
【专利说明】
语音情感辨识系统及方法
技术领域
[0001 ]本发明涉及一种语音情感辨识系统及方法。
【背景技术】
[0002] 语音情感辨识是指机器接收人类发出的语音信号，并对该语音信号中的情感进行辨识，从而更加灵活地执行人类发出的指令。
[0003] 由于语音信号不仅受说话者的情绪的影响，也受其他一些因素的影响，比如，说话者的个性特征和说话的内容。目前的语音情感辨识系统，在对某一个固定的说话者发出的语音信号进行情感辨识时，具有较高的情感辨识正确率，但是当说话者不是固定的某一个人而是经常变换的不定人群的时候，现有的语音情感识别系统对语音信号所表达的情感的辨识正确率则大幅度下降。

【发明内容】

[0004] 本发明要解决的技术问题是提供一种语音情感辨识系统及方法，以使得在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。
[0005] 为解决上述技术问题，本发明的技术方案是：
[0006] -方面，本发明提供一种语音情感辨识方法，包括:接收语音信号，并计算语音信号的情感特征集合的值;根据情感特征集合的值判别说话者的性别;根据说话者的性别选择对应的情感匹配表，并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配，实现对语音信号进行情感辨识。
[0007] 进一步地，情感特征集合包括:音调，音量和梅尔频率倒谱系数。
[0008] 进一步地，情感特征集合还包括RFC，RFC为声谱平滑度与声谱中心的比值，其中，声谱平滑度为语音信号的几何平均值与语音信号的算术平均值的比值;声谱中心为语音信号的加权平均值。
[0009] 进一步地，声谱平滑度的计算公式为
，其中，N为语音信号中的语音的帧数，Xj(f)为第j帧语音对应的频谱。
[0010] 进一步地，声谱中心的计算公式为
.，其中，fj为第j帧语音对应的加权系数。
[0011] 进一步地，情感包括:愤怒，恐惧，喜悦，悲伤，中立。
[0012] 进一步地，情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配的方式为:分级匹配方式。
[0013] 另一方面，本发明提供一种语音情感辨识系统，包括:语音信号接收模块：用于接收语音信号，并计算语音信号的情感特征集合的值;性别判断模块:用于根据情感特征集合的值判别说话者的性别;语音情感辨识模块：用于根据说话者的性别选择对应的情感匹配表，并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配，实现对语音信号进行情感辨识。
[0014] 进一步地，情感特征集合包括:音调，音量和梅尔频率倒谱系数。
[0015] 进一步地，情感特征集合还包括RFC，RFC为声谱平滑度与声谱中心的比值，其中，声谱平滑度为语音信号的几何平均值与语音信号的算术平均值的比值，声谱中心为语音信号的加权平均值。
[0016] 本发明提供的语音情感辨识系统及方法，将男性与女性在发声系统上的差异进行考虑，在接收到语音信号并对该语音信号计算情感特征集合的值之后，首先对说话者（BP，语音信号的来源个体）的性别进行判别，再根据说话者的性别选择对应的情感匹配表(例如，说话者为女性时，则选择对应女性性别的情感匹配表），并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配，实现对语音信号所呈现的情感进行辨识。
[0017] 本发明提供的语音情感辨识系统及方法，在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。
【附图说明】
[0018] 图1是本发明实施例提供的一种语音情感辨识方法的流程图；
[0019] 图2是本发明实施例提供的一种语音情感辨识系统的框图；
[0020] 图3是本发明实施例提供的一种激励-效价二维坐标图；
[0021 ]图4是本发明实施例提供的一种分级匹配方式示意图。
【具体实施方式】
[0022]下面通过具体的实施例进一步说明本发明，但是，应当理解为，这些实施例仅仅是用于更详细具体地说明之用，而不应理解为用于以任何形式限制本发明。
[0023] 实施例一
[0024]结合图1，本实施例提供的语音情感辨识方法，包括
[0025]步骤S1:接收语音信号，并计算语音信号的情感特征集合的值；
[0026] 步骤S2:根据情感特征集合的值判别说话者的性别；
[0027] 步骤S3:根据说话者的性别选择对应的情感匹配表，并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配，实现对语音信号进行情感辨识。
[0028] 本发明实施例提供的语音情感辨识方法，将男性与女性在发声系统上的差异进行考虑，在接收到语音信号并对该语音信号计算情感特征集合的值之后，首先对说话者（BP，语音信号的来源个体）的性别进行判别，再根据说话者的性别选择对应的情感匹配表(例如，说话者为女性时，则选择对应女性性别的情感匹配表），并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配，实现对语音信号所呈现的情感进行辨识。
[0029] 本发明实施例提供的语音情感辨识方法，在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。
[0030] 优选地，情感特征集合包括:音调，音量和梅尔频率倒谱系数。本实施例中根据语音信号中的音调，音量和梅尔频率倒谱系数来判别说话者的性别。其中，需要说明的是音调 (pitch)，音量（energy)和梅尔频率倒谱系数（Mel Frequency Cepstral Coefficents, MFCCs)是用于对语音信号进行分析的常用情感特征量，能够被本领域技术人员理解并接受。
[0031] 优选地，情感特征集合还包括声谱平滑度与声谱中心的比值（Ratio of a spectral Flatness to a spectral Center,RFC)，其中，声谱平滑度为语音信号的几何平均值与语音信号的算术平均值的比值;声谱中心为语音信号的加权平均值。
[0032] 具体地，声谱平滑度的计算公式为
|其中，N为语音信号中的语音的帧数，XAf)为第j帧语音对应的频谱。更加具体地，声谱中心的计算公式为
，其中，fj为第j帧语音对应的加权系数。
[0033] 本实施例中，当说话者变化时，也即是说，当语音信号的发出者有变化的时候，声谱平滑度值和声谱中心值会与其他的情感特征量一样，发生较大的变化，但是此时，声谱平滑度值和声谱中心值的比值，即RFC值，几乎是一个常量，因为声谱平滑度和声谱中心成正比例关系。也就是说，本发明实施例提出的情感特征量RFC的值不会因为说话者的改变而受到大的影响。
[0034]此外，需要说明的是，本实施例的声谱平滑度值可以用于判断一个信号是语音信号还是噪声信号，声谱中心值可以用于判断具有较高声谱中心值的塞音(例如，擦音）。也就是说，声谱平滑度值和声谱中心值可以用于滤除噪声信号。
[0035] 优选地，情感包括：愤怒，恐惧，喜悦，悲伤，中立。根据奥斯古德（英译名，原名 Osgood)原理，将对情感的计算概念化为三个主要的维度:激励维度、效价维度和能量维度。其中，激励维度和效价两个维度构成的二维坐标图能够用于区分人类基本的情感，这些基本的情感包括中立，悲伤，恐惧，愤怒和喜悦，并且，它们在激励-效价二维坐标图中所对应的位置如图3所示。此外，需要说明的是，本实施例的情感类别并不限于所提及的愤怒，恐惧，喜悦，悲伤，中立五种，可以结合实际需要进行设定。
[0036] 进一步地优选，情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配的方式为:分级匹配方式。由于本实施例中，愤怒，喜悦，悲伤，中立这四种情感所分别对应的RFC值之间均具有很大的差异，能够很好地进行区分，但是中立和恐惧所分别对应的两个RFC值比较相近，因此，为了提高语音情感辨识正确率，本实施例的情感分类器采用分级匹配方式，先采用音调，音量和梅尔频率倒谱系数将语音信号的情感分成两个类组，第一组为愤怒，恐惧和喜悦，第二组为悲伤和中立，以这种方式将较难区分的中立和恐惧分开处理，然后再通过语音信号的RFC值来对情感匹配表中的情感的范围值进行逐级匹配，从而实现对某一语音信号进行情感辨识。具体地，例如，对于某一语音信号，先计算它所表现出的音调，音量和梅尔频率倒谱系数，但是仅仅通过计算这三个情感特征量的值只能获知该语音信号所属的类组(例如，该语音信号属于第一组），又由于愤怒，喜悦，悲伤，中立这四种情感所分别对应的RFC值之间均具有很大的差异，能够很好地进行区分，因此，继而再通过计算该语音信号的RFC值，通过RFC值来与情感匹配表中的情感进行匹配。如图4所示地，在采用音调，音量和梅尔频率倒谱系数三个情感特征集合的值判断出该语音信号的情感属于某一组(例如，第一组)后，再采用RFC值判断该语音信号的情感是否与情感匹配表中喜悦所对应的RFC范围值相匹配，若是，则将该语音信号的情感判断为喜悦，否则再分别与恐惧所对应的RFC范围值以及愤怒所对应的RFC范围值进行匹配，逐级地对语音信号所呈现的情感进行判别。本实施的分级匹配的方式，采用分组再分级的匹配方式，一方面可以提高对语音信号情感辨识的速度，另一方面还可以有效提高语音辨识正确率。
[0037]此外，需要说明的是，在对语音信号的情感进行分组时，还可以使用其他的情感特征量，包括线性预测到普系数(LPCC)，共振峰(Formants)等，需要结合实际需要进行情感特征量的选择，本实施例不做具体限定。
[0038] 实施例二
[0039] 结合图2，本实施例提供的语音情感辨识系统100，包括：
[0040] 语音信号接收模块1:用于接收语音信号，并计算语音信号的情感特征集合的值；
[0041] 性别判断模块2:用于根据情感特征集合的值判别说话者的性别；
[0042] 语音情感辨识模块3:用于根据说话者的性别选择对应的情感匹配表，并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配，实现对语音信号进行情感辨识。
[0043]本发明实施例提供的语音情感辨识系统100,将男性与女性在发声系统上的差异进行考虑，在接收到语音信号并对该语音信号计算情感特征集合的值之后，首先对说话者 (即，语音信号的来源个体）的性别进行判别，再根据说话者的性别选择对应的情感匹配表 (例如，说话者为女性时，则选择对应女性性别的情感匹配表），并将情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配，实现对语音信号所呈现的情感进行辨识。
[0044] 本发明实施例提供的语音情感辨识系统100,在说话者不断变换的情况下依旧可以对语音信号表现出较高的情感辨识正确率。
[0045] 优选地，情感特征集合包括:音调，音量和梅尔频率倒谱系数。本实施例中根据语音信号中的音调，音量和梅尔频率倒谱系数来判别说话者的性别。其中，需要说明的是音调 (pitch)，音量（energy)和梅尔频率倒谱系数（Mel Frequency Cepstral Coefficents, MFCCs)是用于对语音信号进行分析的常用情感特征量，能够被本领域技术人员理解并接受。
[0046] 优选地，情感特征集合还包括声谱平滑度与声谱中心的比值（Ratio of a spectral Flatness to a spectral Center,RFC)，其中，声谱平滑度为语音信号的几何平均值与语音信号的算术平均值的比值;声谱中心为语音信号的加权平均值。
[0047] 具体地，声谱平滑度的计算公式为
，其中，N为语音信号中的语音的帧数，XAf)为第j帧语音对应的频谱。更加具体地，声谱中心的计算公式为
，其中，fj为第j帧语音对应的加权系数。
[0048] 本实施例中，当说话者变化时，也即是说，当语音信号的发出者有变化的时候，声谱平滑度值和声谱中心值会与其他的情感特征量一样，发生较大的变化，但是此时，声谱平滑度值和声谱中心值的比值，即RFC值，几乎是一个常量，因为声谱平滑度和声谱中心成正比例关系。也就是说，本发明实施例提出的情感特征量RFC的值不会因为说话者的改变而受到大的影响。
[0049] 此外，需要说明的是，本实施例的声谱平滑度值可以用于判断一个信号是语音信号还是噪声信号，声谱中心值可以用于判断具有较高声谱中心值的塞音(例如，擦音）。也就是说，声谱平滑度值和声谱中心值可以用于滤除噪声信号。
[0050] 优选地，情感包括：愤怒，恐惧，喜悦，悲伤，中立。根据奥斯古德（英译名，原名 Osgood)原理，将对情感的计算概念化为三个主要的维度:激励维度、效价维度和能量维度。其中，激励维度和效价两个维度构成的二维坐标图能够用于区分人类基本的情感，这些基本的情感包括中立，悲伤，恐惧，愤怒和喜悦，并且，它们在激励-效价二维坐标图中所对应的位置如图3所示。此外，需要说明的是，本实施例的情感类别并不限于所提及的愤怒，恐惧，喜悦，悲伤，中立五种，可以结合实际需要进行设定。
[0051] 进一步地优选，情感特征集合的值与情感匹配表中的情感所对应的范围值进行匹配的方式为:分级匹配方式。由于本实施例中，愤怒，喜悦，悲伤，中立这四种情感所分别对应的RFC值之间均具有很大的差异，能够很好地进行区分，但是中立和恐惧所分别对应的两个RFC值比较相近，因此，为了提高语音情感辨识正确率，本实施例的情感分类器采用分级匹配方式，先采用音调，音量和梅尔频率倒谱系数将语音信号的情感分成两个类组，第一组为愤怒，恐惧和喜悦，第二组为悲伤和中立，以这种方式将较难区分的中立和恐惧分开处理，然后再通过语音信号的RFC值来对情感匹配表中的情感的范围值进行逐级匹配，从而实现对某一语音信号进行情感辨识。具体地，例如，对于某一语音信号，先计算它所表现出的音调，音量和梅尔频率倒谱系数，但是仅仅通过计算这三个情感特征量的值只能获知该语音信号所属的类组(例如，该语音信号属于第一组），又由于愤怒，喜悦，悲伤，中立这四种情感所分别对应的RFC值之间均具有很大的差异，能够很好地进行区分，因此，继而再通过计算该语音信号的RFC值，通过RFC值来与情感匹配表中的情感进行匹配。如图4所示地，在采用音调，音量和梅尔频率倒谱系数三个情感特征集合的值判断出该语音信号的情感属于某一组(例如，第一组)后，再采用RFC值判断该语音信号的情感是否与情感匹配表中喜悦所对应的RFC范围值相匹配，若是，则将该语音信号的情感判断为喜悦，否则再分别与恐惧所对应的RFC范围值以及愤怒所对应的RFC范围值进行匹配，逐级地对语音信号所呈现的情感进行判别。本实施的分级匹配的方式，采用分组再分级的匹配方式，一方面可以提高对语音信号情感辨识的速度，另一方面还可以有效提高语音辨识正确率。
[0052]此外，需要说明的是，在对语音信号的情感进行分组时，还可以使用其他的情感特征量，包括线性预测到普系数(LPCC)，共振峰(Formants)等，需要结合实际需要进行情感特征量的选择，本实施例不做具体限定。
[0053]尽管本发明已进行了一定程度的描述，明显地，在不脱离本发明的精神和范围的条件下，可进行各个条件的适当变化。可以理解，本发明不限于所述实施方案，而归于权利要求的范围，其包括所述每个因素的等同替换。
【主权项】
1. 一种语音情感辨识方法，其特征在于，包括：步骤S1:接收语音信号，并计算所述语音信号的情感特征集合的值；步骤S2:根据所述情感特征集合的值判别说话者的性别；步骤S3:根据所述说话者的性别选择对应的情感匹配表，并将所述情感特征集合的值与所述情感匹配表中的情感所对应的范围值进行匹配，实现对所述语音信号进行情感辨识。2. 根据权利要求1所述的语音情感辨识方法，其特征在于，所述情感特征集合包括:音调，音量和梅尔频率倒谱系数。3. 根据权利要求2所述的语音情感辨识方法，其特征在于，所述情感特征集合还包括 RFC，所述RFC为声谱平滑度与声谱中心的比值，其中，所述声谱平滑度为所述语音信号的几何平均值与所述语音信号的算术平均值的比值；所述声谱中心为所述语音信号的加权平均值。4. 根据权利要求3所述的语音情感辨识方法，其特征在于，所述声谱平滑度的计算公式 %|其中，N为所述语音信号中的语音的帧数，Xj (f)为第j帧语音对应的频谱。5. 根据权利要求3所述的语音情感辨识方法，其特征在于，所述声谱中心的计算公式为) -，其中，fj为第j帧语音对应的加权系数。6. 根据权利要求1至5中任一项所述的语音情感辨识方法，其特征在于，所述情感包括：愤怒，恐惧，喜悦，悲伤，中立。7. 根据权利要求6所述的语音情感辨识方法，其特征在于，所述情感特征集合的值与所述情感匹配表中的情感所对应的范围值进行匹配的方式为:分级匹配方式。8. -种语音情感辨识系统，其特征在于，包括：语音信号接收模块:用于接收语音信号，并计算所述语音信号的情感特征集合的值；性别判断模块:用于根据所述情感特征集合的值判别说话者的性别；语音情感辨识模块：用于根据所述说话者的性别选择对应的情感匹配表，并将所述情感特征集合的值与所述情感匹配表中的情感所对应的范围值进行匹配，实现对所述语音信号进行情感辨识。9. 根据权利要求8所述的语音情感辨识系统，其特征在于，所述情感特征集合包括:音调，音量和梅尔频率倒谱系数。10. 根据权利要求8所述的语音情感辨识系统，其特征在于，所述情感特征集合还包括 RFC，所述RFC为声谱平滑度与声谱中心的比值，其中，所述声谱平滑度为所述语音信号的几何平均值与所述语音信号的算术平均值的比值；所述声谱中心为所述语音信号的加权平均值。
【文档编号】G10L25/63GK105869657SQ201610393007
【公开日】2016年8月17日
【申请日】2016年6月3日
【发明人】孙廷玮, 吴安翔, 郭英树
【申请人】竹间智能科技（上海）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙廷玮;吴安翔;郭英树;
技术所有人：竹间智能科技（上海）有限公司;
我是此专利的发明人

上一篇：一种采用非线性特征的语音端点检测方法
上一篇：一种语音信号清晰度的确定方法及装置的制造方法