一种语义独立的语音情绪特征识别方法及装置与流程

文档序号：14359523阅读：228来源：国知局

本发明涉及音频识别领域，尤其涉及一种语义独立的语音情绪特征识别方法及装置。

背景技术：

随着计算机技术与人们的日常生活的深入结合，人们已经不满足于通过计算机进行音频识别仅仅能确认说话人和语音识别，人们希望计算机可以更智能化，可以识别语义，情绪等更高级的信息。

情绪信息是语音中非常重要的一种信息资源。与语音识别技术不同，情绪识别系统更关注的是说话人的说话方式，是更深层次的潜藏在表面与剧中的语气和态度，可以认为是语音信号中隐藏的高阶信息。

实际上，在人与人交流的过程中，同一说话者用不同情绪说完全相同的两句话，可以表现出完全不同的意思。

然而在传统的智能语音数据分析中，情绪信息被当做是个体之间的差异，从而损失了非常有价值的信息。

目前语音情绪识别技术的实现方案多是语音识别与表情识别和语义识别等识别方式进行结合。但是，多种识别方式结合进行情绪识别不仅仅处理过程复杂，实现难度高，需要进行图像和视频处理等处理方法，并且处理时间较长。因此，导致了当前的语音情绪识别处理过程复杂，实现难度高，过度依赖于语义和处理时间长的技术问题。

技术实现要素：

本发明提供了一种语义独立的语音情绪特征识别方法及装置，解决了当前的语音情绪识别处理过程复杂，实现难度高，过度依赖于语义和处理时间长的技术问题。

本发明提供了一种语义独立的语音情绪特征识别方法，包括：

s1：获取wav格式的音频文件中的pcm数据；

s2：将pcm数据进行语音特征提取，获取pcm数据的声谱特征、韵律学特征和音质特征；

s3：将pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配，根据模式匹配的结果输出匹配度最大的情绪类别。

优选地，所述步骤s3具体包括：

s301：获取与情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值；

s302：将pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配；

s303：根据pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征的匹配程度和情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值计算各种情绪类别的加权平均数，以加权平均数为匹配度，输出匹配度最大的情绪类别。

优选地，所述声谱特征具体包括：mfcc特征和gfcc特征。

优选地，所述韵律学特征具体包括：pitch特征、shorttermenergy特征、zcr特征和speed特征。

优选地，所述音质特征具体包括：formants特征。

本发明提供了一种语义独立的语音情绪特征识别装置，包括：

音频获取模块，用于获取wav格式的音频文件中的pcm数据；

特征提取模块，用于将pcm数据进行语音特征提取，获取pcm数据的声谱特征、韵律学特征和音质特征；

匹配输出模块，用于将pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配，根据模式匹配的结果输出匹配度最大的情绪类别。

优选地，所述匹配输出模块具体包括：

权值子模块，用于获取与情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值；

匹配子模块，用于将pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配；

输出子模块，用于根据pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征的匹配程度和情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值计算各种情绪类别的加权平均数，以加权平均数为匹配度，输出匹配度最大的情绪类别。

优选地，所述声谱特征具体包括：mfcc特征和gfcc特征。

优选地，所述韵律学特征具体包括：pitch特征、shorttermenergy特征、zcr特征和speed特征。

优选地，所述音质特征具体包括：formants特征。

从以上技术方案可以看出，本发明例具有以下优点：

本发明提供了一种语义独立的语音情绪特征识别方法，包括：s1：获取wav格式的音频文件中的pcm数据；s2：将pcm数据进行语音特征提取，获取pcm数据的声谱特征、韵律学特征和音质特征；s3：将pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配，根据模式匹配的结果输出匹配度最大的情绪类别。

本发明可以不依赖语义而直接判断说话人情绪，通过对pcm数据和情绪数据库中的声谱特征、韵律学特征和音质特征进行匹配，根据匹配度确定pcm数据对应的情绪类别，提取这些物理特征的方法较为简洁方便，并且处理过程高效快速，并且多种类别的语音特征综合匹配可以实现情绪特征的准确识别，解决了当前的语音情绪识别处理过程复杂，实现难度高，过度依赖于语义和处理时间长的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种语义独立的语音情绪特征识别方法的一个实施例的流程示意图；

图2为本发明实施例提供的一种语义独立的语音情绪特征识别方法的另一个实施例的流程示意图；

图3为本发明实施例提供的一种语义独立的语音情绪特征识别装置的一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种语义独立的语音情绪特征识别方法及装置，解决了当前的语音情绪识别处理过程复杂，实现难度高，过度依赖于语义和处理时间长的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种语义独立的语音情绪特征识别方法的一个实施例，包括：

步骤101：获取wav格式的音频文件中的pcm数据；

需要说明的是，实际应用过程中，需要先获取wav格式的音频文件中的pcm数据，并将pcm数据直接导入内存，以便后续步骤的进行。

步骤102：将pcm数据进行语音特征提取，获取pcm数据的声谱特征、韵律学特征和音质特征；

需要说明的是，获取wav格式的音频文件中的pcm数据之后，还需要将pcm数据进行语音特征提取，获取pcm数据的声谱特征、韵律学特征和音质特征；

并且为了准确度，可以从各种语音特征的各个维度进行提取，组成一个超过100维的向量，用于后续的模式匹配。

步骤103：将pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配，根据模式匹配的结果输出匹配度最大的情绪类别。

需要说明的是，本实施例通过对pcm数据和情绪数据库中的声谱特征、韵律学特征和音质特征进行匹配，根据匹配度确定pcm数据对应的情绪类别，提取这些物理特征的方法较为简洁方便，并且处理过程高效快速，并且多种类别的语音特征综合匹配可以实现情绪特征的准确识别，提高了情绪识别的灵活性、方便性、严密性和识别效率，能更好地适应智能化硬件未来的需求，可持续对复杂程度日益增长的智能化硬件进行完整、快速地配置，解决了当前的语音情绪识别处理过程复杂，实现难度高，过度依赖于语义和处理时间长的技术问题。

以上为本发明实施例提供的一种语义独立的语音情绪特征识别方法的一个实施例，以下为本发明实施例提供的一种语义独立的语音情绪特征识别方法的另一个实施例。

请参阅图2，本发明实施例提供了一种语义独立的语音情绪特征识别方法的另一个实施例，包括：

步骤201：获取wav格式的音频文件中的pcm数据；

步骤202：将pcm数据进行语音特征提取，获取pcm数据的声谱特征、韵律学特征和音质特征；

步骤203：获取与情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值；

步骤204：将pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配；

步骤205：根据pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征的匹配程度和情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值计算各种情绪类别的加权平均数，以加权平均数为匹配度，输出匹配度最大的情绪类别。

需要说明的是，匹配度的计算可以通过加权平均数、神经网络模型或聚类算法等方式进行计算，通过加权平均数进行计算仅为其中的一种实施方式；

匹配度的加权平均数的计算公式如下：

p＝a*a+b*b+c*c

其中，p为匹配度，a为pcm数据中的声谱特征与预置声谱特征的匹配程度，b为pcm数据中的韵律学特征与预置韵律学特征的匹配程度，c为pcm数据中的音质特征与预置音质特征的匹配程度，a为预置声谱特征对应的预置权值，b为预置韵律学特征对应的预置权值，c为预置音质特征对应的预置权值。

进一步地，所述声谱特征具体包括：mfcc特征和gfcc特征。

需要说明的是，mfcc是mel频率倒谱系数的缩写；

mel频率是基于人耳听觉特性提取出来的，它与hz频率成非线性对应关系，mel频率倒谱系数(mfcc)则是利用它们之间的这种关系，计算得到的hz频谱特征；

gfcc特征为基于gammatone滤波器的听觉特征。

进一步地，所述韵律学特征具体包括：pitch特征、shorttermenergy特征、zcr特征和speed特征。

需要说明的是，pitch特征跟声音的基频(fundamentalfrequency)有关，反映的是音高的信息；

shorttermenergy特征为短时能量特征；

zcr(zero-crossingrate,过零率)特征是指一个信号的符号变化的比率，例如信号从正数变成负数或反向，是对敲击声音的进行分类的主要特征；

speed特征为语速特征。

进一步地，所述音质特征具体包括：formants特征。

需要说明的是，formants特征的中文翻译为共振峰特征，共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道(共振腔)的物理特征。

本实施例通过对pcm数据和情绪数据库中的声谱特征、韵律学特征和音质特征进行匹配，根据匹配度确定pcm数据对应的情绪类别，提取这些物理特征的方法较为简洁方便，并且处理过程高效快速；

同时采用多种类别的语音特征的综合匹配，可以实现情绪特征的准确识别；

本发明提高了情绪识别的灵活性、方便性、严密性和识别效率，能更好地适应智能化硬件未来的需求，可持续对复杂程度日益增长的智能化硬件进行完整、快速地配置；

解决了当前的语音情绪识别处理过程复杂，实现难度高和处理时间长的技术问题。

以上为本发明实施例提供的一种语义独立的语音情绪特征识别方法的另一个实施例，以下为本发明实施例提供的一种语义独立的语音情绪特征识别装置的一个实施例。

请参阅图3，本发明实施例提供了一种语义独立的语音情绪特征识别装置的一个实施例，包括：

音频获取模块301，用于获取wav格式的音频文件中的pcm数据；

特征提取模块302，用于将pcm数据进行语音特征提取，获取pcm数据的声谱特征、韵律学特征和音质特征；

匹配输出模块303，用于将pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配，根据模式匹配的结果输出匹配度最大的情绪类别。

进一步地，匹配输出模块303具体包括：

权值子模块3031，用于获取与情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值；

匹配子模块3032，用于将pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征进行模式匹配；

输出子模块3033，用于根据pcm数据中的声谱特征、韵律学特征和音质特征分别与情绪数据库中各种情绪类别对应的预置声谱特征、预置韵律学特征和预置音质特征的匹配程度和情绪数据库中预置声谱特征、预置韵律学特征和预置音质特征对应的预置权值计算各种情绪类别的加权平均数，以加权平均数为匹配度，输出匹配度最大的情绪类别。

进一步地，声谱特征具体包括：mfcc特征和gfcc特征。

进一步地，韵律学特征具体包括：pitch特征、shorttermenergy特征、zcr特征和speed特征。

进一步地，音质特征具体包括：formants特征。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑渊中
技术所有人：广州势必可赢网络科技有限公司
我是此专利的发明人