一种音频识别和情感映射数据库的构建方法及相关装置

文档序号：42066602发布日期：2025-06-04 18:28阅读：43来源：国知局

本技术涉及人工智能，尤其涉及一种音频识别和情感映射数据库的构建方法及相关装置。

背景技术：

1、现阶段，可以利用语音情感识别技术来判断说话人的情感状态。语音情感识别技术通常包括单模态语音情感识别技术和双模态语音情感识别技术。

2、双模态语音情感识别技术利用语音和文本两个模态的数据进行多模态的情感识别，以确定说话人的情感状态，然而，该方法在时效性较高的场景中并不适用，例如，在客服和客户的对话场景下，对客户的情感进行实时的情感识别，如果采用语音转文字将音频转化为文本，会导致情感识别的实时性很差，并且语音转文字的结果的准确率会对情感识别的结果产生较大的影响。相比之下，单模态语音识别技术能够直接通过语音情感特征的识别来确定说话人的情感状态，但是其识别准确性较差。

3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、有鉴于此，本技术实施例提供了一种音频识别和情感映射数据库的构建方法及相关装置。

2、第一方面，本技术实施例提供了一种音频识别和音频识别和情感映射数据库的构建方法，包括：

3、从公开的情感音频数据库获取已标注情感标签的音频数据；所述音频数据包括多种情感类别对应的音频；

4、对所述音频数据进行初步筛选，排除数据质量低于预设数据质量或与情感无关的音频数据，得到目标音频数据；

5、对所述目标音频数据进行预处理，获得数据质量大于所述目标音频数据的音频数据样本；

6、构建神经网络模型，所述神经网络模型包括输入层、特征提取层、注意力机制层、全连接层和输出层，所述神经网络模型用于提取所述音频数据样本的情感特征并进行分类识别；

7、将所述音频数据样本及其对应的情感标签作为训练数据集，对所述神经网络模型进行训练，得到情感识别模型；所述情感识别模型用于对音频数据进行识别，得到对应的情感；

8、利用所述情感识别模型，对未标注情感的待识别音频数据进行情感识别，并将识别结果与所述待识别音频数据关联存储，形成情感映射数据库。

9、在一种可能的实现方式中，所述情感类别包括快乐、悲伤、愤怒、惊讶、恐惧和中性等。

10、在一种可能的实现方式中，所述情感音频数据库包括crema-d、ravdess、iemocap、emovo、savee、tess和venec。

11、在一种可能的实现方式中，所述方法还包括：

12、对所述情感映射数据库进行验证，利用其他情感识别算法对所述情感映射数据库中的待识别音频数据进行识别，得到验证情感；

13、将所述情感映射数据库中存储的所述待识别音频数据对应的情感与所述验证情感进行匹配；

14、若匹配成功则验证通过；若匹配失败则重新对所述待识别音频数据进行识别，并更新所述情感映射数据库。

15、在一种可能的实现方式中，所述对所述目标音频数据进行预处理，获得数据质量大于所述目标音频数据的音频数据样本，包括：

16、使用高通滤波器和低通滤波器去除所述目标音频数据的背景噪声；

17、对所述目标音频数据进行标准化处理，使目标音频数据的音量和频率范围相同；

18、将所述目标音频数据中的长音频片段分割成短片段，得到所述音频数据样本。

19、在一种可能的实现方式中，所述构建神经网络模型，包括：

20、构建输入层，所述输入层用于以频谱图或时域信号的表示形式接收音频数据；

21、构建特征提取层；所述特征提取层包括多个卷积层和池化层，所述特征提取层用于提取音频数据的低级特征和高级特征，所述卷积层用于捕捉音频数据的局部特征，所述池化层则用于降低音频数据的特征维度；

22、构建注意力机制层；所述注意力机制层用于捕捉关注音频数据中与情感相关的关键部分；

23、构建全连接层；所述全连接层用于将所述特征提取层提取的特征映射到情感类别空间；

24、构建输出层；所述输出层使用softmax激活函数，将所述情感类别空间中的特征映射到具体的情感类别中的情感。

25、在一种可能的实现方式中，所述神经网络模型还包括自适应学习率调整机制，所述自适应学习率调整机制用于在训练过程中动态调整所述神经网络模型的学习率。

26、在一种可能的实现方式中，所述方法还包括：

27、对所述音频数据样本进行情感增强处情感映射数据库的构建理，通过调整所述音频数据样本中音频的音量、音调和速度，增强音频数据中的情感表达。

28、第二方面，本技术实施例提供了一种装置，该装置包括：

29、获取模块，用于从公开的情感音频数据库获取已标注情感标签的音频数据；所述音频数据包括多种情感类别对应的音频；

30、筛选模块，用于对所述音频数据进行初步筛选，排除数据质量低于预设数据质量或与情感无关的音频数据，得到目标音频数据；

31、处理模块，用于对所述目标音频数据进行预处理，获得数据质量大于所述目标音频数据的音频数据样本；

32、构建模块，用于构建神经网络模型，所述神经网络模型包括输入层、特征提取层、注意力机制层、全连接层和输出层，所述神经网络模型用于提取所述音频数据样本的情感特征并进行分类识别；

33、训练模块，用于将所述音频数据样本及其对应的情感标签作为训练数据集，对所述神经网络模型进行训练，得到情感识别模型；所述情感识别模型用于对音频数据进行识别，得到对应的情感；

34、识别模块，用于利用所述情感识别模型，对未标注情感的待识别音频数据进行情感识别，并将识别结果与所述待识别音频数据关联存储，形成情感映射数据库。

35、在一种可能的实现方式中，所述情感类别包括快乐、悲伤、愤怒、惊讶、恐惧和中性等。

36、在一种可能的实现方式中，所述情感音频数据库包括crema-d、ravdess、iemocap、emovo、savee、tess和venec。

37、在一种可能的实现方式中，所述装置还包括：

38、验证模块，用于对所述情感映射数据库进行验证，利用其他情感识别算法对所述情感映射数据库中的待识别音频数据进行识别，得到验证情感；

39、将所述情感映射数据库中存储的所述待识别音频数据对应的情感与所述验证情感进行匹配；

40、若匹配成功则验证通过；若匹配失败则重新对所述待识别音频数据进行识别，并更新所述情感映射数据库。

41、在一种可能的实现方式中，所述处理模块用于使用高通滤波器和低通滤波器去除所述目标音频数据的背景噪声；

42、对所述目标音频数据进行标准化处理，使目标音频数据的音量和频率范围相同；

43、将所述目标音频数据中的长音频片段分割成短片段，得到所述音频数据样本。

44、在一种可能的实现方式中，所述构建模块用于构建输入层，所述输入层用于以频谱图或时域信号的表示形式接收音频数据；

45、构建特征提取层；所述特征提取层包括多个卷积层和池化层，所述特征提取层用于提取音频数据的低级特征和高级特征，所述卷积层用于捕捉音频数据的局部特征，所述池化层则用于降低音频数据的特征维度；

46、构建注意力机制层；所述注意力机制层用于捕捉关注音频数据中与情感相关的关键部分；

47、构建全连接层；所述全连接层用于将所述特征提取层提取的特征映射到情感类别空间；

48、构建输出层；所述输出层使用softmax激活函数，将所述情感类别空间中的特征映射到具体的情感类别中的情感。

49、在一种可能的实现方式中，所述神经网络模型还包括自适应学习率调整机制，所述自适应学习率调整机制用于在训练过程中动态调整所述神经网络模型的学习率。

50、在一种可能的实现方式中，所述处理模块，还用于对所述音频数据样本进行情感增强处理，通过调整所述音频数据样本中音频的音量、音调和速度，增强音频数据中的情感表达。

51、第三方面，本技术实施例提供了一种设备，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行前述第一方面中任一项所述的音频识别和情感映射数据库的构建方法。

52、第四方面，本技术实施例提供了一种计算机存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现前述第一方面中任一项所述的音频识别和情感映射数据库的构建方法。

53、本技术所提供的一种音频识别和情感映射数据库的构建方法，通过优化的数据预处理、先进的神经网络模型构建和高效的模型训练方法，显著提升了音频情感识别的性能。首先，通过从公开的情感音频数据库获取高质量的已标注情感标签的音频数据，并进行初步筛选和预处理，确保了训练数据集的高质量，为模型的准确性和稳定性奠定了基础。其次，构建的神经网络模型包含输入层、特征提取层、注意力机制层、全连接层和输出层，这些层次的设计使得模型能够高效地提取音频数据的情感特征并进行分类识别。特别是注意力机制的引入，使得模型能够聚焦于音频数据中的关键情感部分，提高了情感识别的准确性和效率。

54、在模型训练过程中，使用高质量的音频数据样本及其对应的情感标签作为训练数据集，对神经网络模型进行优化训练，确保模型参数的最优配置，从而得到高准确性的情感识别模型。该模型不仅能够准确地识别音频数据中的情感状态，而且在实时性方面表现出色，避免了双模态语音情感识别技术中语音转文字步骤带来的延迟和准确率问题。通过这种高效的单模态语音情感识别方法，该技术方案为客服和客户的对话场景等时效性要求较高的应用提供了可靠的解决方案。

55、最后，利用训练好的情感识别模型，对未标注情感的待识别音频数据进行情感识别，并将识别结果与音频数据关联存储，形成情感映射数据库。这一数据库的构建为后续的情感分析、个性化服务等应用提供了丰富的数据支持，具有广阔的市场潜力和应用价值。总体而言，该技术方案通过一系列的优化措施，显著提升了语音情感识别的准确性和实时性，为时效性要求较高的场景提供了高效的解决方案，同时也为音频识别和情感映射数据库的构建和应用打下了坚实的基础。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：边静,黄乐为
技术所有人：陕西学前师范学院
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！