基于似然概率模糊熵的紧张状态下语音情绪自动识别方法

文档序号：9930288阅读：537来源：国知局

基于似然概率模糊熵的紧张状态下语音情绪自动识别方法
【技术领域】
[0001] 本发明设及语音识别方法，尤其设及一种基于似然概率模糊赌的紧张状态下语音情绪自动识别方法。
【背景技术】
[0002] 在人工智能中，情感计算被认为是赋予计算机更高的、全面的智能的一个关键途径。在人机交互中，赋予计算机拟人的情感能力，使其能感知周围的环境和气氛，自适应提供最舒适的交互环境，尽量消除人和机器之间的障碍，已经成为下一代计算机发展的目标。语音情感识别技术运用模式识别的方法从语音信号中提取出说话人的情感状态信息，从而使计算机能够自动的识别语音情感，是情感计算的一个重要部分，是自然人机交互的一个重要基础。
[0003] 现有的语音情感识别的研究主要集中在基本情感类别论中指出的几种情感，包括喜悦、愤怒、惊讶、悲伤和恐惧等，但对于紧张等具有特殊意义的语音情感缺乏研究。目前的语音情感识别方法不能对紧张情绪进行较好的识别。对紧张情绪状态的识别具有很高的应用价值，特别是在航空航天等军事应用领域中，长时间的、枯燥的、高强度的任务会使相关人员面临严酷的生理W及屯、理考验，引发紧张等一些负面的情绪。紧张情绪出现后，如果不妥善的处理，对人员的工作能力会造成重大的影响，甚至引起人为的疏忽导致事故。探讨紧张等负面情绪对于人类认知活动的作用机制和影响因素，研究提高个体认知和工作效率的方法、避免影响认知和工作能力的因素，具有重大的实际意义。
[0004] 目前在语音情感识别研究中，面临着情感语料真实度的问题。通过表演的方式采集的情感语料数据，称为表演语料。目前大部分的语音情感识别研究是基于表演语料的。表演语料的优点是容易采集，缺点是情感表现夸张，与实际的自然语音有一定的差别，因此导致表演数据的可靠性较差。基于表演情感语料建立情感识别系统，由于用于识别模型训练的数据与实际的数据有一定的差别，导致了在实际条件下识别性能的下降。通过诱发的方法采集的情感语料称为诱发语料。诱发语料的特点是自然度较高，而且便于通过实验屯、理学的方法控制获得所需要的特定情感的语料。现有的中文语音情感识别中关于紧张情绪的诱发语料库十分匿乏。
[0005] 人类的情感具有模糊性和多样性，在语音情感识别中，传统的识别方法是将出现的样本硬性的划分为已知类别中的某一类，运种做法的缺陷是，在现实中存在较多模糊不清的情感样本时，分类的可信度较差，误判的概率较高。

【发明内容】

[0006] 发明目的:针对现有技术中语音情感识别技术在实际应用中关于紧张情绪的空白之处，提供一种基于似然概率模糊赌的紧张状态下语音情绪自动识别方法。
[0007] 技术方案:一种基于似然概率模糊赌的紧张状态下语音情绪自动识别方法，包括如下步骤：
[0008] (I)建立语音数据库，所述语音数据库包括紧张、喜悦和平静的语音数据；
[0009] (2)从语音数据库中提取语音情感特征，所述语音情感特征包括韵律情感特征和音质情感特征；
[0010] (3)采用fisher准则对语音情感特征进行特征评价，选择识别特征；
[0011] (4)依据识别特征利用似然概率模糊赌判断待识别样本的情感类别，并在模糊赌超过阔值时拒判。
[0012] 进一步的，步骤(1)具体包括如下子步骤：
[001引（1-1)被试对象分别录制紧张、曹悦和平静的语音片段；
[0014] (1-2)筛选出紧张、喜悦和平静的语音数据。
[0015] 进一步的，步骤(2)中所述的韵律情感特征包括:短时能量的均值、最大值、最小值、中值、方差;短时能量差分的均值、最大值、最小值、中值、方差;基音的均值、最大值、最小值、中值、方差;基音一阶差分的均值、最大值、最小值、中值、方差;基音二阶差分的均值、最大值、最小值、中值、方差;基音范围；发音帖数、不发音帖数、不发音帖数和发音帖数之比、发音帖数和总帖数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数。
[0016] 进一步的，步骤(2)中所述的音质情感特征包括:第一共振峰的均值、最大值、最小值、中值、方差;第二共振峰的均值、最大值、最小值、中值、方差;第=共振峰的均值、最大值、最小值、中值、方差;第一共振峰一阶差分的均值、最大值、最小值、中值、方差;第二共振峰一阶差分的均值、最大值、最小值、中值、方差;第=共振峰一阶差分的均值、最大值、最小值、中值、方差；250化W下谱能量百分比、650化W下谱能量百分比、4k化W上谱能量百分比；谐波噪声比化NR)的均值、最大值、最小值、中值、方差。
[0017] 进一步的，步骤(3)中所述的fisher准则对第d个维度具体表示为
[001 引
[0019] 其中y为语音情感特征的特征值的均值，O为语音情感特征的特征值的标准差，m为语音情感特征的类别的总数。
[0020] 进一步的，步骤(4)具体包括如下子步骤：
[0021] (4-1)采用GMM对紧张、喜悦和平静S种情感进行建模，每种情感对应一个GMM模型，得到每种情感的P(XilAj)，通过最大后验概率准则判决;X康示第i条语句样本，A徒示情感类别，最大后验概率可W表示为：
[0022]
[0023]
[0024]
[0025] 其中，j*表示样本所属的类别；
[0026] (4-2)分别用紧张、喜悦和平静的GMM似然概率密度值代表待识别样本与紧张、喜悦和平静情感类别的符合程度;当模糊赌超过阔值化时则发生拒判：
[0027]
[0028] 其中，C为情感类别数。
[0029] 有益效果:本发明提供的一种基于似然概率模糊赌的紧张状态下语音情绪自动识别方法能够自动识别语音中的紧张情绪，通过诱发的方法来采集紧张情绪的语料，使数据更加接近真实的情感数据，从而获得较好的紧张情绪的识别性能；另外，本发明采用可拒判的语音情感识别方法，对于不确定的或未知的情感样本，分类器给出拒绝判断的识别结果，即不属于需要检测的实用语音情感类别中的任何一类，能够保证识别的准确性，有效的降低误判率。
【附图说明】
[0030] 图1为本发明的流程图；
[0031 ]图2为情感的二维维度空间模型图；
[0032] 图3为映射函数图；
[0033] 图4为韵律特征空间中的样本分布图；
[0034] 图5为音质特征空间中的样本分布图；
[0035] 图6为韵律与音质特征空间中的样本分布图；
[0036] 图7为前5个特征的均值图；
[0037] 图8为前5个特征的方差图。
【具体实施方式】
[0038] 下面结合附图对本发明作进一步的说明，一种基于似然概率模糊赌的紧张状态下语音情绪自动识别方法，包括如下步骤：
[0039] (1)建立语音数据库，所述语音数据库包括紧张、喜悦和平静的语音数据。
[0040] 在实验屯、理学中，通过计算机多媒体技术进行视觉感知与听觉感知方面的刺激，是近年来随着计算机技术的发展而出现的，采用较多的一种实验手段。计算机游戏通过画面和音乐的视觉、听觉刺激，能提供一个互动的、具有较强感染力的人机交互环境，能够有效的诱发出被试人员的正面与负面的情感。特别是在游戏接连胜利时，被试人员由于在游戏虚拟场景中的成功与满足，被诱发出喜悦的情感;在游戏连续失败时，被试人员在虚拟场景中受到挫折，容易引发包括紧张在内的负面情感。在进行较长时间的实验过程中，重复性的游戏操作和失败，能顺利的诱发紧张情感，步骤(1)具体包括如下子步骤：
[0041] (1-1)被试对象分别录制紧张、喜悦和平静的语音片段，具体包括：
[0042] (1-1-1)被试对象的选择:选择十名大学生(五名男性、五名女性)进行计算机游戏诱发的语音采集，在游戏之前进行平静语料的录制。
[0043] (1-1-2)被试语句文本的设计:考虑到紧张等实用语音情感识别的一个主要应用领域为长期的航空、航天和航海任务所引发的负面情绪的评估，20句无情感倾向性的工作用语短句选自国际海事组织（IMO)发布的《标准航海通信用语KSMCP)。
[0044] (1-1-3)游戏的选择:为了便于诱发紧张情感，我们选用了需要耐屯、和仔细的计算机小游戏。游戏中被试人员要求用鼠标移动一个小球，小球需要通过缠绕的、狭窄的管道，在通过管道的过程中小球不能碰到管壁，否则"炸弹"将爆炸，游戏失败，在规定时间内顺利通过管道后，"拆弹"成功，游戏胜利。
[0045] (1-1-4)录制喜悦情感语料:在每次游戏胜利后，要求被试人员用喜悦的情感说出需要录制的文本语句内容。
[0046] (1-1-5)录制紧张情感语料:在每次游戏失败后，要求被试人员用紧张的情感说出需要录制的文本语句内容。
[0047] (1-1-6)主观体验的记录:被试填写情绪的主观体验，包括五个选择:非常紧张、有点紧张、中间状态、有点喜悦、非常喜悦。
[0048] (1-2)筛选出紧张、喜悦和平静的语音数据:本实施例中通过计算机游戏诱发的方式，获得紧张、喜悦和平静=种情感的原始的情感语音共计1800条，听过听辨筛选出质

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周锋;孙冬生;王如刚;周六英;
技术所有人：盐城工学院;
我是此专利的发明人

上一篇：具有接触保护的激光器集成磁头万向组件的制作方法
上一篇：婴儿哭声分析方法