结合情感点的汉语语音情感提取及建模方法

文档序号：2825149阅读：358来源：国知局

专利名称：结合情感点的汉语语音情感提取及建模方法
技术领域：
本发明涉及一种结合情感点的汉语语音情感提取及建模方法，属于信息技术领域。
背景技术：
语音情感识别是从语音信号中提取说话人的情感状态。现有的研究表明，语音信号中的韵律信息对语音情感识别具有重要作用。例如，当说话人情绪激动时，语音信号基频均值会升高，基频变化范围会增加；当说话人表示疑问时，句尾基频曲线会上扬；当说话人愤怒时，句子中多个音节的基频曲线会下降。但是，韵律信息不仅体现说话人情感状态，还与说话内容有关。汉语是有调语言，调型可以区分语义，因此即使平静的汉语语音信号，其基频曲线也会随着语义的变化产生较大的起伏。在本发明之前，研究者主要将语义作为汉语语音情感识别的消极影响予以剔除，但是汉语语音信号中存在某些持续时间较短，语音特征明显，并富含特定情感信息的语音片段，包括感叹词、语气词、重音等，本发明称其为情感点。情感点对汉语语音情感识别具有积极的作用。

发明内容
本发明的目的就在于解决上述背景技术中的缺陷，首次建立汉语情感点数据库，并结合情感点识别结果进行汉语语音情感识别。本发明一种结合情感点的汉语语音情感提取及建模方法其中汉语语音情感点的提取方法，其步骤如下步骤1 制定情感点数据库规范；步骤1. 1 选择20名发音人员，年龄20至25周岁，职业为学生，其中包括10名女性，10名男性；步骤1. 2 选取32个感叹词作为情感点，并为每个情感点选择一句包含该情感点的汉语普通话语句作为录音脚本，平均每句脚本包含5. 56个汉字；步骤1. 3 文件名包含情感点编号、说话人性别、说话人编号、录音次数编号等信息；步骤2:收集情感点数据；步骤2. 1 录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用华硕M2413N-DR笔记本电脑，外接创新Audigy 2NX USB接口声卡，头带式麦克风，录音软件采用的是GoldWave，录音时只有操作者和说话者在场，尽量保持室内安静；步骤2. 2 记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形不会出现削顶；
步骤2. 3 请说话者以指定的情感朗读某一录音脚本，重复3遍；步骤2. 4 请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率44100Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤2. 3 ；步骤2. 5 采用GoldWave软件对步骤2. 4得到的语音文件进行拆分，得到96句情感点语音；步骤2. 7 更换说话者重复步骤2. 2至步骤2. 5，得到20名说话者，包括10男10 女，共1920条情感点数据；步骤3 设计基于.NET平台的网络情感点评测系统，邀请十位以上评测者对按照随机顺序播放的步骤2. 7得到的情感点进行愉悦度、激活度和优势度评测，据评测结果，对 32个情感点进行情感聚类；汉语语音情感点的建模方法，其步骤如下步骤1 采用支持向量机(SVM)进行说话人性别识别；步骤1. 1 对情感点数据库中的语音信号经高通滤波器预处理，分帧，加窗；步骤1.2 对预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数 (LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分，并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数；步骤1. 3 计算步骤1. 2提取的各衍生参数的Fisher比率，选择最能够区分说话人性别的基频最大值、基频一阶差分最大值、基频均值、基频一阶差分标准差、基频二阶差分标准差；步骤1. 4 采用步骤1. 3选择的语音特征训练SVM模型，进行说话人性别识别；步骤2 根据步骤1说话人性别识别结果为每个情感点分别建立男声和女声隐马尔可夫模型(HMM)；步骤2. 1 对情感点数据库中的男声语音信号经高通滤波器预处理，分帧，加窗；步骤2. 2 对步骤2. 1预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分；步骤2. 3 采用顺序浮动前进法(SFFS)从步骤2. 2提取的特征中选择最适合男声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数；步骤2. 4 采用步骤2. 3选择的特征为每个情感点训练男声HMM ；步骤2. 5 对情感点数据库中的女声语音信号经高通滤波器预处理，分帧，加窗；步骤2. 6 对步骤2. 5预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分；步骤2. 7 采用顺序浮动前进法(SFFS)从步骤2. 6提取的特征中选择最适合女声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数；步骤2. 8 采用步骤2. 7选择的特征为每个情感点训练女声HMM。本发明的积极效果和优点在于1.首先建立了汉语语音情感点数据库，包含20名说话者(10男10女)，共1920条情感点数据，并为数据库中的各情感点进行了愉悦度、激活度和优势度评测。该情感点数据库为结合语义信息的汉语语音情感识别研究提供了基础；2.充分考虑了性别对情感点识别的影响，设计了两级语音情感点分类模型，首先利用支持向量机进行性别识别，然后根据性别识别结果，分别用男声HMM或女声HMM进行情感点识别。(四)附图附表说明

图1汉语语音情感点的提取及识别方法流程图；图2情感点PAD评测聚类结果；图3汉语语音情感点识别方法示意图；图4Mel子带滤波器组；图5特征选择流程图。
具体实施例方式下面结合附图，对本发明所述的技术方案作进一步阐述。如图1所示，是汉语语音情感信息的提取及建模方法流程框图，主要分为两部分汉语语音情感点的提取方法和汉语语音情感点的识别方法。一、汉语语音情感点的提取方法，该方法步骤如下步骤1.制定情感点数据库规范；在语音库的整个制作过程中的每一步都应该遵从特定的规范，包括发音人规范、录音脚本设计规范、录音规范、音频文件命名规范及实验记录规范等。具体涉及到的制作规范和含义如表1所示。
权利要求
1.汉语语音情感点的提取方法，其步骤如下步骤1 制定情感点数据库规范；步骤1. 1 选择20名发音人员，年龄20至25周岁，职业为学生，其中包括10名女性， 10名男性；步骤1. 2 选取32个感叹词作为情感点，并为每个情感点选择一句包含该情感点的汉语普通话语句作为录音脚本，平均每句脚本包含5. 56个汉字；步骤1. 3 文件名包含情感点编号、说话人性别、说话人编号、录音次数编号等信息；步骤2 收集情感点数据；步骤2. 1 录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用华硕M2413N-DR笔记本电脑，外接创新Audigy 2NX USB接口声卡，头带式麦克风，录音软件采用的是GoldWave，录音时只有操作者和说话者在场，尽量保持室内安静；步骤2. 2 记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形不会出现削顶；步骤2. 3 请说话者以指定的情感朗读某一录音脚本，重复3遍；步骤2. 4 请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率44100Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤2. 3 ；步骤2. 5 采用GoldWave软件对步骤2. 4得到的语音文件进行拆分，得到96句情感点语音；步骤2. 7 更换说话者重复步骤2. 2至步骤2. 5，得到20名说话者，包括10男10女，共 1920条情感点数据；步骤3 设计基于.NET平台的网络情感点评测系统，邀请10位以上评测者对按照随机顺序播放的步骤2. 7得到的情感点进行愉悦度、激活度和优势度评测，据评测结果，对32个情感点进行情感聚类。
2.汉语语音情感点的建模方法，其步骤如下步骤1 采用支持向量机(SVM)进行说话人性别识别；步骤11 对情感点数据库中的语音信号经高通滤波器预处理，分帧，加窗；步骤1. 2 对预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、 MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分，并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数；步骤1. 3 计算步骤1. 2提取的各衍生参数的Fisher比率，选择最能够区分说话人性别的基频最大值、基频一阶差分最大值、基频均值、基频一阶差分标准差、基频二阶差分标准差；步骤1. 4 采用步骤1. 3选择的语音特征训练SVM模型，进行说话人性别识别；步骤2 根据步骤1说话人性别识别结果为每个情感点分别建立男声和女声隐马尔可夫模型(HMM)；步骤2. 1 对情感点数据库中的男声语音信号经高通滤波器预处理，分帧，加窗；步骤2. 2 对步骤2. 1预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分；步骤2. 3 采用顺序浮动前进法(SFFS)从步骤2. 2提取的特征中选择最适合男声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数；步骤2. 4 采用步骤2. 3选择的特征为每个情感点训练男声HMM ；步骤2. 5 对情感点数据库中的女声语音信号经高通滤波器预处理，分帧，加窗；步骤2. 6 对步骤2. 5预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数 (LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分；步骤2. 7 采用顺序浮动前进法(SFFS)从步骤2. 6提取的特征中选择最适合女声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数；步骤2. 8 采用步骤2. 7选择的特征为每个情感点训练女声HMM。
全文摘要
本发明一种结合情感点的汉语语音情感提取及建模方法，该汉语语音情感点提取方法为制定情感点数据库规范，包括发音人规范、录音脚本设计规范、音频文件命名规范等；收集情感点数据；情感点愉悦度、激活度、优势度(PAD)评测，即由区别于说话者的至少十名评测者对情感点数据进行PAD主观听取评测实验。该汉语语音情感点建模方法为首先根据Fisher比率选择语音特征训练性别识别支持向量机模型(SVM)；其次为男声和女声分别建立情感点隐马尔科夫模型(HMM)，并根据SVM性别识别结果选择相应的HMM进行情感点分类。本发明汉语语音情感点提取方法为结合语义信息的汉语语音情感识别研究提供了基础，汉语语音情感点建模方法实现了高效的语音情感识别。
文档编号G10L15/14GK102222500SQ20111012187
公开日2011年10月19日申请日期2011年5月11日优先权日2011年5月11日
发明者毛峡, 陈立江申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛峡;陈立江
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：语音控制电视机的方法、装置和系统的制作方法
上一篇：一种基于avs音频编码的信息隐藏方法