汉语语音情感信息的提取及建模方法

文档序号：2830876阅读：264来源：国知局

专利名称：：汉语语音情感信息的提取及建模方法
技术领域：
：本发明涉及一种汉语语音情感信息的提取及建模方法，属于信息
技术领域：
。(二)
背景技术：
：语音情感自动识别技术的研究主要涉及两个方面一是建立高质量的情感语音数据库，为语音情感研究提供必要的数据；一是建立高效的语音情感识别模型，迅速有效的识别语音信号的情感状态。建立情感语音数据库，首先必须确立情感的类别以及分类方法，在多数的研究方法中，研究者釆用日常语言标签来标识和分类情感，即将情感分类描述为离散模型。情感语音数据按照表达的自然度可以分为自然型、表演型和诱发型三类，自然型情感语音最直接，但难以收集，表演型情感语音的情感成分往往被夸大，研究者通常会通过某一段包含情感的电影或文字片断来诱导录音者的情感。国内外现有的情感语音数据库覆盖多种语言与情感，但汉语情感语音数据库还相对匮乏，并且存在着制作规范不统一、情感种类较少以及情感语音质量无法保证等缺点。语音情感信息的建模包括情感特征的提取和分类模型的建立两部分。在本发明之前，研究者主要使用的情感特征包括韵律特征及其衍生参数，如时间、能量、基因频率、共振峰等，然而这些参数与情感表达之间的联系十分复杂，不同的情感划分往往适合采用特定的特征组合，过去的文献对此还少有专门研究。语音信号是典型的非平稳信号，K近邻法、主元分析法等所采用的线性模型过于简单，不足以取得好的识别率；隐马尔可夫模型(HMM)的建立和训练时间过长，应用于实际还需要解决计算复杂度过高的问题；人工神经网络具有高度的非线性建模和极强的分类能力，但无法克服局部极小问题。另外，上诉识别方法均属于统计机器学习的范畴，从理论上分析仅当训练样本数量趋于无穷大时，才能使识别性能得到保障，而实际应用中总存在小样本学习的问题。(三)
发明内容-本发明的目的就在于上述
背景技术：
中的缺陷，建立高质量的情感语音数据库和高效的语音情感识别模型。本发明一种汉语语音情感信息的提取及建模方法其中汉语语音情感信息的提取方法，其步骤如下步骤1:制定情感语音数据库规范，包括发音人规范、录音脚本设计规范、音频文件命名规范等；步骤2:收集情感语音数据步骤2.1:录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用华硕M2413N-DR笔记本电脑，外接创新Audigy2NXUSB接口声卡，头带式麦克风，录音软件采用的是GoldWave，录音时只有操作者和说话者在场，尽量保持室内安静；步骤2.2:记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形不会出现削顶；步骤2.3:请说话者以指定的情感朗读某一录音脚本，重复三遍；步骤2.4:请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率11025Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤2.3;步骤2.5:分别以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静7种情感状态和20句录音脚本重复步骤2.3和步骤2.4;歩骤2.6:采用GoldWave软件对步骤2.5得到的语音文件进行拆分，得到420句情感语音；步骤2.7:更换说话者重复步骤2.2至步骤2.6,得到15名说话者，包括7男8女，共6300条情感语音数据；步骤3:情感语音有效性评测，即由区别于说话者的至少十名评测者对步骤2.7得到的情感语音数据进行主观听取评测实验。汉语语音情感信息的建模方法，其步骤如下歩骤l:提取语音情感特征，确定区分各种情感类别的特征组合；步骤1.1:对原始语音信号经高通滤波器预处理，分帧，加窗；步骤1.2:对预处理后的语音信号提取短时能量、短时过零率、基音周期、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数；步骤1.3:通过对预处理后的语音信号进行平坦小波重建得到低频带语音信号；步骤1.4:提取低频带语音信号的短时能量、短时过零率、基音周期、LPCC、MFCC、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数，与步骤1.2得到的特征参数结合，得到包含400余种特征参数情感语音特征库；步骤1.5:从情感语音特征库中选取不同的特征组合进行语音情感一对一分类判决实验，得到适合不同情感类别间分类的特征组合；歩骤2:采用不同的特征组合训练多级语音情感识别系统的SVM模型；步骤3:验证该分类模型的识别效果采用交叉留一法验证语音情感多极分类模型在说话人无关情况下的分类效果,。本发明的积极效果和优点在于-1.成功的解决了国内情感语音数据库匮乏以及国内情感语音数据库质量无法保证的缺陷，通过诱导型情感语音库的录制以及情感语音的主观评测等步骤，提供了一个高质量的汉情感语音数据库，包含悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静7种情感状态和20句录音脚本，数据库总规模达6300条；2.充分考虑了特定的情感特征组合对不同情感状态划分的贡献不同，设计了多极语音情感分类模型。3.利用支持向量机对未知样本分类错误率最小的特点，提供了一个合理高效的语音情感识别系统。(四)附图附表说明图1汉语语音情感信息的提取及建模方法流程框图；图2情感有效性评测结果图3多级分类系统示意图。(五)具体实施例方式下面结合附图，对本发明所述的技术方案作进一步阐述。如图1所示，是汉语语音情感信息的提取及建模方法流程框图，主要分为两部分汉语语音情感信息的提取方法和汉语语音情感信息的建模方法。一、汉语语音情感信息的提取方法，该方法步骤如下-步骤l.制定情感语音数据库规范在语音库的整个制作过程中的每一步都应该遵从特定的规范，包括发音人规范、录音脚本设计规范、录音规范、音频文件命名规范及实验记录规范等。根据语音情感研究的应用需求，具体涉及到的制作规范和含义如下表1所示。<table>tableseeoriginaldocumentpage6</column></row><table>音频文件命名规范包括情感类别、说话人性别、录音的语言类别、录音的语句等实验记录规范实验环境的记录，如地点、时间、温度、湿度等表1实验用录音脚本的选择主要考虑以下3个方面-1)、所选择的语句必须不包含某一方面的情感倾向；2)、必须具有较高的情感自由度，对同一个语句能施加各种情感进行分析比较;3)、是口语化的陈述句根据上述原则，我们选择了如下表2所示的20个短句作为录音脚本。语句编号语句内容1啊，你可真伟大呀2快点千3这下完了4啊，下雨了5太棒了6我真的以为你是这个意思7我在论文上看到你的名字了8AC米兰赢球了9我这次考试刚刚通过10今天是星期天11你这人12电话铃响了13他就快来了14路上人真多啊15明大我耍搬家了16这件事是他干的17你这段时间变瘦了18过两天学校就要开学了19昨天晚上我做了一个梦20有一辆车向我们开过来了表2<table>tableseeoriginaldocumentpage8</column></row><table>为了方便情感语音数据的组织和检索，对单个情感语音的重要特征有直观的描述，我们设计了情感语音文件的命名规则。情感语音文件和语音原始特征文件都必须按照命名规则进行命名，文件命名规则如下表4所示.文件名山9位字符组成，分成7部分。<table>tableseeoriginaldocumentpage9</column></row><table>表41)、情感类别情感类别标识占据1个字符，由情感类型拼音的第一个小写字母组成，b:悲伤；f:愤怒；j:惊奇；k:恐惧；X:喜悦；y:厌恶；p:平静。2)、录音人性别语音信号随说话人的性别不同，声学特征有着明显的差异。性别标识占据1个字符，F:女性；M:男性。3)、获取方式情感语音获取方式的不同使得它们在研究中的作用不同，获取方式分为2种，O为录音法，1为剪辑法。4)、语言类别C为中文，E为英文，为以后的情感语音数据上作了准备。5)、录音人编号我们对录音人信息加以记录并编号，根据现有录音人规模，录音人标示占据2个数字，范围从01~99。6)、录音文本编号我们将情感语音文本记录下来，并加以编号，根据现有语音文本的规模，录音文本标识占据2个数字，范围从01~99。7)、录音次数标识了一个录音文本一类情感表达的次数，占据l个数字，范围为1~9。歩骤2.收集情感语音数据首先，进行语音情感诱导。语音情感的真实度可以分为自然、半自然和模仿3个等级。我们采用了以下的诱发方法导演给定录音脚本和情感类别，录音者随意联想后录音；导演给录音者描述真实的脚本场景，然后录音；导演给出相应的录音脚本范例，录音者听后进行模仿发音录音。这几种方法依次进行，情感的真实度会相对越来越差。因此我们在录音中从上面第一种方法开始诱发，一旦能录制符合要求的情感语音，即结束此人的录音。如果失败则启用第二种方法，以此类推，尽可能录制到情感真实度高的语音。其次，进行录制具体包括如下步骤1)、录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用华硕M2413N-DR笔记本电脑，外接创新Audigy2NXUSB接口声卡，头带式麦克风，录音软件采用的是GoldWave，录音时只有操作者和说话者在场，尽量保持室内安静；2)、记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形不会出现削顶；3)、请说话者以指定的情感朗读某一录音脚本，重复三遍-,4)、请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率11025Hz,16Bit双声道PCM编码格式的WAV文件，否则重复步骤3);5)、分别以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静7种情感状态和20句录音脚本重复步骤3)和步骤4);6)、采用GoldWave软件对步骤5)得到的语音文件进行拆分，得到420句情感语音；7)、更换说话者重复步骤2)至步骤6)，共得到7男8女15名说话者的6300条情感语音数据；步骤3.情感语音有效性评测，即由区别于说话者的至少十名评测者对的情感语音数据进行主观听取评测实验。为了保证语音表达情感的有效性，建立基于.NET平台的情感语音有效性评价系统，对采集的情感语音进行了主观听取评测实验，每句样本至少由IO人进行评测，根据评测结果，本文从所有样本中选择了6套数据集，其中每套数据集中的语句所表达的情感至少被p。/。的评测者认同(p-50，60,70，80,90和100)，这些数据集分别用s50，s60，s70，s80,s90和s100来表示，例如，若共有IO人对某一情感语音样本进行了评测，有7人的评测结果与该样本所对应的情感一致，则该样本可以属于s50，s60，s70三个数据集。图2显示了各数据集中样本的数量以及不同种情感的语句所占的比例。其中折线表示不同数据集中的样本总数，柱状图表示不同种情感语句在每个数据集中所占的比例。可以看出，随着对样本情感可靠性要求的提高(从s50到s100),样本数量依次减少，同时样本的情感分布发生了相应的变化在s50中六种情感语句接近均匀分布，随着情感有效性要求的提高，愤怒、惊奇和平静情感的样本在数据集中所占比例逐渐增大，悲伤、恐惧和厌恶样本所占的比例下降。可见愤怒和喜悦更容易被人类识别，而恐惧和厌恶则容易互相混淆。二、汉语语音情感信息建模方法，该方法步骤如下步骤l、提取语音情感特征，确定区分各种情感类别的特征组合；1)对原始语音信号经高通滤波器预处理，分帧，加窗；2)对预处理后的语音信号提取短时能量、短时过零率、基音周期、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数；3)通过对预处理后的语音信号进行平坦小波重建得到低频带语音信号；4)提取低频带语音信号的短时能量、短时过零率、基音周期、LPCC、MFCC、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数，与步骤2)得到的特征参数结合，得到包含400余种特征参数情感语音特征库；5)从情感语音特征库中选取不同的特征组合进行语音情感一对一分类判决实验，得到适合不同情感类别间分类的特征组合；其中，MEL子带能量反映了能量在MEL频率上的分布。人耳的听觉频率在普通频率尺度上大致呈对数分布关系，人们提出MEL频率尺度来模拟人耳这一听觉特征。普通频率y到MEL频率的转化关系为妮(/)=2595log<formula>formulaseeoriginaldocumentpage11</formula>MEL子带能量就是将每帧语音的幅度谱通过一组在MEL频率上等距离分布且相互交叠的三角形滤波器后，计算得到的每个滤波器输出的对数平均能量。频谱质心参数是用各频率幅度作为加权系数得到的频率中心，该参数反映了声道中紧縮点的紧缩程度，其计算公式如式所示<formula>formulaseeoriginaldocumentpage11</formula>(2)其中为第"条谱线所对应的幅度。截止频率参数用来表示高频能量衰减的程度，其计算过程就是确定频谱能量从低频积累到占总能量85%时的频率点。公式如式(3):<formula>formulaseeoriginaldocumentpage11</formula>(3)其中为第"条谱线所对应的幅度。对每组特征序列进行时间域上的全局处理，从而得到反映其变化特征、趋势的全局衍生参数；采用能零积包罗的谷点作为分段点对全局进行分段后再处理，如分段Mel子带能量差分均值的方差。如下表5是对九种基本特征求取衍生参数说明。<table>tableseeoriginaldocumentpage12</column></row><table>表5歩骤2、采用不同的特征组合训练多级语音情感识别系统的SVM模型，即采用从情感语音特征库中选取不同的特征组合进行语音情感一对一分类判决实验，得到适合不同情感类别间分类的特征组合，设计多极SVM分类系统，以不同的特征组合训练各级SVM模型SVM是解决两类分类问题的。对于N类问题(N〉2)，目前常用的实现方法有"一对多"与"一对一"两种。所谓"一对多"，是指设计N个两类分类器，每一个分类器对一个类别的数据与其余N-l个类别的数据按照两类分类方法进行区分；而"一对一"方法是釆用N(N-l)/2分类器，即每两个类别之间设计一个分类器进行分类判决，所有分类器合起来构成一个相当于投票机的分类系统，分类时哪个类别得票最多则数据被判为哪类。"一对多"分类系统较为简单，但是分类能力要弱于"一对一"；相对地，"一对一"尽管分类能力更强，但是分类系统要复杂，尤其当类别增多的时候。不同于这两种多类分类方式，本文根据语音情感分类问题的特点建立了一个多级分类系统，对于愤怒、喜悦、悲伤、厌恶4种情感进行分类，只需要3个分类器；对于加上惊奇、恐惧的6种情感进行分类，只需要5个分类器。该方法的构建基础为对两两分类实验的分析对语音进行情感分类，不同情感间的区分度是不相同的，例如愤怒和悲伤、恐惧、厌恶是很容易区分的，在一对一分类实验中获得了较高的识别率，且分类用的语音特征向量存在一致性；相反，愤怒和喜悦、惊奇要难区分的多，在一对一分类实验中的识别率甚至不能达到60%。本文所设计的基于SVM的多级语音情感分类系统如图3所示,每个分类器所使用的语音信号特征如下表6所示。页分类级号频段分类器输入语音特征组合1全频段幅度绝对值短时和一阶差分的全局最大值；幅度平方均值一阶差分的全局最大值；基音曲线一阶差分的全局最大值全频段幅度绝对值短时和一阶差分的全局最大值；Mel子带能量一阶差分的全局最大值、平均值频谱质心、频率截至参数一、二阶差分的全局平均值、最大值；分段Mel子带能量均值的全局方差2b低频段幅度绝对值短时和一阶差分的全局最大值频谱质心、频率截至参数一、二阶差分的全局平均值、最大值3a全频段幅度绝对值短时和一阶差分的全局最大值；频谱质心、频率截至参数一、二阶差分的全局平均值、最大值3b低频段Mel子带能量一阶差分的全局最大值、平均值频率截至参数一、二阶差分的全局平均值、最大值；基音曲线一阶差分的全局最大值；过零率一阶差分的全局最大值；分段Mel子带能量均值的全局方差表6步骤3、验证该分类模型的识别效果；采用交叉留一法进行说话人不相关的语音情感识别，即选取数据库中两男两女的情感语音数据，任取其中三人的数据作为训练数据，训练多级SVM模型，另外一人的数据作为测试数据，验证该模型识别情感语音的正确率，选择不同的训练和测试数据集，得到四组识别结果，最后取其平均；结果如下表7所示。与基于SVM的"一对多"语音情感分类系统相比，本系统具有更简单的结构，且针对不同情感类别使用不同情感特征组合获得了较好的识别效果。分类级数情感类别集合识别率(％)类别集合1类别集合21愤怒、喜悦、惊奇悲伤、厌恶、恐惧87.4愤怒喜悦、惊奇75.52b悲伤厌恶、恐惧76.43a惊奇喜悦67.23b厌恶恐惧68.3愤怒、喜悦、惊奇、恐惧、厌恶、悲伤六情感多级识别平均识别率54.2表71权利要求1、一种汉语语音情感信息的提取方法，其特征在于该提取方法步骤如下步骤1制定情感语音数据库规范，包括发音人规范、录音脚本设计规范、音频文件命名规范等；步骤2收集情感语音数据步骤2.1录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用华硕M2413N-DR笔记本电脑，外接创新Audigy2NXUSB接口声卡，头带式麦克风，录音软件采用的是GoldWave，录音时只有操作者和说话者在场，尽量保持室内安静；步骤2.2记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形不会出现削顶；步骤2.3请说话者以指定的情感朗读某一录音脚本，重复三遍；步骤2.4请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率11025Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤2.3；步骤2.5分别以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静7种情感状态和20句录音脚本重复步骤2.3和步骤2.4；步骤2.6采用GoldWave软件对步骤2.5得到的语音文件进行拆分，得到420句情感语音；步骤2.7更换说话者重复步骤2.2至步骤2.6，得到15名说话者，包括7男8女，共6300条情感语音数据；步骤3情感语音有效性评测，即由区别于说话者的至少十名评测者对步骤2.7得到的情感语音数据进行主观听取评测实验。2、一种汉语语音情感信息的建模方法，其方法步骤如下歩骤h提取语音情感特征，确定区分各种情感类别的特征组合；步骤1.1:对原始语音信号经高通滤波器预处理，分帧，加窗；步骤1.2:对预处理后的语音信号提取短时能量、短时过零率、基音周期、线性预测倒谱系数、MEL频率倒谱系数、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数；步骤1.3:通过对预处理后的语音信号进行平坦小波重建得到低频带语音信号；步骤1.4:提取低频带语音信号的短时能量、短时过零率、基音周期、线性预测倒谱系数、MEL频率倒谱系数、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数，与步骤1.2得到的特征参数结合，,得到包含400余种特征参数情感语音特征库；步骤1.5:从情感语音特征库中选取不同的特征组合进行语音情感一对一分类判决实验，得到适合不同情感类别间分类的特征组合；步骤2:采用不同的特征组合训练多级语音情感识别系统的SVM模型；步骤3:验证该分类模型的识别效果即采用交叉留一法验证语音情感多极分类模型在说话人无关情况下的分类效果。3、根据权利要求1所示的汉语语音情感信息的提取方法，其特征在于所述的交叉留一法，是指选取数据库中两男两女的情感语音数据，任取其中三人的数据作为训练数据，训练多级SVM模型，另外一人的数据作为测试数据，验证该模型识别情感语音的正确率，选择不同的训练和测试数据集，得到四组识别结果，最后取其平均值。全文摘要本发明一种汉语语音情感信息的提取及建模方法，该汉语语音情感信息的提取方法为制定情感语音数据库规范，包括发音人规范、录音脚本设计规范、音频文件命名规范等；收集情感语音数据；情感语音有效性评测，即由区别于说话者的至少十名评测者对情感语音数据进行主观听取评测实验。该汉语语音情感信息的建模方法为提取语音情感特征，确定区分各种情感类别的特征组合；采用不同的特征组合训练多级语音情感识别系统的SVM模型；验证该分类模型的识别效果即采用交叉留一法验证语音情感多极分类模型在说话人无关情况下的分类效果。本发明解决了国内情感语音数据库情感种类较少以及国内情感语音数据库匮乏的问题，同时实现了高效的语音情感识别系统。文档编号G10L15/28GK101261832SQ20081010454公开日2008年9月10日申请日期2008年4月21日优先权日2008年4月21日发明者峡毛,陈立江申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛峡;陈立江
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：一种印刷机印刷单元的降噪方法
上一篇：一种大开角叠堆晶片发射换能器的制作方法