专利名称:一种嵌入式语音情感识别方法及装置的制作方法
技术领域:
本发明专利涉及一种语 音情感识别技术,尤其涉及一种嵌入式语音情感识别方法及装置,属于语音情感识别技术领域。
背景技术:
自动语音情感识别技术属于IT行业比较边缘的技术。语音作为人与人之间的交流媒介,携带着丰富的情感信息。情感在人类的感知、决策等过程扮演着重要角色,在人类交流中具有重要作用。随着科技的发展,人机交流在人们的日常生活中也越来越重要。利用语音进行自然、和谐的人机交互是人们一直以来的奋斗目标。语音情感识别是和谐人机交互的一个重要内容,它将有效地改变过去呆板的人机交互服务,提高人机交互的亲切性和准确性。语音情感识别作为语音识别的一种补充,能够增强人与机器的情感交互,在远程教学、辅助测谎、自动远程电话服务中心以及临床医学,智能玩具,智能手机等方面有着广阔的应用前景。嵌入式语音情感识别技术,特指在电脑以外的独立装置上运行的情感识别技术,尤其是应用于语音玩具、智能宠物及其它嵌入式产品上的技术。传统的语音产品要求用户以近乎中性的方式发出语音命令,带强烈情感色彩的语音反而会影响语音识别效果,有时候这种苛刻而且不够人性化的条件会打消用户的积极性,这是现在语音产品的一大缺陷。将情感融入到语音产品中去,可以在语音产品的使用上给予用户更大的自由度,提升用户体验,这也是智能交互语音产品发展的一大方向。以智能交互语音玩具为例,如果智能交互玩具能够识别用户语音中的情感,对语音中不同的情感做出不同的回应,可以从一定程度上改善了电子玩具不够人性化的缺点,增强玩具使用的亲和性、趣味性。推而广之,嵌入式语音情感识别技术可以实现人与机器更好的交流与互动。显然,这种需求在当前的社会上是存在的,但是目前还未见国内市场上推出带情感识别功能的嵌入式产品,不能不说是一大遗憾。
发明内容
本发明解决的问题是为克服传统语音情感识别在非特定人时识别率不高的缺陷,同时为解决市面上缺乏具有良好人机交互功能的语音情感识别装置的问题,结合以上背景和需求,本发明提供一种嵌入式语音情感识别方法及其装置,这种系统能够在小型嵌入式设备中识别说话人的平静、高兴、生气、害怕、平静等情感,根据说话人语音携带的不同情感采取不同的操作。本发明的技术解决方案是I、一种嵌入式语音情感识别方法,包括以下步骤步骤I :接收待识别的情感语音片断输入;步骤2 :对待识别的情感语音片断数字化以提供数字语音信号;步骤3 :对待识别的情感数字语音信号X(η)进行预处理,包括预加重、分帧、加窗、端点检测步骤3. I :对待识别的情感数字语音信号X (η)按下面进行预加重
权利要求
1.一种嵌入式语音情感识别方法,其特征在于,包括以下步骤 步骤I:接收待识别的情感语音片断输入; 步骤2 :对待识别的情感语音片断数字化以提供数字语音信号; 步骤3 :对待识别的情感数字语音信号X(η)进行预处理,包括预加重、分帧、加窗、端点检测 步骤3. I :对待识别的情感数字语音信号X (η)按下面进行预加重X(n) = X{r>)-aX(n-l)(I) 式中α =0. 9375,η表示待识别的情感数字语音离散点序号; 步骤3. 2 :采用交叠分段的方法进行分帧,前一帧与后一帧之间有交叠的部分,称为帧移,此处帧移取7ms,即在11. 025kHz采样率下取80个点,每一帧长取23ms,即取256个点;步骤3. 3 :选择汉明窗对语音信号进行加窗处理,窗口函数如下
2.根据权利要求I所述的嵌入式语音情感识别方法,其特征是,步骤4中对经过预处理的数字语音提取语音特征参数采用如下方法 步骤4. I:在时域信号X(n')后增补0,使得增补O后的序列的长度为N',使N'为2的整数次幂,然后经过离散傅立叶变换DFT后得到线性频谱X (k),转换公式为
3.根据权利要求I所述的嵌入式语音情感识别方法,其特征在于,所述的说话人识别模型训练方法包括以下步骤 步骤5. I :接收各说话人训练语音片断输入; 步骤5. 2 :对说话人训练语音片断数字化以提供数字语音信号X(Ii1),其中Ii1表示说话人训练数字语音离散点序号; 步骤5. 3 :采用步骤3所述的预处理,对数字语音信号X(Ii1)进行预处理,包括预加重、分帧、加窗、端点检测,得到说话人训练数字语音信号X(n/ ); 步骤5. 4 :对经过预处理的数字语音X (n/ )提取语音特征参数,该特征参数为12维美尔频率倒谱系数; 步骤5. 5 :利用步骤4提取的语音特征参数来训练说话人识别模型,具体步骤如下 步骤5. 5. I :设置说话人识别模型的的混合高斯模型的阶数为4 ; 步骤5. 5. 2 :用K均值方法(kmeans)初始化说话人识别模型,得到各高斯分布的初始化参数均值向量μ k,协方差矩阵Σ k,混合分量权值ck,其表示第k个说话人对应的初始化子模型参数; 步骤5. 5. 3 :设第c个说话人训练语音的第t个特征参数Xct为 |/ = LA J-C= I,A ,('!,其中T。表示第c个说话人训练语音的帧数,C表示训练样本的总数,按照下面的公式对高斯分布的初始化参数进行重新估计,令e=i,l,f=i,其中m示对应的说话人,得到各说话人识别子模型参数
4.根据权利要求I所述的嵌入式语音情感识别方法,其特征在于,所述的与语音情感识别模型库的训练方法包括以下步骤 步骤7. I :接收I个说话人情感训练语音片断输入; 步骤7.2 :对情感训练语音片断数字化以提供数字语音信号Χ(η2),其中112表示情感训练数字语音离散点序号; 步骤7. 3 :采用步骤3所述的预处理,对情感训练数字语音信号X (η)进行处理,得到情感训练数字语音信号Χ(η' 2); 步骤7. 4 :对经过预处理的数字语音提取语音特征参数,该特征参数为12维美尔频率倒谱系数; 步骤7. 5 :利用步骤4提取的语音情感特征参数来训练语音情感模型,具体步骤如下 步骤7. 5. I :设置语音情感识别模型的的混合高斯模型的阶数为10 ; 步骤7. 5. 2 :用K均值方法kmeans初始化语音情感识别模型的的各高斯分布的均值向量μ' k',协方差矩阵Σ' k',混合分量权值c' k'; 步骤7. 5. 3:采用步骤5. 3所述的情感训练语音,设第c'个情感训练语音的第t'个特征参数为IV / c/ It' =1,L,T' e;c' =1,L,C' },其中T'。表示第c'个情感训练语音的帧数,C1表示情感训练语音样本总数,按照下面的公式对混合高斯模型参数进行重新估计,令k' =l,L,k' =K',形成训练好的与该说话人对应的语音情感识别模型,并建立与该说话人对应的文件夹,其中k'表示情感语音对应的情感,即该说话人情感识别模型包含K'个情感子模型
5.一种权利要求书I所述的嵌入式语音情感识别方法的运行装置,该装置主要包括中央处理器(101 )、电源(102)、时钟发生器(103)、Nand型闪存(104)、Nor型闪存105)、音频编解码芯片(106)、话筒(107)、扬声器(108)、键盘(109)、液晶显示器(110)、通用串型总线接口大容量存储设备(111),其特征是,所述Nor型闪存(105)保存装置的操作系统,文件系统,引导加载模块,所述中央处理器(101)米用基于ARM架构的32位嵌入式微处理器为内核,所述Nand型闪存(104)保存语音识别方法的软件实现,包括语音预处理方法、特征提取方法、情感模型训练模块、高斯混合模型情感识别模型;所述通用串型总线接口大容量存储设备(111)保存包括音乐、图片的资源文件。
6.根据权利要求7所述的嵌入式语音情感识别装置,其特征在于,所述Nand型闪存(104)、Nor型闪存105)通过外部总线接口与中央处理器(101)相连;所述时钟发生器 (103)与中央处理器(101)相连,提供时钟频率;所述音频编解码芯片(106)通过音频接口与中央处理器(101)相连;所述液晶显示器(110)通过液晶控制接口与中央处理器(101)相连;所述键盘(109)通过输入接口与与中央处理器(101)相连;所述通用串型总线接口大容量存储设备(111)通过通用串行总线接口与中央处理器(101)相连;所述话筒(107)、扬声器(108)通过接口与音频编解码芯片(106)相连。
7.根据权利要求7所述的嵌入式语音情感识别装置,其特征在于,该装置包含两种工作模式,分别为训练模式和识别模式,两种工作模式的选择由权利8所述小键盘装置(109)来控制,整个过程步骤如下 步骤I :接收小键盘装置(109)的按键输入,判断是否输入为识别模式,是识别模式则进入步骤2,是训练模式则进入步骤13 ; 步骤2 :利用话筒107接收语音片断输入; 步骤2 :利用音频编解码芯片(106)对语音片断数字化以提供数字语音信号; 步骤3 :对数字语音信号进行预处理,包括预加重、分帧、加窗、端点检测; 步骤4 :对经过预处理的数字语音提取语音特征参数,该特征参数为12维美尔频率倒谱系数; 步骤5 :将提取的语音特征参数输入到已经训练好说话人识别模型中,确定哪一个说话人是该语音片断的一个最佳匹配; 步骤6 :根据判定结果,来确定哪种情感是该语音片断的一个最佳匹配。
步骤7 :如识别结果为平静,首先通过装置IXD (110)显示表征结果的图片及汉字“平静”,然后扬声器(108)播放通用串型总线接口大容量存储设备(111)中对应的音频文件; 步骤8 :如识别结果为高兴,首先通过装置IXD (110)显示表征结果的图片及汉字“高兴”,然后扬声器(108)播放存通用串型总线接口大容量存储设备(111)中对应的音频文件; 步骤9:如识别结果为悲伤,首先通过装置IXD (110)显示表征结果的图片及汉字“悲伤”,然后扬声器(108)播放通用串型总线接口大容量存储设备(111)中对应的音频文件; 步骤10 :如识别结果为悲伤,首先通过装置IXD (110)显示表征结果的图片及汉字“生 气”,然后扬声器(108)播放通用串型总线接口大容量存储设备(111)中对应的音频文件;步骤11 :如识别结果为害怕,首先通过装置IXD (110)显示表征结果的图片及汉字“害怕”,然后扬声器(108)播放通用串型总线接口大容量存储设备(111)中对应的音频文件;步骤12 :接收小键盘装置(109)的按键输入,判断为哪种训练模式,为整批训练模式则进入步骤13,为及时训练模式则进入步骤14 ; 步骤13 :装置进入整批训练流程; 步骤13. I :接收语音片断输入,并判断是否到达整批训练的数量设定值,是则进入步骤13. 2,否则重新进入步骤13. I ; 步骤13. 2 :对输入的语音进行预处理; 步骤13. 3 :对经过预处理的语音提取语音特征参数;、 步骤13. 4 :训练说话人识别模型; 步骤13. 5 :训练语音情感识别模型库; 步骤14 :装置进入即时训练流程; 步骤14. I :接收I条语音片断输入; 步骤14. 2 :对输入的I条语音进行预处理; 步骤14. 3 :对经过预处理的I条语音提取语音特征参数; 步骤13. 4 :训练说话人识别模型; 步骤13. 5 :训练语音情感识别模型库。
全文摘要
本发明涉及一种嵌入式语音情感识别方法及装置。所述方法包括特征提取方法、情感模型训练方法、高斯混合模型、情感识别方法。该方法根据说话人模块的识别结果来自适应的调整语音情感识别模型的参数,将非特定人语音情感识别问题转化为特定人语音情感识别问题。所述装置包括中央处理器、电源、时钟发生器、Nand Flash存储器、Nor Flash存储器、音频编解码芯片、话筒、扬声器、键盘、LCD显示器、USB接口存储器。本发明在语音情感识别中加入说话人识别模型,解决了语音情感识别在非特定人的情况下识别率急剧下降的问题,同时使装置具有身份辨识功能。
文档编号G10L15/00GK102737629SQ20111035867
公开日2012年10月17日 申请日期2011年11月11日 优先权日2011年11月11日
发明者倪道宏, 刘海彬, 祖晖, 章国宝, 董飞, 黄永明 申请人:东南大学