一种基于向量机svm的说话者年龄段识别方法

文档序号：2834993阅读：289来源：国知局

专利名称：一种基于向量机svm的说话者年龄段识别方法
技术领域：
本发明涉及模式识别技术领域,尤其是一种基于支持向量机(Support VectorMachine, SVM)的说话者年龄段识别方法。
背景技术：
目前，关于语音识别，说话者识别等方面的研究技术已比较成熟。在此基础上展开的其他相关研究，比如汉语语音情感识别，说话者性别识别，音频分类与识别等方向也都有人提出相应的解决方法。但是，有关说话者年龄段的识别却几乎没有研究涉及到，而说话者年龄段识别却是可以应用于很多的场合，比如人机对话系统中，机器识别出说话者的年龄段，即可采用相应年龄段的机器语音回答，增加人机交互中的亲切感；或者在一些案件的侦破中，可以由声音资料识别出的嫌疑人的年龄层，减小目标搜索范围等。故本发明提出的一种说话者年龄段的识别方法，能够为相关场合的开发应用提供理论基础。通常，人的年龄可以被粗略地分为以下几个阶段，儿童阶段(O 11岁)，少年阶段(12 17岁)，青年阶段(18 34岁)，中年阶段(35 50岁)，老年阶段(50岁以上)等。随着人年龄的增长，同一个人在不同的阶段，说话的声音也是渐渐变化的；而处于相同年龄段的人发出的语音则是有共性的。本发明就是围绕每个年龄段的说话者发出的语音都有对应年龄段的特色这一特征展开。由于SVM分类方法在音频分类，说话者性别识别，图像识别等识别应用中效果很好。所以，本发明采用SVM模型进行分类识别。语音特征参数中的美尔倒谱系数MFCC是以人耳朵的听觉特性为基础导出的声学特征。因为人耳朵所能听到的声音实际上与声音的频率并不是简单的线性关系。研究显示，人耳对声音频率的感知在IKHz以下时遵循近似线性关系，而对频率在IKHz以上的声音则遵循对数频率坐标上的近似线性关系。MFCC则是在美尔标度频率域提取出的倒谱参数，该参数弱化了语音谱的高频成分，并且对噪声具有适应性，故使用此参数作为SVM分类器训练识别的特征参数。

发明内容
本发明的目的是采用SVM分类器结合语音信号的特征参数MFCC，实现说话者年龄段的判断，使其能够应用于有需要的场合，具体过程是提取可以区分说话者年龄段的语音信号特征参数，利用SVM训练并识别出说话者所属的年龄段。为实现上述目的，本发明提出的一种基于支持向量机SVM的说话者年龄段识别方法包括以下步骤:步骤1，建立存储有多个不同年龄段的说话者的语音信号的语音库；步骤2，对所述语音库中的语音信号进行预处理；步骤3，对经过预处理的语音信号提取其语音特征参数；步骤4,基于提取出的语音特征参数进行支持向量机训练,得到支持向量机模型；步骤5，根据所述步骤4训练得到的支持向量机模型，对待识别语音的语音特征参数X进行预测，在预测过程中，每个支持向量机的输出通过逻辑判决后，选择得票最多的作为最可能的年龄段类别，由此得到最终的年龄段识别结果。综上，本发明提供了一种识别说话者年龄段的方法，由于目前基本没有关于说话者年龄段的识别研究，故本发明的应用前景比较广阔，比如，可以将其应用于人机交互，刑侦搜索，网上聊天，游戏娱乐等多种场合。另外，本发明采用支持向量机分类器并结合语音信号的典型特征参数，来识别说话者所属的年龄段。本发明方法中提取的特征参数MFCC符合人耳听觉特性，经过训练可以有效地区分出不同年龄段的说话者。该参数对噪声也具有适应性，在说话者识别领域得到了很广泛的应用。而SVM分类器可以实现特征参数的降维，在分类识别的应用场合具有比较好的分类效果。本发明将不同年龄段语音的MFCC参数利用SVM训练，再将待测语音参数进行预测识别，可以比较好的实现说话者年龄段的判断。但是，由于说话者在各个年龄段分界处，说话的声音随时间变化缓慢，故各年龄段边缘的语音较难识别，另外，个别说话者的语音特色可能跟相应的年龄段语音特色不一致，这个也将增加识别的难度。综上所述，预计本发明对于各个年龄段的平均识别率可达70%以上。

图1是本发明基于支持向量机SVM的说话者年龄段识别方法流程图；图2是根据本发明一实施例的SVM训练流程图；图3是根据本发明一实施例的SVM判决识别图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。图1为本发明基于支持向量机SVM的说话者年龄段识别方法流程图，如图1所示，该方法具体包括以下步骤:步骤1，建立存储有多个不同年龄段的说话者的语音信号的语音库，所述语音信号以短语为单元；该步骤中，首先采用录音笔或其他录音设备采集不同年龄段的说话者的语音，采样率可统一为16KHz，16bit，单声道，在本发明一实施例中，每个年龄段录制20名说话者(包括10男10女)，语言脚本即语音内容为经典散文《荷塘月色》《背影》等，每篇读I遍；然后再将录制好的语音切割为以短语为单元的语音片段信号。步骤2，对所述语音库中的语音信号进行预处理；该步骤中，所述预处理进一步包括以下步骤:步骤21，对语音信号进行采样量化；步骤22，为了去除口鼻辐射的影响，提升信号的高频部分，对量化后的语音信号采用下式进行预加重处理:H(Z) = 1-0.9375Z—1其中，z表示语音信号，H(z)表示经过预加重处理后得到的语音信号；步骤23，由于所述语音信号以短语为单元，短语中各个字间有间隔，故需采用基于能量和过零率的端点检测方法去掉每个语音信号中的无声段。
其中，所述端点检测方法采用两级判决法，进一步包括以下步骤:步骤231，将所述语音信号进行短时分帧处理，帧长取20ms，语音信号采样率为16KHz,即320个采样点，得到多个语音帧；步骤232，计算每一语音帧的短时能量及短时过零率；步骤233，根据所有语音帧的平均能量设置一个较高的判决门限E1，将各语音帧的短时能量的大小与所述门限El进行比较，得到初步判定的每一语音帧的语音起止点，该语音起止点位于所述门限El与语音帧短时能量包络的交点所对应的时间间隔之外；步骤234，根据背景噪声的平均能量设置一个稍低的判决门限E2，在所述步骤233初步判定的结果上确定每一语音帧的语音起止点，即每一语音帧的端点；步骤235，根据所述背景噪声的平均过零率设置一个门限Z1，基于所述每一语音帧的端点，判断语音前端的清音和后端的尾音，最终得到每一语音帧中有声段和无声段的端点。步骤3，对经过预处理的语音信号提取其语音特征参数；该步骤中，所述语音特征参数取为MFCC，在本发明一实施例中，MFCC比如可以为12维。所述语音特征参数提取的过程可包括以下步骤:步骤31，将所述语音信号的语音频率划分成一系列三角形的Mel滤波器序列；步骤32，取每个三角形的Mel滤波器序列频率带宽内所有信号幅度的加权和作为相应滤波器的输出；步骤33，对所有滤波器的输出作对数运算；步骤34，对所述步骤33得到的结果进行离散余弦变换即可得到MFCC。步骤4，基于所述提取出的语音特征参数进行SVM训练，得到SVM模型；如图2所示，所述SVM训练的过程包括以下步骤:步骤41，将所述提取出的各个不同年龄段的语音特征参数MFCC作为特征矢量；步骤42，为各个不同年龄段的语音特征参数加上类别标签，在本发明一实施例中，共5种年龄段(儿童阶段，少年阶段，青年阶段，中年阶段，老年阶段)，即5类数据，将五种年龄段分别设为{1，2，3，4，5}5类标签进行处理；步骤43，将所述特征矢量归一化，并按比率缩放，缩至[_1，+1]范围内；步骤44，对各个不同年龄段归一化后的特征矢量进行训练，比如可使用台湾大学林智仁教授等开发设计的LIBSVM的工具包svmtrain进行训练(见C.-C.Chang andC.-J.Lin.LIBSVM:a library for support vector machines.ACM Transactions onIntelligent Systems and Technology, 2:27:1—27:27, 2011.),得到支持向量机集合，其中由于本发明一实施例中采用“一对一”法进行5类分类，故训练结果中包含10个分类器。其中，SVM中所使用的核函数选择径向基核函数:K(X7Xi) = exp (—Y | I X-Xi I |2)其中，参数Y取为0.001，X，Xi均为输入特征矢量。步骤5，如图3所示，根据所述步骤4训练得到的SVM模型，对待识别语音的语音特征参数X进行预测，比如可使用LIBSVM的svmpredict进行预测,在预测过程中，每个支持向量机的输出通过逻辑判决后，选择得票最多的作为最可能的年龄段类别，由此可以得到最终的年龄段识别结果。
其中，在对待识别语音的特征参数X进行预测之前，所述步骤5还包括对待识别语音特征参数归一化，即对所述语音特征参数按照参数训练时相同的比率缩放:缩至[-1，+1]范围内。以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种基于支持向量机SVM的说话者年龄段识别方法，其特征在于，该方法包括以下步骤: 步骤1，建立存储有多个不同年龄段的说话者的语音信号的语音库；步骤2，对所述语音库中的语音信号进行预处理；步骤3，对经过预处理的语音信号提取其语音特征参数；步骤4,基于提取出的语音特征参数进行支持向量机训练,得到支持向量机模型；步骤5，根据所述步骤4训练得到的支持向量机模型，对待识别语音的语音特征参数X进行预测，在预测过程中，每个支持向量机的输出通过逻辑判决后，选择得票最多的作为最可能的年龄段类别，由此得到最终的年龄段识别结果。
2.根据权利要求1所述的方法，其特征在于，所述语音信号以短语为单元。
3.根据权利要求1所述的方法，其特征在于，所述步骤2中，所述预处理进一步包括以下步骤: 步骤21，对语音信号进行采样量化；步骤22，对量化后的语音信号进行预加重处理；步骤23，采用基于能量和过零率的端点检测方法去掉每个语音信号中的无声段。
4.根据权利要求3所述的方法，其特征在于，所述预加重处理表示为:H(Z) = 1-0.9375z-1，其中，z表示语音信号，H(z)表示经过预加重处理后得到的语音信号。
5.根据权利要求3所述的方法，其特征在于，利用所述端点检测方法检测无声段包括以下步骤: 步骤231，将所述语音信号进行短时分帧处理，得到多个语音帧；步骤232，计算每一语音帧的短时能量及短时过零率；步骤233，根据所有语音帧的平均能量设置一个较高的判决门限E1，将各语音帧的短时能量的大小与所述门限El进行比较，得到初步判定的每一语音帧的语音起止点；步骤234，根据背景噪声的平均能量设置一个稍低的判决门限E2，在所述步骤233初步判定的结果上确定每一语音帧的语音起止点，即每一语音帧的端点；步骤235，根据所述背景噪声的平均过零率设置一个门限Z1，基于所述每一语音帧的端点，判断语音前端的清音和后端的尾音，最终得到每一语音帧中有声段和无声段的端点。
6.根据权利要求5所述的方法，其特征在于，所述帧长取20ms，语音信号采样率为16KHz，即320个采样点。
7.根据权利要求1所述的方法，其特征在于，所述语音特征参数取为美尔倒谱系数MFCC。
8.根据权利要求7所述的方法，其特征在于，所述语音特征参数提取的步骤包括以下步骤: 步骤31，将所述语音信号的语音频率划分成一系列三角形的Mel滤波器序列；步骤32，取每个三角形的Mel滤波器序列频率带宽内所有信号幅度的加权和作为相应滤波器的输出；步骤33，对所有滤波器的输出作对数运算；步骤34，对所述步骤33得到的结果进行离散余弦变换得到MFCC。
9.根据权利要求1所述的方法，其特征在于，所述支持向量机训练的步骤进一步包括: 步骤41，将提取出的各个不同年龄段的语音特征参数作为特征矢量；步骤42，为各个不同年龄段的语音特征参数加上类别标签；步骤43，将所述特征矢量归一化，并按比率缩放，缩至[_1，+1]范围内；步骤44，对各个不同年龄段归一化后的特征矢量进行训练，得到支持向量机集合。
10.根据权利要求1所述的方法，其特征在于，所述步骤5在对待识别语音的特征参数X进行预测之前，还包括对待识别语音特征参数归一化，并将其缩至[-1，+1]范围内的步骤。
全文摘要
本发明公开了一种基于SVM分类器进行说话者年龄段识别的方法，该方法包括以下步骤建立存储有不同年龄段的说话者的语音信号的语音库；对语音库中的语音信号进行预处理；对经过预处理的语音信号提取其语音特征参数；基于提取出的语音特征参数进行支持向量机训练，得到支持向量机模型；根据支持向量机模型，对待识别语音的语音特征参数X进行预测，在预测过程中，每个支持向量机的输出通过逻辑判决后，选择得票最多的作为最可能的年龄段类别，得到最终的年龄段识别结果。本发明提出的方法在一定程度上弥补了现有技术对说话者年龄段识别相关研究的空白，可以较好地进行说话者年龄段判断，在人机交互，刑侦搜索，游戏娱乐等场合具有广阔的应用前景。
文档编号G10L15/02GK103151039SQ20131004944
公开日2013年6月12日申请日期2013年2月7日优先权日2013年2月7日
发明者熊刚, 孔庆杰, 朱菁, 王飞跃, 赵红霞, 朱凤华申请人:中国科学院自动化研究所, 东莞中国科学院云计算产业技术创新与育成中心

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊刚;孔庆杰;朱菁;王飞跃;赵红霞;朱凤华
技术所有人：中国科学院自动化研究所;东莞中国科学院云计算产业技术创新与育成中心
我是此专利的发明人

上一篇：高保真自动伴奏演唱摄像系统的制作方法
上一篇：基于移动通讯终端及眼镜的显示及语音输出方法及系统的制作方法