一种性别年龄识别方法、装置、设备及可读存储介质与流程

文档序号：15739250发布日期：2018-10-23 22:00阅读：212来源：国知局

本发明涉及音频处理技术领域，更具体地说，涉及一种性别年龄识别方法、装置、设备及可读存储介质。

背景技术：

随着计算机技术的迅猛发展，人们希望计算机不仅仅能确认说话人，同时可以识别语义，性别年龄等更高层次的信息，从而使得机器与人之间产生更人性化的交互。

目前，对于性别年龄的识别，一般通过人物的面部图像或者肢体图像来进行，具体为：将人脸作为神经网络的输入，通过识别人脸面部器官及之间的距离，来对年龄和性别进行辨识。但是，由于图像数据一般比较大，从而导致处理过程较为繁琐，识别效率和准确率均有待提高。并且，由于现如今图像的美化修正手段较多，从而使呈现出的图像与原始图像差别较大，那么若图像采集与识别不是实时进行的，图像信息很可能被篡改或美化修正，如此便使得用于识别的图像与原始图像存在较大差别，从而导致识别结果差强人意。

因此，如何提高性别年龄的识别效率和准确率，是本领域技术人员需要解决的问题。

技术实现要素：

本发明的目的在于提供一种性别年龄识别方法、装置、设备及可读存储介质，以提高性别年龄的识别效率和准确率。

为实现上述目的，本发明实施例提供了如下技术方案：

一种性别年龄识别方法，包括：

获取目标人物的待识别语音数据，并提取所述待识别语音数据中的待识别i-vector特征；

将所述待识别i-vector特征与性别年龄识别模型中的目标i-vector特征进行匹配，并确定与所述待识别i-vector特征匹配度最大的目标i-vector特征；

将所述匹配度最大的目标i-vector特征对应的性别年龄，确定为所述目标人物的性别年龄。

其中，所述提取所述待识别语音数据中的待识别i-vector特征，包括：

对所述待识别语音数据进行预处理，所述预处理至少包括：预滤波、预加重、分帧、加窗、傅里叶变换、梅尔倒谱滤波和端点检测；

从预处理后的待识别语音数据中提取所述待识别i-vector特征。

其中，所述获取目标人物的待识别语音数据，包括：

获取所述目标人物的WAV格式的待识别语音数据。

其中，所述性别年龄识别模型的生成步骤为：

获取训练语音数据，并对所述训练语音数据进行预处理；

从预处理后的训练语音数据中提取MFCC特征，并基于所述MFCC特征训练得到不同年龄性别对应的GMM-UBM模型；

采用EM算法迭代计算所述不同年龄性别对应的GMM-UBM模型的类别i-vector特征；

采用LDA降维算法对所述类别i-vector特征进行降维处理，获得所述目标i-vector特征；

基于获得的目标i-vector特征生成所述性别年龄识别模型。

其中，所述采用EM算法迭代计算所述不同年龄性别对应的GMM-UBM模型的类别i-vector特征，包括：

针对每个GMM-UBM模型，计算所述GMM-UBM模型中各个说话人的超向量、协方差矩阵和抽取器；

通过所述EM算法的E步骤计算所述超向量、所述协方差矩阵和所述抽取器对应的训练i-vector特征；

通过所述EM算法的M步骤计算所述训练i-vector特征对应的优化抽取器，计算所述优化抽取器对应的超向量和协方差矩阵，并将所述优化抽取器对应的超向量和协方差矩阵输入至所述EM算法的E步骤，以进行训练i-vector特征的迭代计算。

其中，所述通过所述EM算法的E步骤计算所述超向量、所述协方差矩阵和所述抽取器对应的训练i-vector特征，包括：

通过所述EM算法的E步骤中的最大似然估计法，计算所述超向量、所述协方差矩阵和所述抽取器对应的训练i-vector特征。

一种性别年龄识别装置，包括：

获取模块，用于获取目标人物的待识别语音数据，并提取所述待识别语音数据中的待识别i-vector特征；

匹配模块，用于将所述待识别i-vector特征与性别年龄识别模型中的目标i-vector特征进行匹配，并确定与所述待识别i-vector特征匹配度最大的目标i-vector特征；

识别模块，用于将所述匹配度最大的目标i-vector特征对应的性别年龄，确定为所述目标人物的性别年龄。

其中，所述获取模块包括：

预处理单元，用于对所述待识别语音数据进行预处理，所述预处理至少包括：预滤波、预加重、分帧、加窗、傅里叶变换、梅尔倒谱滤波和端点检测；

提取单元，用于从预处理后的待识别语音数据中提取所述待识别i-vector特征。

一种性别年龄识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任意一项所述的性别年龄识别方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的性别年龄识别方法的步骤。

通过以上方案可知，本发明实施例提供的一种性别年龄识别方法，包括：获取目标人物的待识别语音数据，并提取所述待识别语音数据中的待识别i-vector特征；将所述待识别i-vector特征与性别年龄识别模型中的目标i-vector特征进行匹配，并确定与所述待识别i-vector特征匹配度最大的目标i-vector特征；将所述匹配度最大的目标i-vector特征对应的性别年龄，确定为所述目标人物的性别年龄。

可见，该方法通过获取待识别语音数据，并提取目标人物的待识别语音数据中的待识别i-vector特征；进而将待识别i-vector特征与性别年龄识别模型中的目标i-vector特征进行匹配，并确定与待识别i-vector特征匹配度最大的目标i-vector特征；从而将匹配度最大的目标i-vector特征对应的性别年龄，确定为目标人物的性别年龄。采用上述方法可通过语音数据识别出人物的性别和年龄。其中，由于人物的声纹信息隐藏在语音数据中，且在人物成年后声纹信息一般不会发生变化，因此基于语音数据识别人物的性别年龄，获得的识别结果较为准确。并且，由于i-vector特征是通过MFCC特征简化处理而得，所以基于语音数据中的i-vector特征进行识别匹配，一定程度上提高了识别效率。

相应地，本发明实施例提供的一种性别年龄识别装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种性别年龄识别方法流程图；

图2为本发明实施例公开的另一种性别年龄识别方法流程图；

图3为本发明实施例公开的一种性别年龄识别装置示意图；

图4为本发明实施例公开的一种性别年龄识别设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种性别年龄识别方法、装置、设备及可读存储介质，以提高性别年龄的识别效率和准确率。

参见图1，本发明实施例提供的一种性别年龄识别方法，包括：

S101、获取目标人物的待识别语音数据，并提取待识别语音数据中的待识别i-vector特征；

其中，所述提取待识别语音数据中的待识别i-vector特征，包括：

提取待识别语音数据中的MFCC特征，并基于所述MFCC特征训练得到所述目标人物对应的GMM-UBM模型；采用EM算法迭代计算所述待识别i-vector特征；并采用LDA降维算法对待识别i-vector特征进行降维处理。

由此可知，i-vector特征由MFCC特征计算而得。因此首先需要从语音数据中提取MFCC特征，MFCC特征向量一般为13维或者39维，而i-vector特征是基于MFCC特征计算而得且经过降维处理，其维度较低，进而使得识别过程变得较为简便。其中，i-vector特征可以通过extractor矩阵进行提取。

S102、将待识别i-vector特征与性别年龄识别模型中的目标i-vector特征进行匹配，并确定与待识别i-vector特征匹配度最大的目标i-vector特征；

具体的，所述性别年龄识别模型中预先存储了多个目标i-vector特征，每个目标i-vector特征对应一个类别的性别年龄。例如：将年龄划分为不同年龄段：18岁-28岁、28岁-38岁、38岁-48岁等，如此可划分为多个年龄段，每个年龄段分别对应男性和女性两个性别，即18岁-28岁对应的目标i-vector特征即为两个，分别为男性目标i-vector特征和女性目标i-vector特征，其他以此类推。当然，为了提高识别的准确率，也可以减小年龄段的跨度，例如每三岁划分一个年龄段。

S103、将匹配度最大的目标i-vector特征对应的性别年龄，确定为目标人物的性别年龄。

若确定出与待识别i-vector特征匹配度最大的目标i-vector特征，则匹配度最大的目标i-vector特征对应的性别年龄即为待识别i-vector特征对应的性别年龄，也即目标人物的性别年龄。

可见，本实施例提供了一种性别年龄识别方法，该方法通过获取待识别语音数据，并提取目标人物的待识别语音数据中的待识别i-vector特征；进而将待识别i-vector特征与性别年龄识别模型中的目标i-vector特征进行匹配，并确定与待识别i-vector特征匹配度最大的目标i-vector特征；从而将匹配度最大的目标i-vector特征对应的性别年龄，确定为目标人物的性别年龄。采用上述方法可通过语音数据识别出人物的性别和年龄。其中，由于人物的声纹信息隐藏在语音数据中，且在人物成年后声纹信息一般不会发生变化，因此基于语音数据识别人物的性别年龄，获得的识别结果较为准确。并且，由于i-vector特征是通过MFCC特征简化处理而得，所以基于语音数据中的i-vector特征进行识别匹配，一定程度上提高了识别效率。

本发明实施例公开了另一种性别年龄识别方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。

参见图2，本发明实施例提供的另一种性别年龄识别方法，包括：

S201、获取目标人物的待识别语音数据；

S202、对待识别语音数据进行预处理，预处理至少包括：预滤波、预加重、分帧、加窗、傅里叶变换、梅尔倒谱滤波和端点检测；

在本实施例中，在提取待识别i-vector特征之前，需要对待识别数据进行预处理，其中，预滤波可以消除部分噪声；预加重可以补偿语音信号受到发音系统所压抑的高频部分，突显出高频的共振峰；分帧可以获得较为平稳的语音信号；加窗可以使信号变得平滑，减弱FFT以后旁瓣大小以及频谱泄露；傅里叶变换用于将时域信号转化为频域信号，以便于进行频率分析；梅尔滤波器过滤可以滤出冗余信号；端点检测可以检测出语音信号的音频片段和静音片段，以便于从音频片段中提取i-vector特征。

S203、从预处理后的待识别语音数据中提取待识别i-vector特征；

其中，所述从预处理后的待识别语音数据中提取待识别i-vector特征，包括：

从预处理后的待识别语音数据中提取MFCC特征，并基于所述MFCC特征训练得到所述目标人物对应的GMM-UBM模型；采用EM算法迭代计算所述待识别i-vector特征；并采用LDA降维算法对待识别i-vector特征进行降维处理。

S204、将待识别i-vector特征与性别年龄识别模型中的目标i-vector特征进行匹配，并确定与待识别i-vector特征匹配度最大的目标i-vector特征；

S205、将匹配度最大的目标i-vector特征对应的性别年龄，确定为目标人物的性别年龄。

可见，本实施例提供了另一种性别年龄识别方法，该方法通过获取待识别语音数据，并提取目标人物的待识别语音数据中的待识别i-vector特征；进而将待识别i-vector特征与性别年龄识别模型中的目标i-vector特征进行匹配，并确定与待识别i-vector特征匹配度最大的目标i-vector特征；从而将匹配度最大的目标i-vector特征对应的性别年龄，确定为目标人物的性别年龄。采用上述方法可通过语音数据识别出人物的性别和年龄。其中，由于人物的声纹信息隐藏在语音数据中，且在人物成年后声纹信息一般不会发生变化，因此基于语音数据识别人物的性别年龄，获得的识别结果较为准确。并且，由于i-vector特征是通过MFCC特征简化处理而得，所以基于语音数据中的i-vector特征进行识别匹配，一定程度上提高了识别效率。

基于上述任意实施例，需要说明的是，待识别语音数据中的待识别i-vector特征的具体提取步骤，可参照下述性别年龄识别模型的生成步骤中的目标i-vector特征的获得步骤。故上述实施例未对待识别i-vector特征的具体提取步骤作详细描述。

基于上述任意实施例，需要说明的是，所述获取目标人物的待识别语音数据，包括：获取所述目标人物的WAV格式的待识别语音数据。其中，语音数据的格式还可以为：MP3、AAC和AMR等。

基于上述任意实施例，需要说明的是，所述性别年龄识别模型的生成步骤为：

获取训练语音数据，并对所述训练语音数据进行预处理；

从预处理后的训练语音数据中提取MFCC特征，并基于所述MFCC特征训练得到不同年龄性别对应的GMM-UBM模型；

采用EM算法迭代计算所述不同年龄性别对应的GMM-UBM模型的类别i-vector特征；

采用LDA降维算法对所述类别i-vector特征进行降维处理，获得所述目标i-vector特征；

基于获得的目标i-vector特征生成所述性别年龄识别模型。

具体的，依据上述生成步骤可生成不同年龄性别对应的GMM-UBM模型，即生成了多个GMM-UBM模型，每个GMM-UBM模型中包括类别i-vector特征，该类别i-vector特征可表征该类别下的人物声音特征。

其中，所述采用EM算法迭代计算所述不同年龄性别对应的GMM-UBM模型的类别i-vector特征，包括：

针对每个GMM-UBM模型，计算所述GMM-UBM模型中各个说话人的超向量、协方差矩阵和抽取器；其中，GMM-UBM模型的超向量即为GMM-UBM模型的均值的连接。

通过所述EM算法的E步骤计算所述超向量、所述协方差矩阵和所述抽取器对应的训练i-vector特征；

具体的，基于训练语音数据可以首先训练一个总的UBM模型，进而再根据说话人特征对齐到不同类别的GMM-UBM模型，从而得到多个GMM-UBM模型。

其中，所述通过所述EM算法的E步骤计算所述超向量、所述协方差矩阵和所述抽取器对应的训练i-vector特征，包括：

通过所述EM算法的E步骤中的最大似然估计法，计算所述超向量、所述协方差矩阵和所述抽取器对应的训练i-vector特征。

需要说明的是，所述训练i-vector特征是通过隐马尔可夫模型(HMM)的最大概率估计下计算而得。

下面对本发明实施例提供的一种性别年龄识别装置进行介绍，下文描述的一种性别年龄识别装置与上文描述的一种性别年龄识别方法可以相互参照。

参见图3，本发明实施例提供的一种性别年龄识别装置，包括：

获取模块301，用于获取目标人物的待识别语音数据，并提取所述待识别语音数据中的待识别i-vector特征；

匹配模块302，用于将所述待识别i-vector特征与性别年龄识别模型中的目标i-vector特征进行匹配，并确定与所述待识别i-vector特征匹配度最大的目标i-vector特征；

识别模块303，用于将所述匹配度最大的目标i-vector特征对应的性别年龄，确定为所述目标人物的性别年龄。

其中，所述获取模块包括：

预处理单元，用于对所述待识别语音数据进行预处理，所述预处理至少包括：预滤波、预加重、分帧、加窗、傅里叶变换、梅尔倒谱滤波和端点检测；

提取单元，用于从预处理后的待识别语音数据中提取所述待识别i-vector特征。

其中，所述匹配模块包括：性别年龄识别模型生成单元，所述性别年龄识别模型生成单元包括：

获取子单元，用于获取训练语音数据，并对所述训练语音数据进行预处理；

训练子单元，用于从预处理后的训练语音数据中提取MFCC特征，并基于所述MFCC特征训练得到不同年龄性别对应的GMM-UBM模型；

计算子单元，用于采用EM算法迭代计算所述不同年龄性别对应的GMM-UBM模型的类别i-vector特征；

降维子单元，用于采用LDA降维算法对所述类别i-vector特征进行降维处理，获得所述目标i-vector特征；

生成子单元，用于基于获得的目标i-vector特征生成所述性别年龄识别模型。

其中，所述计算子单元具体用于：

针对每个GMM-UBM模型，计算所述GMM-UBM模型中各个说话人的超向量、协方差矩阵和抽取器；

通过所述EM算法的E步骤计算所述超向量、所述协方差矩阵和所述抽取器对应的训练i-vector特征；

其中，所述通过所述EM算法的E步骤计算所述超向量、所述协方差矩阵和所述抽取器对应的训练i-vector特征，包括：

通过所述EM算法的E步骤中的最大似然估计法，计算所述超向量、所述协方差矩阵和所述抽取器对应的训练i-vector特征。

下面对本发明实施例提供的一种性别年龄识别设备进行介绍，下文描述的一种性别年龄识别设备与上文描述的一种性别年龄识别方法及装置可以相互参照。

参见图4，本发明实施例提供的一种性别年龄识别设备，包括：

存储器401，用于存储计算机程序；

处理器402，用于执行所述计算机程序时实现上述任意实施例所述的性别年龄识别方法的步骤。

下面对本发明实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种性别年龄识别方法、装置及设备可以相互参照。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意实施例所述的性别年龄识别方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张仡楠;陈昊亮
技术所有人：广州势必可赢网络科技有限公司
我是此专利的发明人

上一篇：一种逆流式多效蒸发浓缩结晶器清洗装置的制作方法
上一篇：发送事务而不跟踪的方法、设备和系统与流程