一种基于语音的年龄预测方法和装置以及设备与流程

文档序号：20692360发布日期：2020-05-08 19:45阅读：299来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及年龄预测技术领域，尤其涉及一种基于语音的年龄预测方法和装置以及设备。

背景技术：

语音，是指人体通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。人体的语音，一般会随着年龄的变化而变化。

现有的年龄预测方案，一般是获取人体的人脸图像，根据该人脸图像进行人脸识别，进而预测出该人体的年龄。

然而，现有的年龄预测方案，无法实现通过人体的语音来预测该人体的年龄。

技术实现要素：

有鉴于此，本发明的目的在于提出一种基于语音的年龄预测方法和装置以及设备，能够实现通过人体的语音来预测该人体的年龄。

根据本发明的一个方面，提供一种基于语音的年龄预测方法，包括：获取不同年龄段的人体的语音数据；构建基于所述语音数据的长短期记忆网络回归模型；采用长短期记忆网络对所述构建的长短期记忆网络回归模型进行训练；根据所述经训练后的长短期记忆网络回归模型，来对人体的语音进行对应所述语音的人体的年龄的预测。

其中，所述采用长短期记忆网络对所述构建的长短期记忆网络回归模型进行训练，包括：采用长短期记忆网络对所述语音数据中的每个语音进行相应年龄的年龄标签打标，和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征，并从所述声学特征中提取出梅尔倒谱系数特征和基频特征作为长短期记忆网络的训练输入的方式，以及采用所述将梅尔倒谱系数特征和基频特征作为训练输入的长短期记忆网络对所述构建的长短期记忆网络回归模型进行训练。

其中，所述根据所述经训练后的长短期记忆网络回归模型，来对人体的语音进行对应所述语音的人体的年龄的预测，包括：根据所述经训练后的长短期记忆网络回归模型，从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征和基频特征，将所述提取出的关联所述语音的梅尔倒谱系数特征和基频特征输入所述经训练后的长短期记忆网络回归模型，来对人体的语音进行对应所述语音的人体的年龄的预测，通过所述经训练后的长短期记忆网络回归模型得到预测的年龄。

其中，在所述根据所述经训练后的长短期记忆网络回归模型，来对人体的语音进行对应所述语音的人体的年龄的预测之后，还包括：通过交叉熵损失的损失函数和优化算法对所述长短期记忆网络进行参数更数，和采用所述经参数更新后的长短期记忆网络通过预测次数的迭代对所述长短期记忆网络回归模型进行训练更新。

根据本发明的另一个方面，提供一种基于语音的年龄预测装置，包括：获取模块、构建模块、训练模块和预测模块；所述获取模块，用于获取不同年龄段的人体的语音数据；所述构建模块，用于构建基于所述语音数据的长短期记忆网络回归模型；所述训练模块，用于采用长短期记忆网络对所述构建的长短期记忆网络回归模型进行训练；所述预测模块，用于根据所述经训练后的长短期记忆网络回归模型，来对人体的语音进行对应所述语音的人体的年龄的预测。

其中，所述训练模块，具体用于：采用长短期记忆网络对所述语音数据中的每个语音进行相应年龄的年龄标签打标，和从所述经年龄标签打标后的语音数据中提取出每个语音的声学特征，并从所述声学特征中提取出梅尔倒谱系数特征和基频特征作为长短期记忆网络的训练输入的方式，以及采用所述将梅尔倒谱系数特征和基频特征作为训练输入的长短期记忆网络对所述构建的长短期记忆网络回归模型进行训练。

其中，所述预测模块，具体用于：根据所述经训练后的长短期记忆网络回归模型，从人体的语音中提取出对关联所述语音的梅尔倒谱系数特征和基频特征，将所述提取出的关联所述语音的梅尔倒谱系数特征和基频特征输入所述经训练后的长短期记忆网络回归模型，来对人体的语音进行对应所述语音的人体的年龄的预测，通过所述经训练后的长短期记忆网络回归模型得到预测的年龄。

其中，所述基于语音的年龄预测装置，还包括：更新模块；所述更新模块，用于通过交叉熵损失的损失函数和优化算法对所述长短期记忆网络进行参数更数，和采用所述经参数更新后的长短期记忆网络通过预测次数的迭代对所述长短期记忆网络回归模型进行训练更新。

根据本发明的又一个方面，提供一种基于语音的年龄预测设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一项所述的基于语音的年龄预测方法。

根据本发明的再一个方面，提供一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述任一项所述的基于语音的年龄预测方法。

可以发现，以上方案，可以获取不同年龄段的人体的语音数据，和可以构建基于该语音数据的长短期记忆网络回归模型，和可以采用长短期记忆网络对该构建的长短期记忆网络回归模型进行训练，以及可以根据该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测，能够实现通过人体的语音来预测该人体的年龄。

进一步的，以上方案，可以采用长短期记忆网络对该语音数据中的每个语音进行相应年龄的年龄标签打标，和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征，并从该声学特征中提取出梅尔倒谱系数特征和基频特征作为长短期记忆网络的训练输入的方式，以及采用该将梅尔倒谱系数特征和基频特征作为训练输入的长短期记忆网络对该构建的长短期记忆网络回归模型进行训练，这样的好处是因为该长短期记忆网络是递归神经网络，该长短期记忆网络能够保留语音上打标的年龄标签的信息，进而能够便于通过人体的语音来预测该人体的年龄。

进一步的，以上方案，可以根据该经训练后的长短期记忆网络回归模型，从人体的语音中提取出对关联该语音的梅尔倒谱系数特征和基频特征，将该提取出的关联该语音的梅尔倒谱系数特征和基频特征输入该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测，通过该经训练后的长短期记忆网络回归模型得到预测的年龄，这样的好处由于经训练后的长短期记忆网络回归模型经过多次训练提高了该长短期记忆网络回归模型的准确率，进而能够提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。

进一步的，以上方案，可以通过交叉熵损失的损失函数和优化算法对该长短期记忆网络进行参数更数，和采用该经参数更新后的长短期记忆网络通过预测次数的迭代对该长短期记忆网络回归模型进行训练更新，这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于语音的年龄预测方法一实施例的流程示意图；

图2是本发明基于语音的年龄预测方法另一实施例的流程示意图；

图3是本发明基于语音的年龄预测装置一实施例的结构示意图；

图4是本发明基于语音的年龄预测装置另一实施例的结构示意图；

图5是本发明基于语音的年龄预测设备一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种基于语音的年龄预测方法，能够实现通过人体的语音来预测该人体的年龄。

请参见图1，图1是本发明基于语音的年龄预测方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

s101：获取不同年龄段的人体的语音数据。

在本实施例中，可以一次性获取不同年龄段的人体的语音数据，也可以分多次获取不同年龄段的人体的语音数据，还可以逐一逐个人体的获取不同年龄段的人体的语音数据等，本发明不加以限定。

在本实施例中，可以获取不同年龄段的不同人体的语音数据，也可以获取不同年龄段的相同人体的语音数据，本发明不加以限定。

s102：构建基于该语音数据的lstm(longshort-termmemory，长短期记忆网络)回归模型。

在本实施例中，该构建的长短期记忆网络回归模型，可以依据不同年龄段的人体之间的语音特征差异，采用合适的回归器，对人体的年龄进行预测。

s103：采用长短期记忆网络对该构建的长短期记忆网络回归模型进行训练。

其中，该采用长短期记忆网络对该构建的长短期记忆网络回归模型进行训练，可以包括：

采用长短期记忆网络对该语音数据中的每个语音进行相应年龄的年龄标签打标，和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征，并从该声学特征中提取出mfcc(mel-scalefrequencycepstralcoefficients，梅尔倒谱系数)特征和基频特征作为长短期记忆网络的训练输入的方式，以及采用该将梅尔倒谱系数特征和基频特征作为训练输入的长短期记忆网络对该构建的长短期记忆网络回归模型进行训练，这样的好处是因为该长短期记忆网络是递归神经网络，该长短期记忆网络能够保留语音上打标的年龄标签的信息，进而能够便于通过人体的语音来预测该人体的年龄。

s104：根据该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测。

其中，该根据该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测，可以包括：

根据该经训练后的长短期记忆网络回归模型，从人体的语音中提取出对关联该语音的梅尔倒谱系数特征和基频特征，将该提取出的关联该语音的梅尔倒谱系数特征和基频特征输入该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测，通过该经训练后的长短期记忆网络回归模型得到预测的年龄，这样的好处由于经训练后的长短期记忆网络回归模型经过多次训练提高了该长短期记忆网络回归模型的准确率，进而能够提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。

其中，在该根据该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测之后，还可以包括：

通过交叉熵损失的损失函数和优化算法对该长短期记忆网络进行参数更数，和采用该经参数更新后的长短期记忆网络通过预测次数的迭代对该长短期记忆网络回归模型进行训练更新，这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。

可以发现，在本实施例中，可以获取不同年龄段的人体的语音数据，和可以构建基于该语音数据的长短期记忆网络回归模型，和可以采用长短期记忆网络对该构建的长短期记忆网络回归模型进行训练，以及可以根据该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测，能够实现通过人体的语音来预测该人体的年龄。

进一步的，在本实施例中，可以采用长短期记忆网络对该语音数据中的每个语音进行相应年龄的年龄标签打标，和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征，并从该声学特征中提取出梅尔倒谱系数特征和基频特征作为长短期记忆网络的训练输入的方式，以及采用该将梅尔倒谱系数特征和基频特征作为训练输入的长短期记忆网络对该构建的长短期记忆网络回归模型进行训练，这样的好处是因为该长短期记忆网络是递归神经网络，该长短期记忆网络能够保留语音上打标的年龄标签的信息，进而能够便于通过人体的语音来预测该人体的年龄。

进一步的，在本实施例中，可以根据该经训练后的长短期记忆网络回归模型，从人体的语音中提取出对关联该语音的梅尔倒谱系数特征和基频特征，将该提取出的关联该语音的梅尔倒谱系数特征和基频特征输入该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测，通过该经训练后的长短期记忆网络回归模型得到预测的年龄，这样的好处由于经训练后的长短期记忆网络回归模型经过多次训练提高了该长短期记忆网络回归模型的准确率，进而能够提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。

请参见图2，图2是本发明基于语音的年龄预测方法另一实施例的流程示意图。本实施例中，该方法包括以下步骤：

s201：获取不同年龄段的人体的语音数据。

可如上s101所述，在此不作赘述。

s202：构建基于该语音数据的长短期记忆网络回归模型。

可如上s102所述，在此不作赘述。

s203：采用长短期记忆网络对该构建的长短期记忆网络回归模型进行训练。

可如上s103所述，在此不作赘述。

s204：根据该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测。

可如上s104所述，在此不作赘述。

s205：通过交叉熵损失的损失函数和优化算法对该长短期记忆网络进行参数更数，和采用该经参数更新后的长短期记忆网络通过预测次数的迭代对该长短期记忆网络回归模型进行训练更新。

可以发现，在本实施例中，可以通过交叉熵损失的损失函数和优化算法对该长短期记忆网络进行参数更数，和采用该经参数更新后的长短期记忆网络通过预测次数的迭代对该长短期记忆网络回归模型进行训练更新，这样的好处是能够实现提高对人体的语音进行对应该语音的人体的年龄的预测的准确率。

本发明还提供一种基于语音的年龄预测装置，能够实现通过人体的语音来预测该人体的年龄。

请参见图3，图3是本发明基于语音的年龄预测装置一实施例的结构示意图。本实施例中，该基于语音的年龄预测装置30包括获取模块31、构建模块32、训练模块33和预测模块34。

该获取模块31，用于获取不同年龄段的人体的语音数据。

该构建模块32，用于构建基于该语音数据的长短期记忆网络回归模型。

该训练模块33，用于采用长短期记忆网络对该构建的长短期记忆网络回归模型进行训练。

该预测模块34，用于根据该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测。

可选地，该训练模块33，可以具体用于：

采用长短期记忆网络对该语音数据中的每个语音进行相应年龄的年龄标签打标，和从该经年龄标签打标后的语音数据中提取出每个语音的声学特征，并从该声学特征中提取出梅尔倒谱系数特征和基频特征作为长短期记忆网络的训练输入的方式，以及采用该将梅尔倒谱系数特征和基频特征作为训练输入的长短期记忆网络对该构建的长短期记忆网络回归模型进行训练。

可选地，该预测模块34，可以具体用于：

根据该经训练后的长短期记忆网络回归模型，从人体的语音中提取出对关联该语音的梅尔倒谱系数特征和基频特征，将该提取出的关联该语音的梅尔倒谱系数特征和基频特征输入该经训练后的长短期记忆网络回归模型，来对人体的语音进行对应该语音的人体的年龄的预测，通过该经训练后的长短期记忆网络回归模型得到预测的年龄。

请参见图4，图4是本发明基于语音的年龄预测装置另一实施例的结构示意图。区别于上一实施例，本实施例所述基于语音的年龄预测装置40还包括更新模块41。

该更新模块41，用于通过交叉熵损失的损失函数和优化算法对该长短期记忆网络进行参数更数，和采用该经参数更新后的长短期记忆网络通过预测次数的迭代对该长短期记忆网络回归模型进行训练更新。

该基于语音的年龄预测装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明又提供一种基于语音的年龄预测设备，如图5所示，包括：至少一个处理器51；以及，与至少一个处理器51通信连接的存储器52；其中，存储器52存储有可被至少一个处理器51执行的指令，指令被至少一个处理器51执行，以使至少一个处理器51能够执行上述的基于语音的年龄预测方法。

其中，存储器52和处理器51采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器51。

处理器51负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。

本发明再提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈文敏;李稀敏;肖龙源;蔡振华;刘晓葳
技术所有人：厦门快商通科技股份有限公司
我是此专利的发明人