特定声音识别方法、设备和存储介质与流程

文档序号:16370074发布日期:2018-12-22 08:39阅读:363来源:国知局
特定声音识别方法、设备和存储介质与流程

本申请实施例涉及声音处理技术,尤其涉及一种特定声音识别方法、设备和存储介质。

背景技术

在生活中,我们每天都可以听到一些特定的、没有实际语义的声音。如:鼾声、咳嗽声、喷嚏声等等,尽管它们没有实际的语义,但是却能够准确的反应人们的生理需求、状态或者物质的品质。例如:医生能够通过病人的鼾声、咳嗽声、喷嚏声等辨别人们的健康情况。这类特定声音内容比较简单、重复,却是我们生活中不可或缺的一部分,有效的识别和判断各种特定声音信号意义重大。

目前,有研究通过语音识别技术识别特定声音。例如有针对咳嗽声音的识别方法,将咳嗽声音的特性和语音识别技术相结合,建立咳嗽模型,采用基于动态时间规整算法(dynamictimewarping,dtw)的模型匹配方法对特定人的孤立咳嗽声音进行识别。

实现本申请过程中,发明人发现相关技术中至少存在如下问题:现有的特定声音识别算法,计算量大、对硬件设备要求高。



技术实现要素:

本申请的目的在于提供一种特定声音识别方法、设备和存储介质,能对特定声音进行识别,且算法简单、计算量小,对硬件设备要求低。

为实现上述目的,第一方面,本申请实施例提供了一种特定声音识别方法,所述方法包括:

采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;

从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取特征参数;

将所述特征参数输入预先获取的基于深度神经网络的特定声音特征模型进行识别,以确定所述声音信号是否为特定声音。

可选的,所述方法还包括:预先获取所述基于深度神经网络的特定声音特征模型。

可选的,所述预先获取所述基于深度神经网络的特定声音特征模型,包括:

采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;

从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述特征参数;

将所述特定声音样本信号的特征参数作为输入,训练基于深度神经网络模型,以获取所述基于深度神经网络的特定声音特征模型。

可选的,所述从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述特征参数,包括:

将特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中各信号帧的梅尔频率倒谱系数依次首尾相连组成一特征向量;

将所述特征向量按预设步长从所述特征向量头部到所述特征向量尾部对所述特征向量进行分割,获得包括一组长度均为预设长度的子特征向量的特征参数,每个子特征向量具有相同的标签,所述预设步长为每帧梅尔频率倒谱系数长度的整数倍,所述预设长度为所述每帧梅尔频率倒谱系数长度的整数倍;

所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取特征参数,包括:

将声音信号的梅尔频率倒谱系数特征参数矩阵中各信号帧的梅尔频率倒谱系数依次首尾相连组成一特征向量;

将所述特征向量按所述预设步长从所述特征向量头部到所述特征向量尾部对所述特征向量进行分割,获得包括一组长度均为所述预设长度的子特征向量的特征参数。

可选的,所述将所述特定声音样本信号的特征参数作为输入,训练基于深度神经网络模型,以获取所述基于深度神经网络的特定声音特征模型,包括:

将所述特定声音样本信号的特征参数作为输入,基于深度置信网络算法进行模型训练,获得所述基于深度神经网络的特定声音特征模型的各个初始参数;

基于深度神经网络的梯度下降和反向传播算法,对所述各个初始参数进行微调,获得基于深度神经网络的特定声音特征模型的各个参数。

可选的,所述将所述特征参数输入预先获取的基于深度神经网络的特定声音特征模型进行识别,以确定所述声音信号是否为特定声音,包括:

将所述特征参数包含的一组子特征向量输入预先获取的基于深度神经网络的特定声音特征模型,获得一组子特征向量对应的预测结果;

如果所述预测结果中,肯定的预测结果多于否定的预测结果,则确认所述声音信号为特定声音,否则,确认所述声音信号不是特定声音。

可选的,所述特定声音包括咳嗽声、鼾声和喷嚏声中的任意一种。

第二方面,本申请实施例还提供了一种特定声音识别装置,所述装置包括:

采样及特征参数获取模块,用于采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;

特征参数提取模块,用于从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取特征参数;

特征匹配模块,用于确认所述特征参数是否匹配预先获取的基于深度神经网络的特定声音特征模型;

确认模块,用于如果所述特征参数匹配预先获取的基于深度神经网络的特定声音特征模型,则确认所述声音信号为特定声音。

可选的,所述装置还包括:

特征模型预设模块,用于预先获取所述基于深度神经网络的特定声音特征模型;

所述特征模型预设模块,具体用于:

采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;

从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述特征参数;

将所述特定声音样本信号的特征参数作为输入,训练基于深度神经网络模型,以获取所述基于深度神经网络的特定声音特征模型。

第三方面,本申请实施例还提供了一种特定声音识别设备,所述特定声音识别设备包括:

声音输入单元,用于接收声音信号;

信号处理单元,用于对所述声音信号进行信号处理;

所述信号处理单元与内置或者外置于特定声音识别设备的运算处理单元相连,所述运算处理单元包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。

第四方面,本申请实施例还提供了一种存储介质,所述存储介质存储有可执行指令,所述可执行指令被特定声音识别设备执行时,使所述特定声音识别设备执行上述的方法。

第五方面,本申请实施例还提供了一种程序产品,所述程序产品包括存储在存储介质上的程序,所述程序包括程序指令,当所述程序指令被特定声音识别设备执行时,使所述特定声音识别设备执行上述的方法。

本申请实施例提供的特定声音识别方法、设备和存储介质,采用基于梅尔频率倒谱系数特征参数和深度神经网络模型的识别算法,算法复杂度低、计算量少,从而对硬件要求低,降低了产品制造成本。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1是本申请各实施例的应用环境的结构示意图;

图2是本申请实施例提供的特定声音识别方法中预先获取基于深度神经网络的特定声音特征模型的流程示意图;

图3是mfcc系数计算过程中梅尔频率滤波处理示意图;

图4是咳嗽声音信号的时间-幅度图;

图5是提取特征参数步骤将特征向量分割成各个子特征向量的示意图;

图6是一般深度神经网络结构的示意图;

图7是一般深度置信网络结构的示意图;

图8是本申请实施例提供的特定声音识别方法中提取特征参数步骤的流程示意图;

图9是本申请实施例提供的特定声音识别方法中训练基于深度神经网络的特定声音特征模型步骤的流程示意图;

图10是本申请实施例提供的特定声音识别方法的流程示意图;

图11是本申请实施例提供的特定声音识别装置的结构示意图;

图12是本申请实施例提供的特定声音识别装置的结构示意图;

图13是本申请实施例提供的特定声音识别设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提出一种基于梅尔频率倒谱系数(melfrequencycepstralcoefficients,mfcc)特征参数和深度神经网络(deepneuralnetwork,dnn)算法的特定声音识别方案,适用于图1所示的应用环境。所述应用环境包括用户10和特定声音识别设备20,特定声音识别设备20用于接收用户10发出的声音,并对该声音进行识别,以确定该声音是否为特定声音。

进一步的,在识别出该声音为特定声音之后,所述特定识别设备20还可以对特定声音进行记录和处理,以输出用户10发出特定声音的情况信息。该特定声音的情况信息可以包括特定声音的次数、特定声音的时长以及特定声音的分贝。例如,可以通过在特定声音识别设备中包括计数器,用于在检测到特定声音时,对特定声音进行计数统计;可以通过在特定声音识别设备中包括计时器,用于在检测到特定声音时,对特定声音的持续时长进行统计;可以通过在特定声音识别设备中包括分贝检测装置,用于在检测到特定声音时,检测该特定声音的分贝。

本申请实施例对特定声音的识别原理与语音识别的原理相似,都是将输入的声音经过处理后将其输入声音模型进行识别,从而得到识别结果。其可分为两个阶段,分别为特定声音模型训练阶段和特定声音识别阶段。特定声音模型训练阶段主要是采集一定数量的特定声音样本信号,计算特定声音样本信号的mfcc特征参数矩阵,从mfcc特征参数矩阵中提取特征参数,将所述特征参数基于dnn算法进行模型训练,得到特定声音特征模型。在特定声音识别阶段,对需要判断的声音信号,计算其mfcc特征参数矩阵,并从声音信号的mfcc特征参数矩阵中提取对应的特征参数,然后将该特征参数输入特定声音特征模型进行识别,以确定该声音信号是否为特定声音。其识别过程主要包括预处理、特征提取、模型训练、模式匹配及判决等步骤。

其中,在预处理步骤,包括采样特定声音样本信号以及计算所述特定声音样本信号的mfcc特征参数矩阵。在特征提取步骤,从mfcc特征参数矩阵中提取特征参数。在模型训练步骤,将从特定声音样本信号的mfcc特征参数矩阵中提取的特征参数作为输入,训练出基于深度神经网络的特定声音特征模型。在模式匹配及判决步骤,利用特定声音特征模型来识别新的声音信号是否为特定声音。其中,识别新的声音信号是否为特定声音,包括:首先计算声音信号的mfcc特征参数矩阵,然后从mfcc特征参数矩阵中提取声音信号的特征参数,再将该声音信号的特征参数输入特定声音特征模型进行识别,以确定该声音信号是否为特定声音。

mfcc结合dnn识别特定声音的方案可以简化算法的复杂度,减少计算量,并能够显著提高特定声音识别的准确性。

本申请实施例提供了一种特定声音识别方法,可以用于上述的特定声音识别设备20,所述特定声音识别方法需要预先获得基于dnn的特定声音特征模型,该基于dnn的特定声音特征模型可以是预先配置的,也可以通过下述步骤101至步骤103中的方法训练得到,在训练得到基于dnn的特定声音特征模型后,后续可基于该基于dnn的特定声音特征模型识别特定声音,更进一步地,若由于场景变换或其它原因导致该基于dnn的特定声音特征模型用于识别特定声音时准确率不合格,可重新配置或训练基于dnn的特定声音特征模型。

其中,如图2所示,所述预先获得基于dnn的特定声音特征模型包括:

步骤101:采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;

采样得到特定声音样本信号s(n),并根据所述特定声音样本信号获取所述特定声音样本信号的mfcc特征参数矩阵。梅尔频率倒谱系数主要用于声音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)的数据,经过mfcc处理后可以提取出最重要的40维数据,同时也达到了降维的目的。梅尔频率倒谱系数计算一般包括:预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换。

获取所述特定声音样本信号的mfcc特征参数矩阵,具体包括以下步骤:

①预加重

预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿特定声音样本信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。其实现方法是将经采样后的特定声音样本信号s(n)通过一个一阶有限长单位冲激响应(finiteimpulseresponse,fir)高通数字滤波器来进行预加重,其传递函数为:

h(z)=1-a·z-1(1)

其中,z表示输入信号,时域表示即为特定声音样本信号s(n),a表示预加重系数,一般取0.9~1.0中的常数。

②分帧

将特定声音样本信号s(n)中每p个采样点集合成一个观测单位,称为帧。p的值可以取256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,可以让两相邻帧之间有一段重叠区域,此重叠区域包含了g个取样点,g的值可以约为p的1/2或1/3。特定声音样本信号的采样频率可以为8khz或16khz,以8khz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。

③加窗

将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为s(n),n=0,1…,p-1,p为帧的大小,那么乘上汉明窗后:s′(n)=s(n)×w(n),其中,

其中,l表示窗长。

④快速傅里叶变换(fastfouriertransform,fft)

由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同声音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对特定声音样本信号的频谱取模平方得到特定声音样本信号的功率谱。

⑤三角带通滤波器滤波

将能量谱通过一组梅尔尺度的三角形滤波器组进行滤波。定义一个有m个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,m。m可以取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,请参照图3。

三角滤波器的频率响应定义为:

其中

⑥离散余弦变换

计算每个滤波器组输出的对数能量为:

对对数能量s(m)经离散余弦变换(dualclutchtransmission,dct)得到mfcc:

步骤102:从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述特征参数;

由式(5)可知,mfcc为一个n*l的系数矩阵,其中,n为声音信号帧数,l为mfcc长度。由于mfcc特征参数矩阵维度较高,且声音信号长度不一致导致矩阵行数n不同,mfcc特征参数矩阵无法作为直接输入获得基于dnn的特定声音特征模型,因此,需要进一步的从mfcc特征参数矩阵中提取特征参数。提取特征参数的目的是提取出特定声音样本信号的特性来标示该段特定声音样本信号,并以该特征参数作为输入,训练基于dnn的特定声音特征模型。可以结合特定声音信号的时域或频域特性,从mfcc特征参数矩阵中提取特征参数。

以特定声音信号为咳嗽声音信号为例,请参考图4,图4为咳嗽声音信号的时间-幅度图(时域图),从图4可以看出,咳嗽声音信号的发生过程很短,具有明显的突发性,单声咳嗽声音所持续的时长通常小于550ms,甚至患上严重的咽喉和支气管疾病的病人,他们的单声咳嗽声音的时长也一般维持在1000ms左右。从能量上看,咳嗽声音信号的能量主要集中在信号的前半部分。因此,mfcc计算处理后,咳嗽声音样本信号的主要特性信息基本集中在咳嗽声音样本信号的前半部分。输入深度神经网络的特征参数,应该尽可能多的涵盖咳嗽声音样本信号的主要信息,保证从mfcc特征参数矩阵中提取的特征参数是有用信息,而不是冗余信息。

可以在咳嗽声音样本信号的mfcc特征参数矩阵中,选择前面固定帧数的咳嗽声音样本信号的特征参数,作为深度神经网络的输入,鉴于咳嗽声音样本信号的主要特性信息基本集中在咳嗽声音样本信号的前半部分,该固定帧数的咳嗽声音样本信号应尽量包含各个咳嗽声音样本信号的前半部分。为了充分利用数据,mfcc特征参数矩阵中剩余的特征数据也可以作为深度神经网络的输入,可以根据该固定帧数对mfcc特征参数矩阵进行分割,然后将分割后的数据一起作为深度神经网络的输入。

具体的,如图8所示,从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取特征参数,包括:

步骤1021:将特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中各信号帧的梅尔频率倒谱系数依次首尾相连组成一向量;

步骤1022:将所述向量按预设步长(单位为帧)从所述向量头部到所述向量尾部对所述向量进行分割,获得包括一组长度均为预设长度(即固定帧数)的子向量的特征参数,每个子向量具有相同的标签。

即将mfcc特征参数矩阵帧与帧之间串联起来形成一个向量x,以预设长度e为基本单位,以预设步长d从向量x首部移动到尾部,形成一组标签相同的数据xi,其中,i=1,2,...,m,m表示经过分割处理后每个特定声音样本信号所包含的子特征向量的数量。其具体处理过程请参见图5。

在实际应用中,如果特定声音为咳嗽声音,可以统计计算出一般咳嗽声音信号的前半段的帧数,然后根据该帧数为所述预设长度取值,预设步长可以结合实际应用进行取值。如果特定声音为其他声音,例如鼾声或者喷嚏声等,也可以根据其时域与频域特性为预设长度和预设步长取值。

通过将特定声音样本信号的mfcc特征参数矩阵分割成多个固定长度的子特征向量,使该子特征向量适应了深度神经网络输入数据一致的要求,可以直接作为深度神经网络的输入。而且,将多个子特征向量中的各个子特征向量设置成相同的标签,即用一组子特征向量来表达同一特定声音样本信号,增加了数据样本的数量,避免了特征参数提取时信息的损失。利用上述子特征向量及其对应的标签,建立基于深度神经网络的特定声音特征模型,并利用该特定声音特征模型识别特定声音,降低了误识别率,提高了特定声音识别的准确率。本申请实施例提供的特定声音识别方法在用于识别咳嗽声音时,在不增加计算量的基础上,咳嗽声音的识别率可以达到95%以上。

步骤103:将所述特定声音样本信号的特征参数作为输入,训练基于深度神经网络模型,以获取所述基于深度神经网络的特定声音特征模型。

dnn是对浅层神经网络的拓展,在功能上利用了多层神经网络的表达,对非线性、高维数据的处理有非常好的特征提取、学习以及泛化能力。dnn模型一般包括输入层、隐藏层和输出层,请参照图6,其中,第一层是输入层,中间的是隐藏层,最后一层是输出层(图6只示出了三层隐藏层,实际上会包括更多的隐藏层),其层与层之间是全连接的,即第q层的任意一个神经元一定与第q+1层的任意一个神经元相连。

每条建立在神经元之间的连接都有一个线性权重,每层的每个神经元都有一个偏置(输入层除外)。第l-1层的第k个神经元到第l层的第j个神经元的线性权重定义为wljk,其中,上标l代表线性权重所在的层数,而下标对应的是输出的第l层索引j和输入的第l-1层索引k,例如,第二层的第4个神经元到第三层的第2个神经元的线性权重定义为w324。第l层的第i个神经元对应的偏置为bli,其中,上标l代表所在的层数,下标i代表偏置所在的神经元的索引,例如,第二层的第三个神经元对应的偏置定义为b23。

可以随机初始化选择一系列wljk和bli,利用前向传播算法,将特定声音样本信号的特征参数作为输入层的数据,然后用输入层计算出第一个隐藏层,再用第一个隐藏层计算出第二个隐藏层,依次类推,直到输出层。然后再利用反向传播算法,对wljk和bli进行微调,获得最终基于深度神经网络的特定声音特征模型。

也可以先通过基于深度置信网络(deepbeliefnetwork,dbn)算法获得各个初始参数wljk和bli,然后再利用梯度下降和反向传播算法,对wljk和bli进行微调,获得最终wljk和bli的取值。即请参照图9,所述将所述特定声音样本信号的特征参数作为输入,训练基于深度神经网络模型,以获取所述基于深度神经网络的特定声音特征模型包括:

步骤1031:将所述特定声音样本信号的特征参数作为输入,基于深度置信网络算法进行模型训练,获得所述基于深度神经网络的特定声音特征模型的各个初始参数;

dbn是一种深度学习模型,用非监督的方式对模型逐层做预处理,这种非监督的预处理方式就是受限玻尔兹曼机(restrictedboltzmannmachine,rbm)。如图7(b)所示,dbn是由一系列rbm堆叠而成的。如图7(a)所示,rbm是双层结构,v表示可见层,h表示隐藏层,可见层和隐藏层之间的连接是无方向性(值可以从可见层->隐含层或隐含层->可见层任意传输)且全连接的。其中,可见层v和隐藏层h之间通过线性权重连接,可见层的第i个神经元和隐藏层的第j个神经元的线性权重定义为wij,可见层的第i个神经元对应的偏置为bi,隐藏层的第j个神经元对应的偏置为aj,下标i和j代表神经元的索引。

rbm通过对比散度算法进行一步吉布斯(gibbs)采样,优化权重wij、bi和aj,就可以得到输入样本数据(即特定声音样本信号的特征参数)v的另一种状态表达h,rbm的输出h1可以作为下一个rbm的输入,用同一种方式继续优化得到隐藏状态h2,以此类推,多层的dbn模型可以通过逐层预处理的方式对权重wij、bi和aj进行初始化,每一层的特征都是第一层数据v的一种表达方式,经过这种非监督的预处理后,获得各项初始参数。

具体的,rbm是一种能量模型,整个rbm的能量表示如下式(6)所示。

其中,e表示rbm模型的总能量,v表示可见层数据,h表示隐藏层数据,θ表示模型参数,m表示可见层神经元数量,n表示隐藏层神经元数量,b表示可见层偏置,a表示隐藏层偏置。

rbm模型根据可见层数据和隐藏层数据的条件概率进行采样,对于伯努利-伯努利rbm模型,条件概率公式分别为公式(7)和公式(8),

其中,σ表示激活函数sigmoid函数,σ(x)=(1+e-x)-1

根据以上公式利用对比散度算法对rbm进行gibbs采样,得到v和h联合分布的样本,然后通过最大化观测样本的似然对数函数(9)优化参数,

δwij≈<vihj>0-<vihj>1(10)

优化参数采用一步对比散度算法,采用平均场逼近的方式直接生成采样样本,利用公式(10)多次迭代优化参数,最终获得各神经元之间的权重、以及神经元的偏置等各项初始参数。其中,n代表rbm模型可见层神经元的数量,亦即rbm模型输入数据的维度。

步骤1032:基于深度神经网络的梯度下降和反向传播算法,对各个所述初始参数进行微调,获得基于深度神经网络的特定声音特征模型的各个参数。

dbn的优化过程完成后,获得基于dnn特定声音特征模型的各层(输入层、隐藏层和输出层)神经元之间的权重w和神经元的偏置b,最后的多类别逻辑回归层(softmax)采用随机的初始化方式,然后,dnn采用有监督的梯度下降算法对该特定声音特征模型进行微调。

具体的,利用有监督的方式,通过最小化代价函数(公式11)的方式优化参数(公式12)微调整个dnn特定声音特征模型。

其中,j表示代价函数,hw,b(x)表示dnn的输出,y表示输入数据对应的标签。

其中,α表示学习率,取值0.5~0.01。

上述公式(12)中计算深度神经网络各个节点的偏导数可以采用公式(13)的反向传播算法。

其中,δ表示灵敏度,a表示每个神经元节点的输出值。当l表示输出层时,当l表示其他层时其中σ表示激活函数。然后通过多次迭代,更新公式(13),逐层优化整个dnn模型,最终获得各个参数,得到训练好的基于dnn的特定声音特征模型。

通过基于dbn的非监督学习和监督学习方法的结合,相对于随机初始化的深度神经网络,经过无监督预处理后进行监督学习,获得的dnn模型有明显优于普通深度神经网络的性能。以特定声音样本信号的mfcc特征参数作为dnn模型的输入进行建模获得基于dnn的特定声音特征模型,再利用该特定声音特征模型对特定声音进行识别,有效提高了特定声音的识别率。

图10是本申请实施例提供的特定声音识别方法的流程示意图,如图10所示,所述特定声音识别方法包括:

步骤201:采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;

在实际应用中,可以在特定声音识别设备20上设置声音输入单元(例如麦克风)来采集声音信号,对声音信号进行放大、滤波等处理后转换成数字信号。该数字信号可以在特定声音识别设备20本地的运算处理单元中进行采样及其他计算处理,也可以通过网络上传到云端服务器、智能终端或者其他服务器中进行处理。

其中,获取声音信号的梅尔频率倒谱系数特征参数矩阵的技术细节请参照步骤101,在此不再赘述。

步骤202:从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取特征参数;

其中,从声音信号的梅尔频率倒谱系数特征参数矩阵中提取特征参数的具体计算方法请参照步骤102,在此不再赘述。

步骤203:将所述特征参数输入预先获取的基于深度神经网络的特定声音特征模型进行识别,以确定所述声音信号是否为特定声音。

具体的,将所述特征参数输入预先获取的基于深度神经网络的特定声音特征模型进行识别,以确定所述声音信号是否为特定声音,包括:

将所述特征参数包含的一组子特征向量输入预先获取的基于深度神经网络的特定声音特征模型,获得一组子特征向量对应的预测结果;

如果所述预测结果中,肯定的预测结果多于否定的预测结果,则确认所述声音信号为特定声音,否则,确认所述声音信号不是特定声音。

当声音信号的特征参数输入训练好的基于dnn的特定声音特征模型时,就会得到该声音信号是否为特定声音的预测结果。由于同一个声音信号的特征参数包含多个子特征向量,每一个子特征向量都会得到一个预测结果,这样每一个声音信号就会得到多个预测结果,这些预测结果代表了声音信号是否是特定声音的可能。基于dnn的特定声音特征模型会对同一个声音信号的所有预测结果进行投票,即所有子特征向量的预测结果中,如果肯定的预测结果多于否定的预测结果,则确认该声音信号为特定声音;如果肯定的预测结果少于否定的预测结果,则确认该声音信号不是特定声音。

本申请实施例提供的特定声音识别方法,能对特定声音进行识别,从而能够通过监测使用者发出的声音对使用者发出的特定声音情况进行监测,无需使用者佩戴任何检测部件。且由于采用基于mfcc特征参数和dnn模型的识别算法,算法复杂度低、计算量少,从而对硬件要求低,降低了产品制造成本。

需要说明的是,本申请实施例提供的基于mfcc特征参数和dnn模型的特定声音识别方法,除用于识别咳嗽声音之外,同样适用于识别鼾声、喷嚏声、呼吸声、笑声、鞭炮声和哭声等其他特定声音。

相应的,如图11所示,本申请实施例还提供了一种特定声音识别装置,用于特定声音识别设备20,所述装置包括:

采样及特征参数获取模块301,用于采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;

特征参数提取模块302,用于从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取特征参数;

识别模块303,用于将所述特征参数输入预先获取的基于深度神经网络的特定声音特征模型进行识别,以确定所述声音信号是否为特定声音。

本申请实施例提供的特定声音识别装置,能对特定声音进行识别,从而能够通过监测使用者发出的声音对使用者发出的特定声音情况进行监测,无需使用者佩戴任何检测部件。且由于采用基于mfcc特征参数和dnn模型的识别算法,算法复杂度低、计算量少,从而对硬件要求低,降低了产品制造成本。

可选的,在所述装置的其他实施例中,如图12所示,所述装置还包括:

特征模型预设模块304,用于预先获取所述基于深度神经网络的特定声音特征模型。

可选的,在所述装置的某些实施例中,特征模型预设模块304具体用于:

采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;

从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述特征参数;

将所述特定声音样本信号的特征参数作为输入,训练基于深度神经网络模型,以获取所述基于深度神经网络的特定声音特征模型。

可选的,在所述装置的某些实施例中,特征模型预设模块304还具体用于:

将特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中各信号帧的梅尔频率倒谱系数依次首尾相连组成一特征向量;

将所述特征向量按预设步长从所述特征向量头部到所述特征向量尾部对所述特征向量进行分割,获得包括一组长度均为预设长度的子特征向量的特征参数,每个子特征向量具有相同的标签,所述预设步长为每帧梅尔频率倒谱系数长度的整数倍,所述预设长度为所述每帧梅尔频率倒谱系数长度的整数倍;

特征参数提取模块302还具体用于:

将声音信号的梅尔频率倒谱系数特征参数矩阵中各信号帧的梅尔频率倒谱系数依次首尾相连组成一特征向量;

将所述特征向量按所述预设步长从所述特征向量头部到所述特征向量尾部对所述特征向量进行分割,获得包括一组长度均为所述预设长度的子特征向量的特征参数。

可选的,在所述装置的某些实施例中,特征模型预设模块304还具体用于:

将所述特定声音样本信号的特征参数作为输入,基于深度置信网络算法进行模型训练,获得所述基于深度神经网络的特定声音特征模型的各个初始参数;

基于深度神经网络的梯度下降和反向传播算法,对各个所述初始参数进行微调,获得基于深度神经网络的特定声音特征模型的各个参数。

可选的,在所述装置的某些实施例中,识别模块303具体用于:

将所述特征参数包含的一组子特征向量输入预先获取的基于深度神经网络的特定声音特征模型,获得一组子特征向量对应的预测结果;

如果所述预测结果中,肯定的预测结果多于否定的预测结果,则确认所述声音信号为特定声音,否则,确认所述声音信号不是特定声音。

可选的,在所述装置的某些实施例中,所述特定声音包括咳嗽声、鼾声和喷嚏声中的任意一种。

需要说明的是,上述装置可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。

本申请实施例还提供了一种特定声音识别设备,如图8所示,特定声音识别设备20包括声音输入单元21、信号处理单元22和运算处理单元23。其中:声音输入单元21,用于接收声音信号,所述声音输入单元可以例如是麦克风等。信号处理单元22,用于对所述声音信号进行信号处理;所述信号处理单元22可以对所述声音信号进行放大、滤波、数模转换等模拟信号处理,将获得的数字信号发送给运算处理单元23。

所述信号处理单元22与内置或者外置于特定声音识别设备的运算处理单元23相连(图13以运算处理单元内置在特定声音识别设备中为例说明),运算处理单元23可以内置在特定声音识别设备20内部,也可以外置在特定声音识别设备20外部,所述运算处理单元23还可以是远程设置的服务器,例如可以是通过网络与特定声音识别设备20通信连接的云端服务器、智能终端或者其他服务器。

所述运算处理单元23包括:

至少一个处理器232(图13中以一个处理器举例说明)和存储器231,处理器232和存储器231可以通过总线或者其他方式连接,图13中以通过总线连接为例。

存储器231用于存储非易失性软件程序、非易失性计算机可执行程序以及软件模块,如本申请实施例中的特定声音识别方法对应的程序指令/模块(例如,附图11所示的采样及特征参数获取模块301)。处理器232通过运行存储在存储器231中的非易失性软件程序、指令以及模块,从而执行各种功能应用以及数据处理,即实现上述方法实施例的特定声音识别方法。

存储器231可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据特定声音识别装置使用所创建的数据等。此外,存储器231可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器231可选包括相对于处理器232远程设置的存储器,这些远程存储器可以通过网络连接至特定声音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器231中,当被所述一个或者多个处理器232执行时,执行上述任意方法实施例中的特定声音识别方法,例如,执行以上描述的图2中的方法步骤101-103,图8中的方法步骤1021至1022,图9中的方法步骤1031至1032,图10中的步骤201至步骤203;实现图11中的模块301-303、图12中的模块301-304的功能。

本申请实施例提供的特定声音识别设备,能对特定声音进行识别,从而能够通过监测使用者发出的声音对使用者发出的特定声音情况进行监测,无需使用者佩戴任何检测部件。且由于采用基于mfcc特征参数和dnn模型的识别算法,算法复杂度低、计算量少,从而对硬件要求低,降低了产品制造成本。

上述特定声音识别设备可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。

本申请实施例提供了一种存储介质,所述存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行(例如图13中的一个处理器232),可使得上述一个或多个处理器可执行上述任意方法实施例中的特定声音识别方法,例如,执行以上描述的图2中的方法步骤101-103,图8中的方法步骤1021至1022,图9中的方法步骤1031至1032,图10中的步骤201至步骤203;实现图11中的模块301-303、图12中的模块301-304的功能。

以上所描述的实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述,本领域普通技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1