一种基于深度神经网络的特定声源检测方法与系统与流程

文档序号：12065444阅读：来源：国知局

技术特征：

1.一种基于深度神经网络的特定声源检测方法，其特征在于，包括以下步骤：

提取实时声音信号的声学特征，生成声学特征向量；

使用DNN训练模型对所述声学特征向量进行检测判定，所述DNN训练模型是利用深度神经网络方法对预设声音信号进行训练而建立的。

2.根据权利要求1所述的基于深度神经网络的特定声源检测方法，其特征在于，所述提取声音信号的声学特征的步骤包括：

获取实时声音信号，对所述实时声音信号进行预处理；

对预处理后的实时声音信号先进行傅立叶变换，再经梅尔滤波器处理，然后进行离散余弦变换处理，得到实时声音信号的声学特征；

取所述实时声音信号之前相邻的多个声音信号的声学特征，与所述声音信号的声学特征进行融合，生成声学特征向量。

3.根据权利要求2所述的基于深度神经网络的特定声源检测方法，其特征在于，所述获取实时声音信号，对所述实时声音信号进行预处理的步骤包括：

获取实时声音信号，按照预设量化率转成数字信号，监测待处理缓冲区，如果缓冲区写满至指定时间数据，则写入历史缓冲区，并进行特征提取；

结合上一个数据缓冲区指定时间数据，对包含两个指定时间数据进行加窗处理。

4.根据权利要求1所述的基于深度神经网络的特定声源检测方法，其特征在于，所述DNN训练模型的建立过程包括：

预设多个声音数据，所述多个声音数据包括目标特定声源；

对每个声音数据进行特征提取，建立一个声音标定向量，该声音标定向量包括提取的声音特征和标定值；

采用DNN工具包Kaldi实现DNN权重更新。

5.根据权利要求1所述的基于深度神经网络的特定声源检测方法，其特征在于，所述使用DNN训练模型对所述声学特征向量进行检测判定的步骤包括：

计算DNN输出概率；

利用前一帧的概率输出对DNN输出概率做平滑处理；

通过平滑处理后的概率与设定阈值比较，判断出特定声源。

6.根据权利要求5所述的基于深度神经网络的特定声源检测方法，其特征在于，所述计算DNN输出概率的步骤包括：

初始化输入层，

a₁＝X_C(n)，X_C(n)为所述实时声音信号的声学特征，a₁为输入层；

计算隐藏层激活输出与前后层加权和，迭代计算公式如下所示：

a_l-1＝[1,a_l-1]

z_l＝a_l-1×w_l-1

a_l＝ReLU(z_l)＝log(1+exp(z_l))

其中a_l-1表示第l-1层的激活输出，

a_l表示第l层的激活输出，

z_l表示输入到第l层的加权和，

w_l-1表示第l-1层和第l层之间的连接权重，

w_l表示第l层和第l+1层之间的连接权重，

ReLU代表折线激活函数，依次向后计算所有的隐藏层；计算输出层激活输出值，并作为DNN输出概率；输出层计算是根据最后一个隐藏层数据来计算，计算公式如下：

a_L-1＝[1,a_L-1]

z_L＝a_L-1×w_L-1

$<mrow> <msub> <mi>a</mi> <mi>L</mi> </msub> <mo>=</mo> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi>M</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>L</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>Σ</mi> <mi>i</mi> </msub> <msub> <mi>z</mi> <mi>L</mi> </msub> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>$

其中a_L-1表示第L-1层的激活输出，

a_L表示第L层的激活输出，

z_L表示输入到第L层的加权和，

w_L-1表示第L-1层和第L层之间的连接权重，

输出层激活输出设定为该时间帧判定为特定声源的概率，即：

P(y(n)＝1|X_C(n))＝a_L。

7.根据权利要求6所述的基于深度神经网络的特定声源检测方法，其特征在于，所述利用前一帧的概率输出对DNN输出概率做平滑处理的步骤中，平滑概率计算公式如下：

$<mrow> <mover> <mi>P</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>y</mi> <mo>(</mo> <mi>n</mi> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msub> <mi>X</mi> <mi>C</mi> </msub> <mo>(</mo> <mi>n</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>α</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>(</mo> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msub> <mi>X</mi> <mi>C</mi> </msub> <mo>(</mo> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>α</mi> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>(</mo> <mi>n</mi> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msub> <mi>X</mi> <mi>C</mi> </msub> <mo>(</mo> <mi>n</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow>$

其中，α为平滑因子。

8.根据权利要求7所述的基于深度神经网络的特定声源检测方法，其特征在于：

α的取值范围为0.75-0.85。

9.根据权利要求5所述的基于深度神经网络的特定声源检测方法，其特征在于，所述设定阈值为0.5。

10.一种基于深度神经网络的特定声源检测系统，其特征在于，包括：

特征提取模块，用于提取实时声音信号的声学特征，生成声学特征向量；

建立DNN训练模型模块，用于利用深度神经网络方法对预设声音信号进行训练，建立DNN训练模型；

检测模块，用于使用所述DNN训练模型对所述声学特征向量进行检测判定。

完整全部详细技术资料下载

当前第2页1 2 3