目标语音检测方法及装置与流程

文档序号：13889076阅读：222来源：国知局

本发明涉及语音信号处理领域，具体涉及一种目标语音检测方法及装置。

背景技术：

语音作为最自然、方便快捷的交互方式之一，已在人们的日常生活和工作中得到了广泛的应用。语音信号的处理，如语音编码、降噪等，也一直是相关领域研究人员研究的热点。以语音降噪为例，目标语音检测作为降噪中最重要的步骤之一，其检测的准确性直接影响降噪的效果，如果目标语音检测不准确，在降噪过程中有效语音会失真较严重，因而目标语音的准确检测有着重要的意义。

现有的目标语音检测方法主要有以下两大类：

1、基于强度差的目标语音检测

比如，先对主麦克风信号做降噪，然后利用降噪后主麦克风信号与副麦克风信号强度差来进行语音检测；或者基于语音参考信号和噪声参考信号能量差进行目标语音检测。这类方法是基于主麦克风拾取的目标信号强度大于副麦克风接收目标信号，噪声信号在两个麦克风中的强度相同的假设。比如，当信噪比高时，主、副麦克能量比大于1，当信噪比低时，能量比小于1。

这种基于强度差的目标语音检测方法的使用场景具有局限性，即目标信号到达主、副麦克风强度差必须达到一定阈值(如3db以上)才能有效。而且，在噪声较大、信噪比比较低的情况下，目标语音检出概率较低。

2、基于机器学习的目标语音检测

比如，将单通道带噪信号作为输入，将理想二值掩模(idealbinarymask，ibm)或者理想比值掩模(idealratiomask，irm)作为输出，其输出值即可作为目标语音存在的依据；或者利用多通道数据，先将多个通道合成一个通道作为输入，进而来获得掩模。

现有的基于机器学习的目标语音检测方法存在以下问题：只利用单通道信息，信息未充分利用，目标语音检测效果不佳；即使利用多通道信息，但每个神经网络仍然只处理一路原始信号或者一路混合信号，未很好地利用多通道的空间信息，如果噪声中存在其他方向的人声干扰，该类方法效果就会急剧下降。

技术实现要素：

本发明实施例提供一种目标语音检测装置及方法，以解决传统目标语音检测方法存在的应用场景受限、低信噪比环境下检测、信息利用不充分导致检测效果不佳中的一个或多个问题。

为此，本发明提供如下技术方案：

一种目标语音检测方法，所述方法包括：

接收基于麦克风阵列采集的声音信号；

对所述声音信号进行波束成形处理，得到不同方向波束；

基于所述声音信号和所述不同方向波束逐帧提取检测特征；

将提取的当前帧的检测特征输入预先构建的目标语音检测模型，得到模型输出结果；

根据所述模型输出结果得到当前帧对应的目标语音的检测结果。

优选地，按以下方式构建所述目标语音检测模型：

确定目标语音检测模型的拓扑结构；

利用干净语音及模拟噪声生成训练数据，并对所述训练数据进行目标语音信息标注；

提取所述训练数据的检测特征；

基于所述检测持征及标注信息，训练得到所述目标语音检测模型的参数。

优选地，所述目标语音检测模型为分类模型或回归模型，所述目标语音检测模型的输出为当前帧每个频点的理想二进制掩码或理想比例掩码。

优选地，所述检测特征包括：空间维度信息、频率维度信息、时间维度信息。

优选地，所述基于所述声音信号和所述不同方向波束逐帧提取检测特征包括：

在每帧的每个频点上将各个波束信号与麦克风阵列采集的声音信号依次拼接，得到多维空间向量；

对所述多维空间向量中每个元素分别求模，然后将每帧所有频点的模进行拼接，得到包含了空间信息的多维频率向量；

对所述包含了空间信息的多维频率向量进行帧扩展，得到包含了空间及频率信息的多维时间向量。

优选地，所述方法还包括：

基于强度差进行目标语音检测，得到基于强度差的检测结果；

所述根据所述模型输出结果确定当前帧是否为目标语音帧包括：

融合所述基于强度差的检测结果和所述模型输出结果，得到当前帧对应的目标语音的检测结果。

优选地，所述基于强度差进行目标语音检测，得到基于强度差的检测结果包括：

根据所述不同方向的波束得到语音参考信号和噪声参考信号；

分别计算所述语音参考信号和噪声参考信号的功率；

计算语音参考信号和噪声参考信号的功率比值；

根据所述功率比值得到基于强度差的检测结果。

一种目标语音检测装置，所述装置包括：信号接收模块，波束形成模块，检测特征提取模块，第一检测模块，检测结果输出模块；其中：

所述信号接收模块，用于接收基于麦克风阵列采集的声音信号，并将所述声音信号输出给所述波束形成模块；

所述波束形成模块，用于对输入的所述声音信号进行波束成形处理，得到不同方向波束；

所述检测特征提取模块，其输入分别连接所述信号接收模块和所述波束形成模块的输出，用于分别基于所述声音信号和所述不同方向波束逐帧提取检测特征，并将提取的检测特征输出给所述第一检测模块；

所述第一检测模块，用于将所述检测特征提取模块提取的当前帧的检测特征输入预先构建的目标语音检测模型，得到模型输出结果，并将所述模型输出结果发送给所述检测结果输出模块；

所述检测结果输出模块，用于根据所述模型输出结果得到当前帧对应的目标语音的检测结果。

优选地，所述装置还包括：模型构建模块，用于构建所述目标语音检测模型；

所述模型构建模块包括：

结构设计单元，用于确定目标语音检测模型的拓扑结构；

训练数据处理单元，用于利用干净语音及模拟噪声生成训练数据，并对所述训练数据进行目标语音信息标注；

特征提取单元，用于提取所述训练数据的检测特征；

训练单元，用于基于所述检测特征及标注信息，训练得到所述目标语音检测模型的参数。

优选地，所述目标语音检测模型为分类模型或回归模型。

优选地，所述装置还包括：

第二检测模块，其输入与所述波束形成模块的输出相连，用于基于强度差进行目标语音检测，得到基于强度差的检测结果，并将所述基于强度差的检测结果发送给所述检测结果输出模块；

所述检测结果输出模块融合所述基于强度差的检测结果和所述模型输出结果，得到当前帧对应的目标语音的检测结果。

优选地，所述第二检测模块包括：

参考信号获取单元，用于根据所述不同方向的波束得到语音参考信号和噪声参考信号；

计算单元，用于分别计算所述语音参考信号和噪声参考信号的功率，计算语音参考信号和噪声参考信号的功率比值；

检测结果单元，用于根据所述功率比值得到基于强度差的检测结果。

一种计算机可读存储介质，包括计算机程序代码，该计算机程序代码由一个计算机单元执行，使得该计算机单元执行如前述任一项所述的人机交互应用方法中的步骤。

本发明实施例提供的目标语音检测方法检测方法及装置，接收基于麦克风阵列采集的声音信号；对所述声音信号进行波束成形处理，得到不同方向波束；分别基于所述声音信号和所述不同方向波束逐帧提取检测特征；利用预先构建的目标语音检测模型及多通道的信息，检测目标语音，从而有效地提高了目标语音检测的准确性，而且不存在应用场景受限的问题，即使在信噪比较低的环境下，也能够得到准确的检测结果。

进一步地，结合基于强度差的检测结果，即融合基于强度差的检测结果和基于模型的检测结果，得到当前帧对应的目标语音的检测结果，进一步提高了检测结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例目标语音检测方法的一种流程图；

图2是本发明实施例中目标语音检测模型的构建流程图；

图3是本发明实施例目标语音检测方法的另一种流程图；

图4是本发明实施例目标语音检测装置的一种结构示意图；

图5是本发明实施例中模型构建模块的一种示意图；

图6是本发明实施例目标语音检测装置的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例目标语音检测方法的一种流程图，包括以下步骤：

步骤101，接收基于麦克风阵列采集的声音信号。

在具体应用中，在采集到声音信号后，还需要对其进行预处理。

以包含m个麦克风的麦克风阵列接收声音信号为例，采集的信号分别为x1(t),x2(t)...xm(t)。

所述预处理主要指将接收到的声音信号从时域变换到频率域，得到频域信号x(k,l)＝[x1(k,l),x2(k,l)...xm(k,l)]^t，其中k表示信号的频率(0,1,...,k)，l表示帧序号。

步骤102，对所述声音信号进行波束成形处理，得到不同方向波束。

波束形成具体可以采用现有技术，比如基于方向估计的自适应算法、基于信号结构的波束形成方法等，对此本发明实施例不做限定。波束形成算法主要是通过对麦克风阵列采集到的信号进行处理，使得麦克风阵列对空间域中的某些方向具有较大的增益，而其他方向的增益较小，好像形成一个走向的波束一样。

根据m个麦克风形成主瓣分布指向n个不同方向的波束，可通过波束形成器，得到n个方向的波束：

其中，wⁿ(k,l)表示指向第n个方向第k个频带的波束形成器系数，由不同波束形成方法确定。

步骤103，分别基于所述声音信号和所述不同方向波束逐帧提取检测特征。

所述检测特征为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息，具体提取方法如下：

假设是预设的目标方向的输出信号，为非目标方向输出信号。

1.空间维度信息v1(k,l)

具体地，在每帧的每个频点上将得到的各个波束信号与麦克风阵列采集的声音信号依次拼接，得到多维空间向量。比如，根据m个麦克风形成主瓣分布指向n个不同方向的波束，在每帧的每个频点上将n个波束信号与m个麦克信号拼接成(m+n)维空间向量v1(k，l)：

需要说明的是，在实际应用中，对于目标方向信号其他方向信号麦克风采集的声音信号拼接顺序没有限制。

2.频率维度信息

首先对上述多维空间向量中每个元素分别求模，然后将每帧所有频点的模进行拼接，得到包含了空间信息的多维频率向量。比如，对上述v1(k,l)中每个元素分别求模md(k,l)＝f(v1(k,l))，其中f(x)＝|x|²，然后将第l帧所有频点的模md(k,l)进行拼接，得到(m+n)*k维频率向量：

v2(l)＝[md(1,l)；md(2,l)；...；md(k,l)](3)

3.时间维度信息

对包含了空间信息的多维频率向量进行帧扩展，得到包含了空间及频率信息的多维时间向量。比如，对上述v2(l)进行帧扩展，向前、向后分别扩展p帧，得到(m+n)*k*2p维的时间维度信息：

v3(l)＝[v2(l-p)；v2(l-p+1)；...；v2(l+p)](4)

步骤104，将提取的当前帧的检测特征输入预先构建的目标语音检测模型，得到模型输出结果。

即，将上述当前帧l对应的考虑了空间维度、频率维度、时间维度的检测特征v3(l)，输入到预先构建的目标语音检测模型，输出为当前帧l每个频点k的理想二值掩码(ibm，idealbinarymask)或者理想浮值掩码(irm，idealratiomask)。以输出为irm为例，则模型的输出可以定义为imodel(k,l)。

所述目标语音检测模型可以是分类模型或回归模型，如果输出是irm，则为回归模型，否则为分类模型。

所述目标语音检测模型具体可以选用深度神经网络(dnn)、循环神经网络(rnn)等神经网络模型。

步骤105，根据所述模型输出结果得到当前帧对应的目标语音的检测结果。

所述模型输出结果可以是ibm或irm；如果模型输出是ibm，则根据该输出即可确定当前帧是否为目标语音帧；如果模型输出是irm，则还需要根据设定的阈值进行判断，大于该阈值，则为目标语音帧，否则为非目标语音帧。当然，也可以直接将模型输出的irm作为相应的检测结果。

上述目标语音检测模型的构建流程如图2所示，包括以下步骤：

步骤201，确定目标语音检测模型的拓扑结构。

前面提到，所述目标语音检测模型可以是分类模型或回归模型，对此本发明实施例不做限定。

步骤202，利用干净语音及模拟噪声生成训练数据，并对所述训练数据进行目标语音信息标注。

所述干净语音包含所述目标语音。

步骤203，提取所述训练数据的检测特征。

所述检测特征为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息，具体提取方法如前所述。

步骤204，基于所述检测持征及标注信息，训练得到所述目标语音检测模型的参数。

本发明实施例提供的目标语音检测方法，基于麦克风阵列采集声音信号；对所述声音信号进行波束成形处理，得到不同方向波束；分别基于所述声音信号和所述不同方向波束逐帧提取检测特征；利用预先构建的目标语音检测模型及多通道的信息，检测目标语音，从而有效地提高了目标语音检测的准确性，而且不存在应用场景受限的问题，即使在信噪比较低的环境下，也能够得到准确的检测结果。

为了进一步提高目标语音检测结果的准确性，在本发明方法另一实施例中，还提供一种基于强度差和基于检测模型两种检测方法结果的目标语音检测方法。

如图3所示，是本发明实施例目标语音检测方法的一种流程图，包括以下步骤：

步骤301，接收基于麦克风阵列采集的声音信号。

步骤302，对所述声音信号进行波束成形处理，得到不同方向波束。

步骤303，基于强度差进行目标语音检测，得到基于强度差的检测结果。

具体地，首先根据所述不同方向的波束得到语音参考信号和噪声参考信号；然后分别计算所述语音参考信号和噪声参考信号的功率，并计算语音参考信号和噪声参考信号的功率比值，最后根据所述功率比值得到基于强度差的检测结果。

假设语音参考信号为f，噪声参考信号为u，其能量比定义为：

其中，pf(k,l)，pu(k,l)分别为语音参考信号和噪声参考信号的功率估计，可采用1阶递归方式进行功率估计：

pf(k,l)＝α1pf(k,l-1)+(1-α1)|xf(k,l)|²(6)

pu(k,l)＝α2pu(k,l-1)+(1-α2)|xu(k,l)|²(7)

其中，xf(k,l)为语音参考信号，即波束主瓣方向指向目标方向的波束形成后信号，可通过主瓣方向指向目标语音的固定波束形成算法得到，比如延迟求和波束形成(delayandsumbeamforming)、恒定束宽波束形成(constantbeam-widthbeam-former)、超增益波束形成(super-gainbeamforming)等算法；

xu(k,l)为噪声参考信号，即陷零方向指向目标方向的波束形成后信号，可根据自适应阻塞矩阵得到，比如可采用频域归一化最小均方(nlms)自适应方法进行滤波器更新，得到噪声参考信号：

xu(k,l)＝x1(k,l)-wn(k,l)x2(k,l)；

其中，wn(k,l)为自适应阻塞矩阵系数，α为固定学习步长，比如该步长可以取值为0.05，上标*表示复数取共轭，δ为小正数，比如δ可以取值为0.001。iratio(k,l)为当前时频点目标语音检测结果：

其中，阈值th1和th2由大量实验和/或经验得到，比如可以取th2＝2，th1＝0.5。

需要说明的是，还可以设定一个阈值th，如果iratio(k,l)大于该阈值th，则认为当前帧为目标语音帧，否则当前帧为非目标语音帧。

步骤304，基于检测模型进行目标语音检测，得到基于模型的检测结果。

基于检测模型的目标语音检测过程可参照前面图1中的步骤103至步骤104，在此不再赘述。

步骤305，融合所述基于强度差的检测结果和所述基于模型的检测结果，得到当前帧对应的目标语音的检测结果。

具体地，可以基于imodel(k,l)和iratio(k,l)进行联合判定，以语音降噪中自适应噪声消除(anc，adaptivenoisecancellation)为例，判定是否有目标语音如下：

其中，阈值th3、th4、th5和th6由大量实验和/或经验得到，比如可以取th3＝0.5，th4＝0.5，th5＝0.25，th6＝0.25。

需要说明的是，在所述目标语音检测模型采用分类模型，而且基于强度差的检测结果也是二值结果，即0或1的情况下，在对两种方式的检测结果进行融合时，可以采用“与”或者“或”的融合方式。当然，在实际应用中，也可以采用其它融合方式，对此本发明实施例不做限定。

需要说明的是，上述步骤303和步骤304是分别基于不同方法的目标语音检测过程，两者是独立进行，而且没有时间上的先后顺序关系。可以并行执行，也可以其中任一个步骤先执行。

可见，本发明实施例的目标语音检测方法，不仅可以在信噪比较低的环境下，也能够得到准确的检测结果，而且可以结合基于强度差检测结果，进一步提高了检测结果的准确性。

相应地，本发明实施例还提供一种计算机可读存储介质，包括计算机程序代码，该计算机程序代码由一个计算机单元执行，使得该计算机单元执行本发明目标语音检测实施例中的各步骤。

相应地，本发明实施例还提供一种目标语音检测装置，如图4所示，是该装置的一种结构示意图。

在该实施例中，所述装置包括以下各模块：信号接收模块401，波束形成模块402，检测特征提取模块403，第一检测模块404、检测结果输出模块405。其中：

所述信号接收模块401，用于接收基于麦克风阵列采集的声音信号，并将所述声音信号输出给所述波束形成模块402；

所述波束形成模块402，用于对输入的所述声音信号进行波束成形处理，得到不同方向波束；

所述检测特征提取模块403的输入分别连接所述信号接收模块401和所述波束形成模块402的输出，用于分别基于所述声音信号和所述不同方向波束逐帧提取检测特征，并将提取的检测特征输出给所述第一检测模块404；

所述第一检测模块404，用于将所述检测特征提取模块403提取的当前帧的检测特征输入预先构建的目标语音检测模型400，得到模型输出结果，并将所述模型输出结果发送给所述检测结果输出模块405；

所述检测结果输出模块405，用于根据所述模型输出结果得到当前帧对应的目标语音的检测结果。

需要说明的是，上述信号接收模块401在采集到声音信号后，还需要对其进行预处理，所述预处理主要指将接收到的声音信号从时域变换到频率域，得到频域信号。

上述检测特征提取模块403提取的检测特征为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息，具体提取方式可以参见前面本发明方法实施例中的描述，在此不再赘述。

上述目标语音检测模型400可以是分类模型或回归模型，具体可以由相应的模型构建模块预选构建，所述模型构建模块可以作为本发明装置的一部分，也可以独立于本发明装置，对此本发明实施例不做限定。

图5示出了本发明实施例中模型构建模块的一种结构，包括以下各单元：

结构设计单元51，用于确定目标语音检测模型的拓扑结构；

训练数据处理单元52，用于利用干净语音及模拟噪声生成训练数据，并对所述训练数据进行目标语音信息标注；

特征提取单元53，用于提取所述训练数据的检测特征；

训练单元54，用于基于所述检测持征及标注信息，训练得到所述目标语音检测模型的参数。

需要说明的是，在目标语音检测模型构建过程中，所述特征提取单元53提取的检测特征同样为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息，具体提取方式可以参见前面本发明方法实施例中的描述，在此不再赘述。

本发明实施例提供的目标语音检测装置，基于麦克风阵列采集声音信号；对所述声音信号进行波束成形处理，得到不同方向波束；分别基于所述声音信号和所述不同方向波束逐帧提取检测特征；利用预先构建的目标语音检测模型及多通道的信息，检测目标语音，从而有效地提高了目标语音检测的准确性，而且不存在应用场景受限的问题，即使在信噪比较低的环境下，也能够得到准确的检测结果。

如图6所示，是本发明实施例目标语音检测装置的另一种结构示意图。

与图5所示实施例不同的是，在该实施例中，所述装置还包括：

第二检测模块406，其输入与所述波束形成模块402的输出相连，用于基于强度差进行目标语音检测，得到基于强度差的检测结果，并将所述基于强度差的检测结果发送给所述检测结果输出模块405。

所述第二检测模块406具体可以包括以下各单元：

参考信号获取单元，用于根据所述不同方向的波束得到语音参考信号和噪声参考信号；

计算单元，用于分别计算所述语音参考信号和噪声参考信号的功率，计算语音参考信号和噪声参考信号的功率比值；

检测结果单元，用于根据所述功率比值得到基于强度差的检测结果。

相应地，在该实施例中，所述检测结果输出模块405融合所述基于强度差的检测结果和所述模型输出结果，得到当前帧对应的目标语音的检测结果。具本融合方式可参照前面本发明方法实施例中的描述，在此不再赘述。

本发明实施例的目标语音检测装置，分别基于模型和基于强度差的方式对目标语音进行检测，并将两种不同方式的检测结果进行综合考虑，从而可以使得到的检测结果更准确。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。而且，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及装置；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马峰;王海坤;王智国;胡国平
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：一种远程智能音频系统切换系统及方法与流程
上一篇：一种汞释放量高的释汞剂及其制备方法与流程