检测音频信号的方法和装置与流程

文档序号：12036176阅读：288来源：国知局

本发明实施例涉及信号处理技术领域，并且更具体地，涉及检测音频信号的方法和装置。

背景技术：

语音活动检测(voiceactivitydetection,vad)是一种广泛应用与语音通信、人机交互等领域的关键技术，vad也可以被称为声音活动检测(soundactivitydetection,sad)。它的作用是检测输入的音频信号中是否有活动性信号，其中活动性信号是相对于非活动信号而言(例如环境背景噪音、静音等)。典型的活动信号包括语音、音乐等。vad的原理是从输入的音频信号中提取一个或多个特征参数，根据这一个或多个特征参数确定一个或多个特征值，然后将这一个或多个特征值与一个或多个门限值进行比较。

现有技术中的基于分段信噪比(segmentalsignaltonoiseratio，ssnr)的活动信号检测方法是将输入的音频信号在频带上划分为多个子带信号，计算该音频信号在每一个子带的能量，通过将该音频信号在每一个子带的能量与一个估计出的背景噪声信号在每个子带的能量做对比，获得该音频信号在每个子带上的信噪比(signal-to-noiseratio，snr)。然后根据每个子带上的子带snr确定ssnr，将ssnr与预设的vad判决门限进行比较，如果该ssnr超过该vad判决门限，则该音频信号为活动信号；如果该ssnr没有超过该vad判决门限，则该音频信号为非活动信号。

典型的一种计算ssnr的方法是将该音频信号所有子带snr相加，得到的结果就是ssnr。例如，可以采用公式1.1确定ssnr：

其中，k表示第k个子带，snr(k)表示第k个子带的子带snr，n表示该音频信号总共被划分为子带的子带个数。

通过上述计算ssnr的方法检测活动语音时，可能会造成活动语音的漏检。

技术实现要素：

本发明实施例提供了检测音频信号的方法和装置，能够准确地分辨活动语音和非活动语音。

第一方面，本发明实施例提供一种检测音频信号的方法，该方法包括：确定输入的音频信号为待判断音频信号；根据所述音频信号中各个子带的子带信噪比snr的权重和各个子带的子带snr，确定增强ssnr，其中，所述音频信号中子带snr大于第一预设门限的高频端子带的子带snr的权重大于其他子带的子带snr的权重；将所述增强ssnr与语音活动检测vad判决门限进行比较以确定所述音频信号是否为活动信号。

结合第一方面，在第一方面的第一种可能的实现方式中，所述确定输入的音频信号为待判断音频信号包括：

根据所述音频信号的子带snr确定所述音频信号为所述待判断音频信号。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述根据所述音频信号的子带snr确定所述音频信号为所述待判断音频信号包括：

在所述音频信号中子带snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定所述音频信号为所述待判断音频信号。

结合第一方面或第一方面的上述任何一种实现方式，在第一方面的又一种实现方式中，所述音频信号被划分成20个子带，所述20个子带由子带0至子带19组成，其中，子带18和所述子带19为所述高频端子带。

结合第一方面或第一方面的上述任何一种实现方式，在第一方面的又一种实现方式中，所述待判断音频信号为清音信号。

结合第一方面或第一方面的上述任何一种实现方式，在第一方面的又一种实现方式中，所述增强ssnr大于基准ssnr。

结合第二方面，本发明实施例提供一种装置，包括：

第一确定单元，用于确定输入的音频信号为待判断音频信号；

第二确定单元，用于根据所述音频信号中各个子带的子带信噪比snr的权重和各个子带的子带snr，确定增强ssnr，其中，所述音频信号中子带snr大于第一预设门限的高频端子带的子带snr的权重大于其他子带的子带snr的权重；

第三确定单元，用于将所述增强ssnr与语音活动检测vad判决门限进行比较以确定所述音频信号是否为活动信号。

结合第二方面，在第二方面的第一种可能的实现方式中，所述第一确定单元，具体用于根据所述音频信号的子带snr确定所述音频信号为所述待判断音频信号。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述第一确定单元，具体用于在所述音频信号中子带snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定所述音频信号为所述待判断音频信号。

结合第二方面或第二方面的上述任何一种实现方式，在第二方面的又一种实现方式中，所述音频信号被划分成20个子带，所述20个子带由子带0至子带19组成，其中，子带18和所述子带19为所述高频端子带。

结合第二方面或第二方面的上述任何一种实现方式，在第二方面的又一种实现方式中，所述待判断音频信号为清音信号。

结合第二方面或第二方面的上述任何一种实现方式，在第二方面的又一种实现方式中，所述增强ssnr大于基准ssnr。

根据本发明实施例所提供的方法，可以确定音频信号的特征，根据音频信号的特征，采用相应的方式确定增强ssnr，并采用该增强ssnr与vad判决门限进行比较，这样可以使得活动信号被漏检比例降低。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的检测音频信号的方法的示意性流程图。

图2是根据本发明实施例提供的检测音频信号的方法的示意性流程图。

图3是根据本发明实施例提供的检测音频信号的方法的示意性流程图。

图4是根据本发明实施例提供的检测音频信号的方法的示意性流程图。

图5是根据本发明实施例提供的装置的结构框图。

图6是根据本发明实施例提供的另一装置的结构框图。

图7是根据本发明实施例提供的装置的结构框图。

图8是根据本发明实施例提供的另一装置的结构框图。

图9是根据本发明实施例提供的另一装置的结构框图。

图10是根据本发明实施例提供的另一装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1是根据本发明实施例提供的检测音频信号的方法的示意性流程图。

101，确定输入的音频信号为待判断音频信号。

102，确定该音频信号的增强ssnr，其中该增强ssnr大于基准ssnr。

103，将该增强ssnr与vad判决门限比较，确定该音频信号是否为活动信号。

在本发明的实施例中，在将增强ssnr与vad判决门限进行比较时，可以使用基准vad判决门限，也可以使用预置算法减小基准vad判决门限后获得的减小后的vad判决门限。其中，基准vad判决门限可以是默认的vad判决门限，该基准vad判决门限可以是预先存储的，也可以是临时计算获得，其中基准vad判决门限的计算可以采用现有公知技术。在使用预置算法减小基准vad判决门限时，该预置算法可以是将基准vad判决门限乘于一个小于1的系数，也可以采用其他算法，本发明实施例并不限定所采用的具体算法。

在采用传统的ssnr计算方法计算一些音频信号的ssnr时，这些音频信号的ssnr可能低于预设的vad判决门限。但是，实际上这些音频信号是活动音频信号。这是由于这些音频信号的特性导致的。例如，在环境snr较低的情况下，高频部分的子带snr会显著降低。并且，由于通常会采用心理声学理论划分子带，高频部分的子带snr对ssnr的贡献较低。在此情况下，对一些能量主要集中在相对高频部分的信号，如清音信号，采用传统的ssnr计算方法计算出的ssnr可能低于vad判决门限，这就造成活动信号的漏检。又如，一些音频信号中，音频信号的能量较平坦的分布在频谱上，但是该音频信号的整体能量较低。这样，在环境snr较低的情况下，采用传统的ssnr计算方法计算出的ssnr也可能低于vad判决门限。图1所示的方法通过适当的提高ssnr的方式，使得ssnr可以大于vad判决门限，从而能够有效地降低活动信号漏减的比例。

图2是根据本发明实施例提供的检测音频信号的方法的示意性流程图。

201，确定输入的音频信号的子带snr。

将输入音频信号的频谱划分为n个子带，其中n为大于1的正整数。具体地，可以采用心理声学理论对该音频信号的频谱进行划分。在采用心理声学理论划分音频信号的频谱的情况下，越靠近低频的子带宽度越窄，越靠近高频的子带宽度越宽。当然，也可以采用其他的方式划分该音频信号的频谱，例如将该音频信号的频谱等分为n个子带等方式。计算输入音频信号每个子带的子带snr，其中该子带snr为该子带的能量与背景噪声在该子带上的能量之比。背景噪声的子带能量一般是通过背景噪声估计器估计出来的估计值。如何采用背景噪声估计器估计出每个子带对应的背景噪声能量是本领域的公知技术，因此，这里就不必赘述。本领域技术人员可以理解，该子带snr可以是直接的能量比值，也可以是直接能量比值的其他表现形式，例如对数子带snr。此外，本领域技术人员还可以理解，该子带snr还可以是对直接子带snr做线性或非线性处理后的子带snr或者其他的变形。以下公式是子带snr的直接能量比值：

snr(k)＝e(k)/en(k)，………………………………………………公式1.2

其中，snr(k)表示第k子带的子带snr，e(k)和en(k)分别表示第k子带的能量和背景噪声在第k子带上的能量。对数子带snr可以表示为：snrlog(k)＝10×log10snr(k)，其中snrlog(k)表示第k子带的对数子带snr，snr(k)表示采用公式1.2计算出的第k子带的子带snr。本领域技术人员还可以理解，用于计算子带snr的子带能量既可以是输入音频信号在子带上的能量，也可以是输入音频信号在子带上的能量去除背景噪声在该子带上的能量之后的能量。snr的计算只要不脱离snr的意义即可。

202，确定输入的音频信号为待判断音频信号。

可选的，作为一个实施例，该确定输入的音频信号为待判断音频信号包括：可以是根据步骤201中确定的该音频信号的子带snr，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，该确定输入的音频信号为待判断音频信号，包括：在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，在根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，该确定输入的音频信号为待判断音频信号，包括：在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带snr小于第二预设门限的低频端子带的数量大于第三数量的情况下，确定该音频信号为待判断音频信号。在本发明实施例中，一帧音频信号的高频端和低频端是相对而言的，即频率相对高一些的部分为高频端，频率相对低一些的部分为低频端。

可选的，作为另一个实施例，在根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，该确定输入的音频信号为待判断音频信号，包括：在该音频信号中的子带snr的值大于第三预设门限的子带的数量大于第四数量的情况下，确定该音频信号为待判断音频信号。

该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说，在大量含有背景噪声的语音清音样本中，统计高频端子带的子带snr，从中确定第一预设门限，使得这些清音样本中绝大多数的高频端子带的子带snr均大于该门限。类似的，在这些语音清音样本中统计低频端子带的子带snr，从中确定第二预设门限，使得这些语音清音样本中的绝大多数低频端子带的子带snr均小于该门限。

该第三预设门限也是根据统计得到的。具体来说，从大量的噪声信号的子带snr中确定第三预设门限，使得这些噪声信号中的绝大多数子带的子带snr都小于该值。

第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例，在大量的含有噪声的语音清音样本帧中，统计高频端子带的子带snr大于第一预设门限的子带数量，从中确定第一数量，使得这些语音清音样本帧中绝大多数的子带snr大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同，第二数量也可以与第一数量不同。类似的，对于第三数量，在大量的含有噪声的语音清音样本帧中，统计低频端子带的子带snr小于第二预设门限的子带数量，从中确定第三数量，使得这些语音清音样本帧中绝大多数的子带snr小于第二预设门限的低频端子带的数量大于该第三数量。对于第四数量，在大量的噪声信号帧中，统计子带snr小于第三预设门限的子带数量，从中确定第四数量，使得这些噪声样本帧中绝大多数的子带snr小于第三预设门限的子带的数量大于该第四数量。

可选的，作为另一个实施例，可以通过判断输入的音频信号是否为清音信号来确定输入的音频信号是否为待判断音频信号。在此情况下，判断该音频信号是否为待判断音频信号时不需要确定该音频信号的子带snr。换句话说，在判断该音频信号是否为待判断音频信号时不需要执行步骤201。具体地，该确定输入的音频信号为待判断音频信号，包括：在确定该音频信号为清音信号的情况下，确定该音频信号为待判断音频信号。具体地，本领域技术人员可以理解，可以有多种用于检测音频信号是否为清音信号的方法。例如，可以通过检测该音频信号的时域过零率(zero-crossingrate，zcr)来确定该音频信号是否为清音信号。具体地，在该音频信号的zcr大于zcr阈值的情况下，确定该音频信号为清音信号，其中该zcr阈值是通过大量实验确定的。

203，确定该音频信号的增强ssnr，其中该增强ssnr大于基准ssnr。

该基准ssnr可以是采用公式1.1计算出来的ssnr。从公式1.1可以看出，在计算基准ssnr时，没有对任何一个子带的子带snr进行加权处理，也就是说，在计算基准ssnr时各个子带的子带snr的权重相同。

可选的，作为一个实施例，在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，或者，在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第二数量且在该音频信号中子带snr小于第二预设门限的低频端子带的数量小于第三数量的情况下，该确定该音频信号的增强ssnr，包括：确定该音频信号中各个子带的子带snr的权重，其中该子带snr大于第一预设门限的高频端子带的权重大于其他子带的子带snr的权重，根据该音频信号中各个子带的子带snr的权重和各个子带的子带snr，确定该增强ssnr。

例如，如果将该音频信号按照心理声学理论划分为20个子带，即子带0至子带19。如果子带18和子带19均大于第一预设值t1，则可以增加四个子带，即子带20至子带23。具体来说，可以将信噪比大于t1的子带18划分为子带18a、子带18b和子带18c，子带19划分为子带19a、子带19b和子带19c。这样，子带18可以看作是子带18a、子带18b和子带18c的母子带，子带19可以看作是子带19a、子带19b和子带19c的母子带。子带18a、子带18b和子带18c的信噪比的取值与其母子带的信噪比取值相同，子带19a、子带19b和子带19c的信噪比的取值与其母子带的信噪比的取值相同。这样，就将原有划分的20个子带重新划分为24个子带。由于在进行活动信号检测时，vad仍然是按照20个子带进行设计的，因此需要将24个子带映射回20个子带，来确定增强ssnr。综上，采用增加该子带snr大于该第一预设门限的高频端子带的数量的方式来确定该增强ssnr时，可以采用以下公式进行计算：

其中，ssnr'表示该增强ssnr。snr(k)表示第k子带的子带snr。

如果采用公式1.1计算的ssnr为基准ssnr，则计算出来的基准ssnr为显然，对于第一类音频信号采用公式1.3计算出来的增强ssnr的值大于采用公式1.1计算出来的基准ssnr的值。

又如，如果将该音频信号按照心理声学理论划分为20个子带，即子带0至子带19。如果snr(18)和snr(19)均大于第一预设值t1，且snr(0)到snr(17)均小于第二预设值t2，则可以采用以下公式确定该增强ssnr：

其中，ssnr'表示该增强ssnr，snr(k)表示第k子带的子带snr，a1和a2为增加权重参数并且a1和a2的取值使得a1×snr(18)+a2×snr(19)大于snr(18)+snr(19)。显然，采用公式1.4计算出来的增强ssnr的值大于采用公式1.1计算出来的基准ssnr的值。

可选的，作为另一实施例，该确定该音频信号的增强ssnr，包括：确定该音频信号的基准ssnr，根据该音频信号的基准ssnr，确定增强ssnr。

可选的，可以使用以下公式确定该增强ssnr：

ssnr'＝x*ssnr+y，………………………………………………公式1.5

其中，ssnr表示该音频信号的基准ssnr，ssnr'表示该增强ssnr，x和y表示增强参数。例如，x的取值可以为1.05，y的取值可以为1。本领域技术人员可以理解，x和y的取值还可以是其他合适的值，使得增强ssnr恰当的大于基准ssnr。

可选的，可以使用以下公式确定该增强ssnr：

ssnr'＝f(x)*ssnr+h(y)，………………………………………公式1.6

其中，ssnr表示该音频信号的原始ssnr，ssnr'表示该增强ssnr，f(x)、h(y)表示增强函数。例如，f(x)和h(y)可以是与该音频信号的长时信噪比(long-termsnr，lsnr)相关的函数，音频信号的长时信噪比为一段较长时间内的平均snr或加权snr。例如，当lsnr大于20时，f(lsnr)可以等于1.1，y(lsnr)可以等于2。当lsnr小于20且大于15时，f(lsnr)可以等于1.05，y(lsnr)可以等于1。当lsnr小于15时，f(lsnr)可以等于1，y(lsnr)可以等于0。本领域技术人员可以理解，f(x)和h(y)还可以是其他合适的形式，使得增强ssnr恰当的大于基准ssnr。

204，将该增强ssnr与vad判决门限比较，确定该音频信号是否为活动信号。

具体来说，将该增强ssnr与vad判决门限比较，如果该增强ssnr大于该vad判决门限，则确定该音频信号为活动信号。否则确定该音频信号为非活动信号。

可选的，作为另一个实施例，在将该增强ssnr与vad判决门限进行比较前，该方法还可以包括：使用预置算法减小该vad判决门限，获得减小后的vad判决门限。在此情况下，将该增强ssnr与vad判决门限比较具体包括：将该增强ssnr与该减小后的vad判决门限进行比较，确定该音频信号是否为活动信号。基准vad判决门限可以是默认的vad判决门限，该基准vad判决门限可以是预先存储的，也可以是临时计算获得，其中基准vad判决门限的计算可以采用现有公知技术。在使用预置算法减小基准vad判决门限时，该预置算法可以是将基准vad判决门限乘于一个小于1的系数，也可以采用其他算法，本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小vad判决门限，使得增强ssnr大于该减小后的vad判决门限，从而可以使得活动信号被漏减的比例降低。

根据图2所示的方法，确定音频信号的特征，根据音频信号的特征，采用相应的方式确定增强ssnr，并采用该增强ssnr与vad判决门限进行比较，这样可以使得活动信号被漏检比例降低。

图3是根据本发明实施例提供的检测音频信号的方法的示意性流程图。

301，确定输入的音频信号为待判断音频信号。

302，确定该音频信号中各个子带的子带snr的权重，其中该子带snr大于第一预设门限的包频段子带的子带snr的权重大于其他子带的子带snr的权重。

303，根据该音频信号中各个子带的子带snr的权重和各个子带的子带snr，确定增强ssnr，其中该增强ssnr大于基准ssnr。

其中，ssnr'表示该增强ssnr。snr(k)表示第k子带的子带snr。

304，将该增强ssnr与vad判决门限比较，确定该音频信号是否为活动信号。

具体来说，将该增强ssnr与vad判决门限比较，如果该增强ssnr大于该vad判决门限，则确定该音频信号为活动信号。否则确定该音频信号为非活动信号。

图3所述的方法可以确定音频信号的特征，根据音频信号的特征，采用相应的方式确定增强ssnr，并采用该增强ssnr与vad判决门限进行比较，这样可以使得活动信号被漏检比例降低。

进一步，该确定输入的音频信号为待判断音频信号，包括，根据该音频信号的子带snr，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，该确定该音频信号为待判断音频信号，包括：在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，在根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，该确定该音频信号为待判断音频信号，包括：在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带snr小于第二预设门限的低频端子带的数量大于第三数量的情况下，确定该音频信号为待判断音频信号。

第一数量、第二数量和第三数量也是根据统计得到的。以第一数量为例，在大量的含有噪声的语音清音样本帧中，统计高频端子带的子带snr大于第一预设门限的子带数量，从中确定第一数量，使得这些语音清音样本帧中绝大多数的子带snr大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同，第二数量也可以与第一数量不同。类似的，对于第三数量，在大量的含有噪声的语音清音样本帧中，统计低频端子带的子带snr小于第二预设门限的子带数量，从中确定第三数量，使得这些语音清音样本帧中绝大多数的子带snr小于第二预设门限的低频端子带的数量大于该第三数量。

图1至图3的实施例通过使用增强ssnr的方式判断输入的音频信号是否为活动信号。图4所示的方法是通过减小vad判决门限的方式判断输入的音频信号是否为活动信号。

图4是根据本发明实施例提供的检测音频信号的方法的示意性流程图。

401，确定输入的音频信号为待判断音频信号。

402，获取该音频信号的基准ssnr。

具体地，该基准ssnr可以是采用公式1.1计算出来的ssnr。

403，使用预置算法减小基准vad判决门限，获得减小后的vad判决门限。

具体地，基准vad判决门限可以是默认的vad判决门限，该基准vad判决门限可以是预先存储的，也可以是临时计算获得，其中基准vad判决门限的计算可以采用现有公知技术。在使用预置算法减小基准vad判决门限时，该预置算法可以是将基准vad判决门限乘于一个小于1的系数，也可以采用其他算法，本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小vad判决门限，使得增强ssnr大于该减小后的vad判决门限，从而可以使得活动信号被漏减的比例降低。

404，将该基准ssnr与该减小后的vad判决门限进行比较，确定该音频信号是否为活动信号。

在采用传统的ssnr计算方法计算一些音频信号的ssnr时，这些音频信号的ssnr可能低于预设的vad判决门限。但是，实际上这些音频信号是活动音频信号。这是由于这些音频信号的特性导致的。例如，在环境snr较低的情况下，高频部分的子带snr会显著降低。并且，由于通常会采用心理声学理论划分子带，高频部分的子带snr对ssnr的贡献较低。在此情况下，对一些能量主要集中在相对高频部分的信号，如清音信号，采用传统的ssnr计算方法计算出的ssnr可能低于vad判决门限，这就造成活动信号的漏检。又如，一些音频信号中，音频信号的能量较平坦的分布在频谱上，但是该音频信号的整体能量较低。这样，在环境snr较低的情况下，采用传统的ssnr计算方法计算出的ssnr也可能低于vad判决门限。图4所示的方法通过降低vad判决门限的方式，使得采用传统的ssnr计算方法计算出的ssnr大于vad判决门限，从而能够有效地降低活动信号漏减的比例。

图5是根据本发明实施例提供的装置的结构框图。图5所示的装置能够执行图1或图2的各个步骤。如图5所示，装置500包括第一确定单元501、第二确定单元502和第三确定单元503。

第一确定单元501，用于确定输入的音频信号为待判断音频信号。

第二确定单元502，用于确定该音频信号的增强分段信噪比ssnr，其中该增强ssnr大于基准ssnr。

第三确定单元503，用于将该增强ssnr与语音活动检测vad判决门限比较，确定该音频信号是否为活动信号。

图5所示的装置500可以确定输入的音频信号的特征，根据音频信号的特征，采用相应的方式确定增强ssnr，并采用该增强ssnr与vad判决门限进行比较，这样可以使得活动信号被漏检比例降低。

可选的，作为一个实施例，该第一确定单元501，具体用于根据该音频信号的子带snr，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在第一确定单元501根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，第一确定单元501，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，在第一确定单元501根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，第一确定单元501，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带snr小于第二预设门限的低频端子带的数量大于第三数量情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，在第一确定单元501根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，第一确定单元501，具体用于在该音频信号中的子带snr的值大于第三预设门限的子带的数量大于第四数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，第一确定单元501，具体用于在确定该音频信号为清音信号的情况下，确定该音频信号为待判断音频信号。具体地，本领域技术人员可以理解，可以有多种用于检测音频信号是否为清音信号的方法。例如，可以通过检测该音频信号的时域过零率(zero-crossingrate，zcr)来确定该音频信号是否为清音信号。具体地，在该音频信号的zcr大于zcr阈值的情况下，确定该音频信号为清音信号，其中该zcr阈值是通过大量实验确定的。

第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例，在大量的含有噪声的语音样本中，统计高频端子带的子带snr大于第一预设门限的子带数量，从中确定第一数量，使得这些语音样本中绝大多数的大于第一预设门限的高频端子带snr的数量大于该第一数量。确定第二数量的方法与确定第一数量的方法类似。第二数量可以与第一数量相同，也可以与第一数量不同。类似的，对于第三数量，在大量的含有噪声的语音样本中，统计低频端子带的子带snr大于第二预设门限的子带数量，从中确定第三数量，使得这些语音样本中绝大多数的大于第二预设门限的低频端子带snr的数量大于该第三数量。对于第四数量，在大量的含有噪声的语音样本中，统计子带snr大于第三预设门限的子带数量，从中确定第四数量，使得这些语音样本中绝大多数的大于第三预设门限的子带snr的数量大于该第四数量。

进一步，第二确定单元502，具体用于确定该音频信号中各个子带的子带snr的权重，其中该子带snr大于第一预设门限的高频端子带的权重大于其他子带的子带snr的权重，根据该音频信号中的各个子带的子带snr的权重和各个子带的snr，确定该增强ssnr。

可选的，作为一个实施例，第二确定单元502，具体用于确定该音频信号的基准ssnr，根据该音频信号的基准ssnr，确定增强ssnr。

该基准ssnr可以是采用公式1.1计算出来的ssnr。基准ssnr在计算时，计入ssnr的各个子带的子带snr在ssnr中的权重相同。

可选的，作为另一个实施例，第二确定单元502，具体用于使用以下公式确定该增强ssnr：

ssnr'＝x*ssnr+y，………………………………………………公式1.7

其中，ssnr表示该基准ssnr，ssnr'表示该增强ssnr，x和y表示增强参数。例如，x的取值可以为1.05，y的取值可以为1。本领域技术人员可以理解，x和y的取值还可以是其他合适的值，使得增强ssnr恰当的大于基准ssnr。

可选的，作为另一个实施例，第二确定单元502，具体用于使用以下公式确定该增强ssnr：

ssnr'＝f(x)*ssnr+h(y)，………………………………………公式1.8

其中，ssnr表示该基准ssnr，ssnr'表示该增强ssnr，f(x)、h(y)表示增强函数。例如，f(x)和h(y)可以是与该音频信号的长时信噪比(long-termsnr，lsnr)相关的函数，音频信号的长时信噪比为一段较长时间内的平均snr或加权snr。例如，当lsnr大于20时，f(lsnr)可以等于1.1，y(lsnr)可以等于2。当lsnr小于20且大于15时，f(lsnr)可以等于1.05，y(lsnr)可以等于1。当lsnr小于15时，f(lsnr)可以等于1，y(lsnr)可以等于0。本领域技术人员可以理解，f(x)和h(y)还可以是其他合适的形式，使得增强ssnr恰当的大于基准ssnr。

第三确定单元503，具体用于将该增强ssnr与语音活动检测vad判决门限比较，根据比较结构确定该音频信号是否为活动信号。具体来说，如果该增强ssnr大于该vad判决门限，则确定该音频信号为活动信号。如果该增强ssnr小于该vad判决门限，则确定该音频信号为非活动信号。

可选的，作为另一个实施例，还可以使用预置算法减小基准vad判决门限后获得的减小后的vad判决门限，使用减小后的vad判决门限确定该音频信号是否为活动信号。在此情况下，装置500还可以包括第四确定单元504。第四确定单元504用于使用预置算法减小该vad判决门限，获得减小后的vad判决门限。在此情况下，第三确定单元503，具体用于将该增强ssnr与该减小后的vad判决门限进行比较，确定该音频信号是否为活动信号。

图6是根据本发明实施例提供的另一装置的结构框图。图6所示的装置能够执行图3的各个步骤。如图6所示，装置600包括第一确定单元601、第二确定单元602和第三确定单元603。

第一确定单元601，用于确定输入的音频信号为待判断音频信号。

第二确定单元602，用于确定该音频信号中各个子带的子带信噪比snr的权重，其中该子带snr大于第一预设门限的高频端子带的子带snr的权重大于其他子带的子带snr的权重，根据该音频信号中的各个子带的子带snr的权重和各个子带的子带snr，确定增强分段信噪比ssnr，其中该增强ssnr大于基准ssnr。

第三确定单元603，用于将该增强ssnr与语音活动检测vad判决门限比较，确定该音频信号是否为活动信号。

图6所示的装置600可以确定输入的音频信号的特征，根据音频信号的特征，采用相应的方式确定增强ssnr，并采用该增强ssnr与vad判决门限进行比较，这样可以使得活动信号被漏检比例降低。

进一步，第一确定单元601，具体用于根据该音频信号的子带信噪比snr，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，第一确定单元601，具体用于在该音频信号中子带信噪比snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，第一确定单元601，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带snr小于第二预设门限的低频端子带的数量大于第三数量情况下，确定该音频信号为待判断音频信号。

图7是根据本发明实施例提供的装置的结构框图。图7所示的装置能够执行图1或图2的各个步骤。如图7所示，装置700包括处理器701和存储器702。其中，处理器701可以是通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(randomaccessmemory，ram)、闪存、只读存储器(read-onlymemory，rom)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702，处理器701读取存储器702中的指令，结合其硬件完成上述方法的步骤。

处理器701，用于确定输入的音频信号为待判断音频信号。

处理器701，用于确定该音频信号的增强分段信噪比ssnr，其中该增强ssnr大于基准ssnr。

处理器701，用于将该增强ssnr与语音活动检测vad判决门限比较，确定该音频信号是否为活动信号。

图7所示的装置700可以确定输入的音频信号的特征，根据音频信号的特征，采用相应的方式确定增强ssnr，并采用该增强ssnr与vad判决门限进行比较，这样可以使得活动信号被漏检比例降低。

可选的，作为一个实施例，该处理器701，具体用于根据该音频信号的子带snr，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在处理器701根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，处理器701，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，在处理器701根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，处理器701，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带snr小于第二预设门限的低频端子带的数量大于第三数量情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，在处理器701根据该音频信号的子带snr确定该音频信号为待判断音频信号的情况下，处理器701，具体用于在该音频信号中的子带snr的值大于第三预设门限的子带的数量大于第四数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，处理器701，具体用于在确定该音频信号为清音信号的情况下，确定该音频信号为待判断音频信号。具体地，本领域技术人员可以理解，可以有多种用于检测音频信号是否为清音信号的方法。例如，可以通过检测该音频信号的时域过零率(zero-crossingrate，zcr)来确定该音频信号是否为清音信号。具体地，在该音频信号的zcr大于zcr阈值的情况下，确定该音频信号为清音信号，其中该zcr阈值是通过大量实验确定的。

进一步，处理器701，具体用于确定该音频信号中各个子带的子带snr的权重，其中该子带snr大于第一预设门限的高频端子带的权重大于其他子带的子带snr的权重，根据该音频信号中的各个子带的子带snr的权重和各个子带的snr，确定该增强ssnr。

可选的，作为一个实施例，处理器701，具体用于确定该音频信号的基准ssnr，根据该音频信号的基准ssnr，确定增强ssnr。

该基准ssnr可以是采用公式1.1计算出来的ssnr。基准ssnr在计算时，计入ssnr的各个子带的子带snr在ssnr中的权重相同。

可选的，作为另一个实施例，处理器701，具体用于使用以下公式确定该增强ssnr：

ssnr'＝x*ssnr+y，………………………………………………公式1.7

其中，ssnr表示该基准ssnr，ssnr'表示该增强ssnr，x和y表示增强参数。例如，x的取值可以为1.07，y的取值可以为1。本领域技术人员可以理解，x和y的取值还可以是其他合适的值，使得增强ssnr恰当的大于基准ssnr。

可选的，作为另一个实施例，处理器701，具体用于使用以下公式确定该增强ssnr：

ssnr'＝f(x)*ssnr+h(y)，………………………………………公式1.8

其中，ssnr表示该基准ssnr，ssnr'表示该增强ssnr，f(x)、h(y)表示增强函数。例如，f(x)和h(y)可以是与该音频信号的长时信噪比(long-termsnr，lsnr)相关的函数，音频信号的长时信噪比为一段较长时间内的平均snr或加权snr。例如，当lsnr大于20时，f(lsnr)可以等于1.1，y(lsnr)可以等于2。当lsnr小于20且大于17时，f(lsnr)可以等于1.07，y(lsnr)可以等于1。当lsnr小于17时，f(lsnr)可以等于1，y(lsnr)可以等于0。本领域技术人员可以理解，f(x)和h(y)还可以是其他合适的形式，使得增强ssnr恰当的大于基准ssnr。

处理器701，具体用于将该增强ssnr与语音活动检测vad判决门限比较，根据比较结构确定该音频信号是否为活动信号。具体来说，如果该增强ssnr大于该vad判决门限，则确定该音频信号为活动信号。如果该增强ssnr小于该vad判决门限，则确定该音频信号为非活动信号。

可选的，作为另一个实施例，还可以使用预置算法减小基准vad判决门限后获得的减小后的vad判决门限，使用减小后的vad判决门限确定该音频信号是否为活动信号。在此情况下，处理器701还可以用于使用预置算法减小该vad判决门限，获得减小后的vad判决门限。在此情况下，处理器701具体用于将该增强ssnr与该减小后的vad判决门限进行比较，确定该音频信号是否为活动信号。

图8是根据本发明实施例提供的另一装置的结构框图。图8所示的装置能够执行图3的各个步骤。如图8所示，装置800包括处理器801和存储器802。其中，处理器801可以是通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(randomaccessmemory，ram)、闪存、只读存储器(read-onlymemory，rom)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802，处理器801读取存储器802中的指令，结合其硬件完成上述方法的步骤。

处理器801，用于确定输入的音频信号为待判断音频信号。

处理器801，用于确定该音频信号中各个子带的子带信噪比snr的权重，其中该子带snr大于第一预设门限的高频端子带的子带snr的权重大于其他子带的子带snr的权重，根据该音频信号中的各个子带的子带snr的权重和各个子带的子带snr，确定增强分段信噪比ssnr，其中该增强ssnr大于基准ssnr。

处理器801，用于将该增强ssnr与语音活动检测vad判决门限比较，确定该音频信号是否为活动信号。

图8所示的装置800可以确定输入的音频信号的特征，根据音频信号的特征，采用相应的方式确定增强ssnr，并采用该增强ssnr与vad判决门限进行比较，这样可以使得活动信号被漏检比例降低。

进一步，处理器801，具体用于根据该音频信号的子带信噪比snr，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，处理器801，具体用于在该音频信号中子带信噪比snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为另一个实施例，处理器801，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带snr小于第二预设门限的低频端子带的数量大于第三数量情况下，确定该音频信号为待判断音频信号。

图9是根据本发明实施例提供的另一装置的结构框图。图9所示的装置900可以执行图4的各个步骤。如图9所示，装置900包括：第一确定单元901、第二确定单元902、第三确定单元903和第四确定单元904。

第一确定单元901，用于确定输入的音频信号为待判断音频信号。

第二确定单元902，用于获取该音频信号的基准ssnr。

具体地，该基准ssnr可以是采用公式1.1计算出来的ssnr。

第三确定单元903，用于使用预置算法减小基准vad判决门限，获得减小后的vad判决门限。

第四确定单元904，用于将该基准ssnr与该减小后的vad判决门限进行比较，确定该音频信号是否为活动信号。

可选的，作为一个实施例，第一确定单元901，具体用于根据该音频信号的snr，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在第一确定单元901根据该音频信号的snr确定该音频信号为待判断音频信号的情况下，第一确定单元901，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在第一确定单元901根据该音频信号的snr确定该音频信号为待判断音频信号的情况下，第一确定单元901，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带snr小于第二预设门限的低频端子带的数量大于第三数量情况下，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在第一确定单元901根据该音频信号的snr确定该音频信号为待判断音频信号的情况下，第一确定单元901，具体用于在该音频信号中中子带snr的值大于第三预设门限的子带的数量大于第四数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，第一确定单元901，具体用于在确定该音频信号为清音信号的情况下，确定该音频信号为待判断音频信号。具体地，本领域技术人员可以理解，可以有多种用于检测音频信号是否为清音信号的方法。例如，可以通过检测该音频信号的时域过零率(zero-crossingrate，zcr)来确定该音频信号是否为清音信号。具体地，在该音频信号的zcr大于zcr阈值的情况下，确定该音频信号为清音信号，其中该zcr阈值是通过大量实验确定的。

图9所示的装置900可以确定输入的音频信号的特征，根据音频信号的特征，减小基准vad判决门限，并采用ssnr与减小后的vad判决门限进行比较，这样可以使得活动信号被漏检比例降低。

图10是根据本发明实施例提供的另一装置的结构框图。图10所示的装置1000可以执行图4的各个步骤。如图10所示，装置1000包括：处理器1001和存储器1002。其中，处理器1001可以是通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(randomaccessmemory，ram)、闪存、只读存储器(read-onlymemory，rom)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1002，处理器1001读取存储器1002中的指令，结合其硬件完成上述方法的步骤。

处理器1001，用于确定输入的音频信号为待判断音频信号。

处理器1001，用于获取该音频信号的基准ssnr。

具体地，该基准ssnr可以是采用公式1.1计算出来的ssnr。

处理器1001，用于使用预置算法减小基准vad判决门限，获得减小后的vad判决门限。

处理器1001，用于将该基准ssnr与该减小后的vad判决门限进行比较，确定该音频信号是否为活动信号。

可选的，作为一个实施例，处理器1001，具体用于根据该音频信号的snr，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在处理器1001根据该音频信号的snr确定该音频信号为待判断音频信号的情况下，处理器1001，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第一数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在处理器1001根据该音频信号的snr确定该音频信号为待判断音频信号的情况下，处理器1001，具体用于在该音频信号中子带snr大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带snr小于第二预设门限的低频端子带的数量大于第三数量情况下，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，在处理器1001根据该音频信号的snr确定该音频信号为待判断音频信号的情况下，处理器1001，具体用于在该音频信号中中子带snr的值大于第三预设门限的子带的数量大于第四数量的情况下，确定该音频信号为待判断音频信号。

可选的，作为一个实施例，处理器1001，具体用于在确定该音频信号为清音信号的情况下，确定该音频信号为待判断音频信号。具体地，本领域技术人员可以理解，可以有多种用于检测音频信号是否为清音信号的方法。例如，可以通过检测该音频信号的时域过零率(zero-crossingrate，zcr)来确定该音频信号是否为清音信号。具体地，在该音频信号的zcr大于zcr阈值的情况下，确定该音频信号为清音信号，其中该zcr阈值是通过大量实验确定的。

图10所示的装置1000可以确定输入的音频信号的特征，根据音频信号的特征，减小基准vad判决门限，并采用ssnr与减小后的vad判决门限进行比较，这样可以使得活动信号被漏检比例降低。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王喆
技术所有人：华为技术有限公司
我是此专利的发明人