一种音频数据的自动增益控制方法与装置与流程

文档序号：11097914阅读：534来源：国知局

本发明涉及音频信号处理技术，尤其涉及一种音频数据的自动增益控制方法及装置。

背景技术：

在语音信号处理过程中，不同音频信号的音量强度往往是不一样的，且伴随有噪声，但作为用户，期望与每个人之间的通话都是相同的音量强度而不通过音量键的控制来实现，提升用户体验。现有的自动增益控制方法通过分析出音频信号中的语音部分和噪声部分，分别对这两部分进行增益控制。

现有的自动增益控制方法都是通过时域分析来区分语音与噪声，这种区分方法的局限性较大，无法有效地区分语音和噪声的特征，往往会把语音识别为噪声，或者将噪声识别为语音，造成错误地对音频信号进行增益控制。例如，在人工耳蜗/助听器设备中，若错误地将噪声进行放大，对使用者的体验是非常差的，甚至会造成使用者严重的不舒适感。

技术实现要素：

针对上述问题，本发明的目的在于提供一种音频数据的自动增益控制方法与装置，能够精确有效地区分音频数据中的语音部分和噪声部分，并分别对其进行增益控制，极大地提高了用户的舒适度。

为了实现上述目的，本发明一方面提供了一种音频数据的自动增益控制方法，包括：

对音频数据进行分帧处理，并提取各帧数据的特征参数；

根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率；以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型，得到所述当前帧数据的噪声类条件概率；

根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率；

当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时，将当前帧音频数据判定为语音帧；以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时，将当前帧数据判定为噪声帧；

当所述当前帧数据被判定为语音帧时，按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益，以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。

优选地，所述音频数据的自动增益控制方法还包括构建语音类别高斯混合模型的步骤以及构建噪声类别高斯混合模型的步骤；

所述构建语音类别高斯混合模型的步骤具体包括：

通过与所述音频数据相同的处理方法，对语音样本数据进行分帧处理并提取各帧数据的特征参数；

根据K-means算法将所述语音样本数据的特征参数划分为若干个语音类别；

获取每个语音类别所对应的高斯子模型的初始权重、初始均值以及初始协方差；

通过EM算法对每个语音类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化，得到语音类别高斯混合模型；

所述构建噪声类别高斯混合模型的步骤具体包括：

通过与所述音频数据相同的处理方法，对噪声样本数据进行分帧处理并提取各帧数据的特征参数；

根据K-means算法将所述噪声样本数据的特征参数划分为若干个噪声类别；

获取每个噪声类别所对应的高斯子模型的初始权重、初始均值以及初始协方差；

通过EM算法对每个噪声类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化，得到噪声类别高斯混合模型。

优选地，所述根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率，包括：

根据所述当前帧数据的语音类条件概率p(x_T/Y₁)与所述当前帧数据的噪声类条件概率p(x_T/Y₂)结合贝叶斯公式，计算所述当前帧数据属于语音帧的后验概率p’(Y₁/x_T)以及属于噪声帧的后验概率p’(Y₂/x_T)；

根据p(Y₁/x_T)＝α₁·p(Y₁/x_T-W+1)+…α_W-1·p(Y₁/x_T-1)+α_W·p'(Y₁/x_T)计算p(Y1/x_T)；

根据p(Y₂/x_T)＝α₁·p(Y₂/x_T-W+1)+…α_W-1·p(Y₂/x_T-1)+α_W·p'(Y₂/x_T)计算p(Y2/x_T)；

其中，

T是所述当前帧数据在所述音频数据中的帧序号；X_T为所述当前帧数据的特征参数；T-W+1是所述当前帧数据的前W帧的帧序号；W与σ为预设值。

优选地，对所述音频数据进行分帧处理后得到的任意相邻的两帧数据具有重叠的部分。

优选地，所述当所述当前帧数据被判定为语音帧时，按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益，以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益，包括：

当所述当前帧数据被判定为语音帧时，获取所述当前帧数据的时域能量并计算预设的期望能量值与所述时域能量的比值，将所述当前帧数据的各数据点乘以所述比值以放大或缩小所述当前帧数据；

当所述当前帧数据被判定为噪声帧时，保持所述当前帧数据不变。

本发明实施例另一方面还提供一种音频数据的自动增益控制装置，包括：

预处理模块，用于对音频数据进行分帧处理，并提取各帧数据的特征参数；

第一概率获取模块，用于根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率；以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型，得到所述当前帧数据的噪声类条件概率；

第二概率获取模块，用于根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率；

判定模块，用于当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时，将当前帧音频数据判定为语音帧；以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时，将当前帧数据判定为噪声帧；

增益控制模块，用于当所述当前帧数据被判定为语音帧时，按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益，以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。

优选地，所述音频数据的自动增益控制装置还包括第一模型构建模块以及第二模型构建模块；

所述第一模型构建模块包括：

第一预处理单元，用于通过与所述音频数据相同的处理方法，对语音样本数据进行分帧处理并提取各帧数据的特征参数；

第一分类单元，用于根据K-means算法将所述语音样本数据的特征参数划分为若干个语音类别；

第一初始参数获取单元，用于获取每个语音类别所对应的高斯子模型的初始权重、初始均值以及初始协方差；

第一模型优化单元，用于通过EM算法对每个语音类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化，得到语音类别高斯混合模型；

所述第二模型构建模块包括：

第二预处理单元，用于通过与所述音频数据相同的处理方法，对噪声样本数据进行分帧处理并提取各帧数据的特征参数；

第二分类单元，用于根据K-means算法将所述噪声样本数据的特征参数划分为若干个噪声类别；

第二初始参数获取单元，用于获取每个噪声类别所对应的高斯子模型的初始权重、初始均值以及初始协方差；

第二模型优化单元，用于通过EM算法对每个噪声类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化，得到噪声类别高斯混合模型。

优选地，所述第二概率获取模块包括：

后验概率获取单元，用于根据所述当前帧数据的语音类条件概率p(x_T/Y₁)与所述当前帧数据的噪声类条件概率p(x_T/Y₂)结合贝叶斯公式，计算所述当前帧数据属于语音帧的后验概率p’(Y₁/x_T)以及属于噪声帧的后验概率p’(Y₂/x_T)；

概率加权平滑单元，用于

根据p(Y₁/x_T)＝α₁·p(Y₁/x_T-W+1)+…α_W-1·p(Y₁/x_T-1)+α_W·p'(Y₁/x_T)计算p(Y1/x_T)；以及用于

根据p(Y₂/x_T)＝α₁·p(Y₂/x_T-W+1)+…α_W-1·p(Y₂/x_T-1)+α_W·p'(Y₂/x_T)计算p(Y2/x_T)；

其中，

T是所述当前帧数据在所述音频数据中的帧序号；X_T为所述当前帧数据的特征参数；T-W+1是所述当前帧数据的前W帧的帧序号；W与σ为预设值。

优选地，对所述音频数据进行分帧处理后得到的任意相邻的两帧数据具有重叠的部分。

优选地，所述增益控制模块包括：

第一增益控制单元，用于当所述当前帧数据被判定为语音帧时，获取所述当前帧数据的时域能量并计算预设的期望能量值与所述时域能量的比值，将所述当前帧数据的各数据点乘以所述比值以放大或缩小所述当前帧数据；

第二增益控制单元，用于当所述当前帧数据被判定为噪声帧时，保持所述当前帧数据不变。

相对于现有技术，本发明实施例的有益效果在于：本发明实施例提供了一种音频数据自动增益控制方法与装置，其中方法包括：对音频数据进行分帧处理，并提取各帧数据的特征参数；根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率；以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型，得到所述当前帧数据的噪声类条件概率；根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率；当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时，将当前帧音频数据判定为语音帧；以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时，将当前帧数据判定为噪声帧；当所述当前帧数据被判定为语音帧时，按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益，以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。在语音实时通信中，由于使用环境的多样性，噪声是随着环境的变化而变换的，本发明实施例通过引入高斯混合模型，非常准确地判断出当前帧是语音段还是噪声段，并且分别对语音段和噪声端进行增益控制，实现自动增益控制，避免错误地将噪声进行放大。本发明技术方案极大地提高了语音与噪声的识别水平，并依此进行自动增益控制，有效改善了使用者的体验。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频数据的自动增益控制方法的流程示意图；

图2是本发明实施例提供的一种音频数据的自动增益控制装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其是本发明实施例提供的一种音频数据的自动增益控制方法的流程示意图，包括：

S1，对音频数据进行分帧处理，并提取各帧数据的特征参数；

优选地，对所述音频数据进行分帧处理后得到的任意相邻的两帧数据具有重叠的部分。分帧虽然可以采用连续分段的方法，但采用交叠分段的方法可以使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值优选为0～1/2。

提取特征参数的方法可以采用MFCC(Mel频率倒谱系数)算法、LPC(线性预测分析)算法、LPL(线性预测分析)算法等。

S2，根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率；以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型，得到所述当前帧数据的噪声类条件概率；

S3，根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率；

S4，当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时，将当前帧音频数据判定为语音帧；以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时，将当前帧数据判定为噪声帧；

需要说明的是，当所述当前帧数据属于语音帧的概率与属于噪声帧的概率相等时，可以根据预先设定将当前帧数据判定为语音帧或者噪声帧，这一点本领域技术人员应当能够理解。

S5，当所述当前帧数据被判定为语音帧时，按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益，以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。

在语音实时通信中，由于使用环境的多样性，噪声是随着环境的变化而变换的，本发明实施例通过引入高斯混合模型，非常准确地判断出当前帧是语音段还是噪声段，并且分别对语音段和噪声端进行增益控制，实现自动增益控制，避免错误地将噪声进行放大。本发明技术方案极大地提高了语音与噪声的识别水平，并依此进行自动增益控制，有效改善了使用者的体验。

优选地，所述音频数据的自动增益控制方法还包括构建语音类别高斯混合模型的步骤以及构建噪声类别高斯混合模型的步骤；

所述构建语音类别高斯混合模型的步骤具体包括：

通过与所述音频数据相同的处理方法，对语音样本数据进行分帧处理并提取各帧数据的特征参数；

根据K-means算法将所述语音样本数据的特征参数划分为若干个语音类别；

获取每个语音类别所对应的高斯子模型的初始权重、初始均值以及初始协方差；

通过EM算法(期望最大值算法)对每个语音类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化，得到语音类别高斯混合模型；

所述构建噪声类别高斯混合模型的步骤具体包括：

通过与所述音频数据相同的处理方法，对噪声样本数据进行分帧处理并提取各帧数据的特征参数；

根据K-means算法将所述噪声样本数据的特征参数划分为若干个噪声类别；

获取每个噪声类别所对应的高斯子模型的初始权重、初始均值以及初始协方差；

通过EM算法对每个噪声类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化，得到噪声类别高斯混合模型。

通过以上的步骤可以构建出语音类别高斯混合模型与噪声类别高斯混合模型。由于构建出语音类别高斯混合模型与噪声类别高斯混合模型的步骤是基本一致的，因此以下以构建出语音类别高斯混合模型为例进行具体说明。

1、假设将所述语音样本数据分割为m帧数据，根据K-means算法将所述语音样本数据的特征参数划分为K个语音类别，即语音类别高斯混合模型由K个高斯子模型构成。

2、对于第k个高斯子模型，可以得到其初始均值和初始协方差并且设定任意一个高斯子模型的初始权重

3、对第k个高斯子模型的均值μ_k、协方差Σ_k、权重ω_k进行迭代优化：

其中，t为迭代次数,t大于或等于0；为标准高斯函数；x_i表示第i帧语音样本数据的特征参数。

4、假设在t＝t1时EM算法稳定了，则可以将赋给ω_k，将赋给μ_k，将赋给C_k，从而得到语音类别高斯混合模型：

将当前帧数据的特征参数x_T代入语音类别高斯混合模型p(x/Y₁)可以得到当前帧数据的语音类条件概率p(x_T/Y₁)。

同理，可以得到噪声类别高斯混合模型p(x/Y₂)；将当前帧数据的特征参数x_T代入噪声类别高斯混合模型p(x/Y₂)可以得到当前帧数据的噪声类条件概率p(x_T/Y₂)。需要说明的是，噪声类别高斯混合模型与语音类别高斯混合模型在形式上是相同的，都是属于高斯混合模型，但具体各自包含的高斯子模型的个数以及具体的参数都可能不同，这一点本领域技术人员应当能够理解。

作为对本发明实施例的进一步改进，在步骤S3中，所述根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率，包括：

S31，根据所述当前帧数据的语音类条件概率p(x_T/Y₁)与所述当前帧数据的噪声类条件概率p(x_T/Y₂)结合贝叶斯公式，计算所述当前帧数据属于语音帧的后验概率p’(Y₁/x_T)以及属于噪声帧的后验概率p’(Y₂/x_T)；

具体地，根据贝叶斯公式，所述当前帧数据属于语音帧的后验概率为

所述当前帧数据属于噪声帧的后验概率为

p(Y₁)为语音类别的先验概率，p(Y₂)为噪声类别的先验概率。因为实际应用场景中，噪声和语音的出现概率是无法估计的，故可以设置p(Y₁)＝p(Y₂)为相等，因而p’(Y₁/x_T)和p’(Y₂/x_T)变换为：

S32，根据p(Y₁/x_T)＝α₁·p(Y₁/x_T-W+1)+…α_W-1·p(Y₁/x_T-1)+α_W·p'(Y₁/x_T)计算p(Y1/x_T)；以及，

根据p(Y₂/x_T)＝α₁·p(Y₂/x_T-W+1)+…α_W-1·p(Y₂/x_T-1)+α_W·p'(Y₂/x_T)计算p(Y2/x_T)；

其中，

T是所述当前帧数据在所述音频数据中的帧序号；x_T为所述当前帧数据的特征参数；T-W+1是所述当前帧数据的前W帧的帧序号；W与σ为预设值。

p(Y₁/x_T)为p’(Y₁/x_T)经过加权平滑后得到的概率；同理，p(Y₂/x_T)为p’(Y₁/x_T)经过加权平滑后得到的概率。W代表加权平滑的窗口宽度。

α₁～α_w为加权系数。从α_j的表达式可知，α₁～α_w服从高斯分布且α₁+_...+α_w-1+α_w＝1。在α₁～α_w中，α_w为最大值。即当前帧数据的后验概率的加权系数最大。

原则上根据p’(Y1/x_T)和p’(Y2/x_T)的大小可以判定所述当前帧数据属于语音帧还是噪声帧，但语音或噪声通常都是连续的多帧，加权平滑可以使识别结果过渡更平稳，防止一些异常突变结果。

优选地，在步骤S5中，所述当所述当前帧数据被判定为语音帧时，按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益，以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益，包括：

当所述当前帧数据被判定为噪声帧时，保持所述当前帧数据不变。

当所述比值大于1时，代表所述时域能量达不到所述期望能量值，需要对当前帧数据进行放大；当所述比值小于1时，代表所述时域能量超过所述期望能量值，需要进行缩小。

通过步骤S5可以根据语音帧的时域能量对语音帧进行放大或者缩小，达到自动增益控制效果，同时噪声帧则保持不变，避免错误地对噪声帧进行放大。

需要说明的是，以上只是语音帧增益控制规则与噪声帧增益控制规则的其中一种实施方式，目的是实现自动对语音帧进行增益放大或缩小，同时避免对噪声帧进行了放大操作，其他实施的方式例如将噪声帧的增益进行压缩也是可选的。

为了执行上述的音频数据的自动增益控制方法，本发明实施例还提供了一种音频数据的自动增益控制装置。如图2所示，其是本发明实施例提供的一种音频数据的自动增益控制装置的结构框图。所述音频数据的自动增益控制装置，包括：

预处理模块1，用于对音频数据进行分帧处理，并提取各帧数据的特征参数；

第一概率获取模块2，用于根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率；以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型，得到所述当前帧数据的噪声类条件概率；

第二概率获取模块3，用于根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率；

判定模块4，用于当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时，将当前帧音频数据判定为语音帧；以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时，将当前帧数据判定为噪声帧；

增益控制模块5，用于当所述当前帧数据被判定为语音帧时，按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益，以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。

优选地，所述音频数据的自动增益控制装置还包括第一模型构建模块以及第二模型构建模块；

所述第一模型构建模块包括：

第一预处理单元，用于通过与所述音频数据相同的处理方法，对语音样本数据进行分帧处理并提取各帧数据的特征参数；

第一分类单元，用于根据K-means算法将所述语音样本数据的特征参数划分为若干个语音类别；

第一初始参数获取单元，用于获取每个语音类别所对应的高斯子模型的初始权重、初始均值以及初始协方差；

第一模型优化单元，用于通过EM算法对每个语音类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化，得到语音类别高斯混合模型；

所述第二模型构建模块包括：

第二预处理单元，用于通过与所述音频数据相同的处理方法，对噪声样本数据进行分帧处理并提取各帧数据的特征参数；

第二分类单元，用于根据K-means算法将所述噪声样本数据的特征参数划分为若干个噪声类别；

第二初始参数获取单元，用于获取每个噪声类别所对应的高斯子模型的初始权重、初始均值以及初始协方差；

第二模型优化单元，用于通过EM算法对每个噪声类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化，得到噪声类别高斯混合模型。

优选地，所述第二概率获取模块3包括：

概率加权平滑单元，用于

根据p(Y₁/x_T)＝α₁·p(Y₁/x_T-W+1)+…α_W-1·p(Y₁/x_T-1)+α_W·p'(Y₁/x_T)计算p(Y₁/x_T)；以及用于

根据p(Y₂/x_T)＝α₁·p(Y₂/x_T-W+1)+…α_W-1·p(Y₂/x_T-1)+α_W·p'(Y₂/x_T)计算p(Y₂/x_T)；

其中，

T是所述当前帧数据在所述音频数据中的帧序号；X_T为所述当前帧数据的特征参数；T-W+1是所述当前帧数据的前W帧的帧序号；W与σ为预设值。

优选地，对所述音频数据进行分帧处理后得到的任意相邻的两帧数据具有重叠的部分。

优选地，所述增益控制模块5包括：

第二增益控制单元，用于当所述当前帧数据被判定为噪声帧时，保持所述当前帧数据不变。

需要说明的是，本发明实施例提供的一种音频数据的自动增益控制装置用于执行上述的音频数据的自动增益控制方法，两者的有益效果以及工作原理一一对应，因而不再赘述。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷延强;程雪峰
技术所有人：广州视源电子科技股份有限公司
我是此专利的发明人