1.一种音频数据的自动增益控制方法,其特征在于,包括:
对音频数据进行分帧处理,并提取各帧数据的特征参数;
根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率;以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型,得到所述当前帧数据的噪声类条件概率;
根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率;
当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时,将当前帧音频数据判定为语音帧;以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时,将当前帧数据判定为噪声帧;
当所述当前帧数据被判定为语音帧时,按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益,以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。
2.如权利要求1所述的音频数据的自动增益控制方法,其特征在于,所述音频数据的自动增益控制方法还包括构建语音类别高斯混合模型的步骤以及构建噪声类别高斯混合模型的步骤;
所述构建语音类别高斯混合模型的步骤具体包括:
通过与所述音频数据相同的处理方法,对语音样本数据进行分帧处理并提取各帧数据的特征参数;
根据K-means算法将所述语音样本数据的特征参数划分为若干个语音类别;
获取每个语音类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;
通过EM算法对每个语音类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到语音类别高斯混合模型;
所述构建噪声类别高斯混合模型的步骤具体包括:
通过与所述音频数据相同的处理方法,对噪声样本数据进行分帧处理并提取各帧数据的特征参数;
根据K-means算法将所述噪声样本数据的特征参数划分为若干个噪声类别;
获取每个噪声类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;
通过EM算法对每个噪声类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到噪声类别高斯混合模型。
3.如权利要求1所述的音频数据的自动增益控制方法,其特征在于,所述根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率,包括:
根据所述当前帧数据的语音类条件概率p(xT/Y1)与所述当前帧数据的噪声类条件概率p(xT/Y2)结合贝叶斯公式,计算所述当前帧数据属于语音帧的后验概率p’(Y1/xT)以及属于噪声帧的后验概率p’(Y2/xT);
根据p(Y1/xT)=α1·p(Y1/xT-W+1)+…αW-1·p(Y1/xT-1)+αW·p'(Y1/xT)计算p(Y1/xT);
根据p(Y2/xT)=α1·p(Y2/xT-W+1)+…αW-1·p(Y2/xT-1)+αW·p'(Y2/xT)计算p(Y2/xT);
其中,
T是所述当前帧数据在所述音频数据中的帧序号;XT为所述当前帧数据的特征参数;T-W+1是所述当前帧数据的前W帧的帧序号;W与σ为预设值。
4.如权利要求1所述的音频数据的自动增益控制方法,其特征在于,对所述音频数据进行分帧处理后得到的任意相邻的两帧数据具有重叠的部分。
5.如权利要求1~4任一项所述的音频数据的自动增益控制方法,其特征在于,所述当所述当前帧数据被判定为语音帧时,按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益,以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益,包括:
当所述当前帧数据被判定为语音帧时,获取所述当前帧数据的时域能量并计算预设的期望能量值与所述时域能量的比值,将所述当前帧数据的各数据点乘以所述比值以放大或缩小所述当前帧数据;
当所述当前帧数据被判定为噪声帧时,保持所述当前帧数据不变。
6.一种音频数据的自动增益控制装置,其特征在于,包括:
预处理模块,用于对音频数据进行分帧处理,并提取各帧数据的特征参数;
第一概率获取模块,用于根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率;以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型,得到所述当前帧数据的噪声类条件概率;
第二概率获取模块,用于根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率;
判定模块,用于当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时,将当前帧音频数据判定为语音帧;以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时,将当前帧数据判定为噪声帧;
增益控制模块,用于当所述当前帧数据被判定为语音帧时,按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益,以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。
7.如权利要求6所述的音频数据的自动增益控制装置,其特征在于,所述音频数据的自动增益控制装置还包括第一模型构建模块以及第二模型构建模块;
所述第一模型构建模块包括:
第一预处理单元,用于通过与所述音频数据相同的处理方法,对语音样本数据进行分帧处理并提取各帧数据的特征参数;
第一分类单元,用于根据K-means算法将所述语音样本数据的特征参数划分为若干个语音类别;
第一初始参数获取单元,用于获取每个语音类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;
第一模型优化单元,用于通过EM算法对每个语音类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到语音类别高斯混合模型;
所述第二模型构建模块包括:
第二预处理单元,用于通过与所述音频数据相同的处理方法,对噪声样本数据进行分帧处理并提取各帧数据的特征参数;
第二分类单元,用于根据K-means算法将所述噪声样本数据的特征参数划分为若干个噪声类别;
第二初始参数获取单元,用于获取每个噪声类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;
第二模型优化单元,用于通过EM算法对每个噪声类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到噪声类别高斯混合模型。
8.如权利要求6所述的音频数据的自动增益控制装置,其特征在于,所述第二概率获取模块包括:
后验概率获取单元,用于根据所述当前帧数据的语音类条件概率p(xT/Y1)与所述当前帧数据的噪声类条件概率p(xT/Y2)结合贝叶斯公式,计算所述当前帧数据属于语音帧的后验概率p’(Y1/xT)以及属于噪声帧的后验概率p’(Y2/xT);
概率加权平滑单元,用于
根据p(Y1/xT)=α1·p(Y1/xT-W+1)+…αW-1·p(Y1/xT-1)+αW·p'(Y1/xT)计算p(Y1/xT);以及用于
根据p(Y2/xT)=α1·p(Y2/xT-W+1)+…αW-1·p(Y2/xT-1)+αW·p'(Y2/xT)计算p(Y2/xT);
其中,
T是所述当前帧数据在所述音频数据中的帧序号;XT为所述当前帧数据的特征参数;T-W+1是所述当前帧数据的前W帧的帧序号;W与σ为预设值。
9.如权利要求6所述的音频数据的自动增益控制装置,其特征在于,对所述音频数据进行分帧处理后得到的任意相邻的两帧数据具有重叠的部分。
10.如权利要求6~9任一项所述的音频数据的自动增益控制装置,其特征在于,所述增益控制模块包括:
第一增益控制单元,用于当所述当前帧数据被判定为语音帧时,获取所述当前帧数据的时域能量并计算预设的期望能量值与所述时域能量的比值,将所述当前帧数据的各数据点乘以所述比值以放大或缩小所述当前帧数据;
第二增益控制单元,用于当所述当前帧数据被判定为噪声帧时,保持所述当前帧数据不变。