一种音频信号增强方法和装置的制造方法_3

文档序号：9249914阅读：来源：国知局

帖的ISF特征，为含噪语音ISF参数的均值，由训练数据库中某一类噪声条件下的所有含噪语音ISF参数计算得到。
[0115] 畑順模型的目标输出是纯净语音信号的去均值ISF参数，特征获取方式如下： [0"6]Xeie孤(m)=ISFeiean(m)-ISFm^clean
[0117] ISFtk^(m)为纯净语音ISF参数，ISFm。。。。1。。。为纯净语音ISF参数的均值，由训练数据库中所有纯净语音信号的ISF参数统计得到。
[0118] 与传统D順不同，本实施例采用一种加权均方误差形式的目标函数，表示如下：
[0119]
[0120] 上述F，为权重函数，该试与均方误差形式的目标函数相比，加权目标函数L，考虑了ISF特征中各维的重建误差对语音质量影响不同的特点，对ISF特征每一维的重建误差分配了不同的权重。
[0121] 另外，本实施例中可W通过上述训练方法为每个预先选定的噪声类型训练一个畑順模型。
[012引需要说明的是，本实施例中采用的RD順模型不限于S个隐层，隐层的个数可W根据需要增减。
[0123] 203、对所述纯净估计值进行量化，得到所述待增强帖的谱包络参数纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。
[0124] 本实施例中，上述方法还可W包括如下步骤：
[01巧]204、对所述待增强帖的自适应码书增益和代数码书增益进行联合调整，分别对联合调整后的自适应码书增益和代数码书增益进行量化，得到所述待增强帖的联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引。
[01%] 其中，上述待增强帖的自适应码书增益和代数码书增益可W是对所述待增强帖进行解码操作获取的，例如，步骤201可W包括：
[0127] 解码输入的音频信号的比特流，获取所述音频信号的待增强帖的谱包络参数、自适应码书增益和代数码书增益。
[012引即步骤201对待增强帖的谱包络参数、自适应码书增益和代数码书增益对应比特进行解码。
[0129] 本实施例中，上述对所述待增强帖的自适应码书增益和代数码书增益进行联合调整可W采用能量守恒准则进行调整，例如：可W将上述待增强帖的自适应码书增益和代数码书增益分别定义为第一自适应码书增益和第一代数码书增益，而将联合调整后的待增强帖的自适应码书增益和代数码书增益分别定义为第二自适应码书增益和第二代数码书增益，具体调整过程可w如下：
[0130] 调整第一代数码书增益，得到第二代数码书增益；
[0131] 根据第一自适应码书增益和第二代数码书增益，确定第二自适应码书增益。
[0132] 而上述调整所述第一代数码书增益，得到第二代数码书增益的步骤可W包括：
[0133] 根据所述第一代数码书增益确定噪声的代数码书增益；
[0134] 根据所述噪声的代数码书增益和所述第一代数码书矢量确定噪声激励能量估计值；
[0135] 根据所述第一代数码书增益和所述第一代数码书矢量确定第一代数码书激励能量；
[0136] 根据所述噪声激励能量估计值和所述第一代数码书激励能量，确定所述当前待处理语音子帖的第一后验信噪比估计值；
[0137] 根据所述当前待处理语音子帖的能量和所述当前待处理语音子帖的能量的最小值，确定所述当前待处理语音子帖的第二后验信噪比估计值；
[0138] 根据所述第一后验信噪比估计值和所述第二后验信噪比估计值确定所述当前待处理语音子帖的先验信噪比估计值；
[0139] 采用所述先验信噪比估计值确定所述当前待处理语音子帖的第一调整因子；
[0140] 根据所述第一调整因子调整所述第一代数码书增益，确定所述第二代数码书增益。
[0141] 另外，当对步骤201解码的参数还包括第一自适应码书矢量时，上述根据所述第一自适应码书增益和所述第二代数码书增益，确定第二自适应码书增益的步骤，可W包括：
[0142] 若确定待增强帖为所述第一类子帖，则获取所述待增强帖的第二代数码书矢量W 及第二自适应码书矢量；
[0143] 根据所述第一自适应码书增益、所述第一自适应码书矢量、所述第一代数码书增益W及所述第一代数码书矢量，确定第一总激励能量；
[0144] 根据所述第一总激励能量和能量调整因子，确定第二总激励能量；
[0145] 根据所述第二总激励能量、所述第二代数码书增益、所述第二代数码书矢量W及所述第二自适应码书矢量，确定所述第二自适应码书增益。
[0146] 205、将所述待增强帖的联合调整后的自适应码书增益的量化索引替换掉所述待增强帖的自适应码书增益对应的比特，将所述待增强帖的联合调整后的代数码书增益的量化索引替换掉所述待增强帖的代数码书增益对应的比特。
[0147] 该样可W实现对待增强帖的谱包络参数、自适应码书增益和代数码书增益进行增强。
[0148] 需要说明的是，本实施例中对步骤204和205的执行顺序不作限定，例如：步骤 205和步骤203可W是一起执行的，或者分开执行的，或者步骤204可W是在步骤203之前执行的。
[0149] 本实施例中，还可W包括如下步骤：
[0150] 解码输入的音频信号的比特流，获取所述音频信号的音频信号帖的谱包络参数；
[0151] 使用所述谱包络参数对所述音频信号帖进行噪声分类，W获取所述音频信号帖的噪声类型；
[0152] 在所述音频信号中包括所述音频信号帖在内的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型，其中，所述N为大于或者等于1的整数。
[0153] 其中，上述音频信号帖可W是理解为上述音频信号中的任意帖，或者理解为当前帖，或者可W理解为针对上述音频信号中的每一帖都执行部分解码操作。
[0154] 上述可W是对上述谱包络参数进行噪声分类，再将该谱包络参数的噪声类型作为上述音频信号帖中包含的噪声类型。
[0巧5] 另外，由于在上述N个帖可能存在不同噪声类型的帖，该样上述步骤就可W对每一种噪声类型进行帖数量统计，从而选择帖数量最多的噪声类型作为所述音频信号的噪声类型。需要说明的是，上述N个帖可W是上述音频信号中的部分帖，例如：上述N个帖为上述音频信号的起始段，或者上述音频信号中第T到第N+T之间的帖，其中，第T帖可W由用户设置的。
[0156] 另外，本实施方式，对音频信号帖进行解码可W是对每个帖都执行，而对音频信号帖的噪声分类可W是对每个帖都执行，或者可W是只对部分帖进行噪声分类。而选择音频信号的噪声类型的步骤可W是只执行一次，或者按照时间周期性执行等。例如：当选择出上述音频信号的噪声类型后，就可W在上述音频信号的处理过程中一直认为上述音频信号的噪声类型为上述选择的噪声类型；或者当选择出上述音频信号的噪声类型后，就可W将选择的噪声类型作为上述音频信号的处理过程中特定时段的噪声类型；或者当选择出上述音频信号的噪声类型后，继续识别每个帖的噪声类型，当识别到连续若干帖的噪声类型与之前选择的噪声类型不同时，可W再次对音频信号进行噪声分类。
[0157] 上述使用所述谱包络参数对所述音频信号帖进行噪声分类，W获取所述音频信号帖的噪声类型的步骤，可W包括：
[0158] 从输入的音频信号的比特流中获得对应于所述音频信号帖的码书增益参数，利用所述码书增益参数和所述谱包络参数计算所述音频信号帖对预设的M个噪声模型中每个噪声模型的后验概率，选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帖的噪声类型，其中，M为大于或者等于1的整数。
[0159] 其中，上述噪声模型可W是高斯混合模型（GaussianMix化reModel,GMM)。本实施例中，引入基于GMM的噪声分类后，谱包络参数调整时可W选择对应当前噪声环境的 RD順模型，有助于提高算法对复杂噪声环境的适应性。
[0160] 另外，上述码书增益参数可W包括自适应码书增益的长时平均值和代数码书增益的方差。其中，自适应码书增益的长时平均值可W根据当前帖和该当前帖之前的L-1帖的自适应码书增益采用如下公式计算
[0161]
[016引其中，霉(/")为第m帖或者当前帖的自适应码书增益的平均值，gp(m-U表示第m-i帖的自适应码书增益，L为大于1的整数。
[0163] 代数码书增益的方差可W根据当前帖和当前帖之前的L-1帖的代数码书增益采用如下公式计算
[0164]
(1)
[0165] 其中，为第m帖或者当前帖的代数码书增益的方差，g>-U表示第m-i帖的代数码书增益，豪为L个帖中代数码书增益的平均值。
[0166] 另外，本实施例中，可W预先获取噪声库中各种噪声类型的GMM，例如；可W预先接收用户输入的或者接收其他设备发送的，或者还可W是预先为每种噪声类型训练一个 GMMo
[0167] 例如；WISF参数为例，在GMM训练中使用的特征矢量由ISF参数、自适应码书增益长时平均值，W及代数码书增益方差构成，特征维数可W为18维，如图5所示。在训练中可W使用最大期望算法巧xpectationMaximizationAlgorithm，EM)对噪声数据库中的每一种噪声类型（设噪声类型数目为M)训练一个单独的GMM模型。
[0168] 本实施例中，上述在所述音频信号中包括所述音频信号帖在内的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型的步骤，可W包括：
[0169] 在所述音频信号中包括所述音频信号帖在内的起始段的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型。
[0170] 该实施方式可W实现使用音频信号的起始段的帖确定音频信号的噪声类型，该样在后续的帖就可W直接使用该噪声类型对应的神经网络进行增强。
[0171] 本实施例中，上述在所述音频信号中包括所述音频信号帖在内的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型的步骤，可W包括：
[0172] 在所述音频信号中包括所述音频信号帖在内的且不存在语音信号的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型。
[0173] 该实施方式可W实现使用不存在语音信号的N个帖确定音频信号的噪声类型，由于不存在语音信号的音频信号帖比含噪声信号的音频信号帖更加容易反映噪声类型，从而使用不存在语音信号的N个帖确定音频信号的噪声类型更加容易分析出音频信号的噪声类型。
[0174] 另外，该实施方式可W使用话音激活检测（VoiceActivityDetection,VAD)判断当前帖是否存在语音，该样就可W在VAD判定为不存在语音的帖中进行。还可能是当编码器开启非连续传输值iscontinuousTransmission，DlX)模式时，可W利用码流中的VAD信息判断语音是否存在；若编码器没有开启DTX模式，则可W利用ISF参数和码书增

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6