一种音频信号增强方法和装置的制造方法_5

文档序号：9249914阅读：来源：国知局

适应码书增益。
[0220] 该实施方式可W实现对待增强帖的谱包络参数、自适应码书增益和代数码书增益进行增强。
[0221] 本实施例中，解码单元81还可W用于解码输入的音频信号的比特流，获取所述音频信号的音频信号帖的谱包络参数；
[0222] 如图10所示，所述装置还可W包括：
[0223] 分类单元85,用于使用所述谱包络参数对所述音频信号帖进行噪声分类，W获取所述音频信号帖的噪声类型；
[0224] 统计单元86,用于在所述音频信号中包括所述音频信号帖在内的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型，其中，所述N为大于或者等于1的整数；
[02巧]其中，上述音频信号帖可W是理解为上述音频信号中的任意帖，或者理解为当前帖，或者可W理解为针对上述音频信号中的每一帖都执行部分解码操作。
[0226] 上述可W是对上述谱包络参数进行噪声分类，再将该谱包络参数的噪声类型作为上述音频信号帖中包含的噪声类型。
[0227] 另外，由于在上述N个帖可能存在不同噪声类型的帖，该样上述步骤就可W对每一种噪声类型进行帖数量统计，从而选择帖数量最多的噪声类型作为所述音频信号的噪声类型。需要说明的是，上述N个帖可W是上述音频信号中的部分帖，例如：上述N个帖为上述音频信号的起始段，或者上述音频信号中第T到第N+T之间的帖，其中，第T帖可W由用户设置的。
[0228] 另外，本实施方式，对音频信号帖进行解码可W是对每个帖都执行，而对音频信号帖的噪声分类可W是对每个帖都执行，或者可W是只对部分帖进行噪声分类。而选择音频信号的噪声类型的步骤可W是只执行一次，或者按照时间周期性执行等。例如：当选择出上述音频信号的噪声类型后，就可W在上述音频信号的处理过程中一直认为上述音频信号的噪声类型为上述选择的噪声类型；或者当选择出上述音频信号的噪声类型后，就可W将选择的噪声类型作为上述音频信号的处理过程中特定时段的噪声类型；或者当选择出上述音频信号的噪声类型后，继续识别每个帖的噪声类型，当识别到连续若干帖的噪声类型与之前选择的噪声类型不同时，可w再次对音频信号进行噪声分类。
[0229] 该实施方式中，分类单元85可W用于从输入的音频信号的比特流中获得对应于所述音频信号帖的码书增益参数，利用所述码书增益参数和所述谱包络参数计算所述音频信号帖对预设的M个噪声模型中每个噪声模型的后验概率，选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帖的噪声类型。
[0230] 其中，上述噪声模型可W是高斯混合模型（GaussianMix化reModel,GMM)。本实施例中，引入基于GMM的噪声分类后，谱包络参数调整时可W选择对应当前噪声环境的 RD順模型，有助于提高算法对复杂噪声环境的适应性。
[0231] 另外，上述码书增益参数可W包括自适应码书增益的长时平均值和代数码书增益的方差。其中，自适应码书增益的长时平均值可W根据当前帖和该当前帖之前的L-1帖的自适应码书增益采用如下公式计算
[0232]
[023引其中，霉("0为第m帖或者当前帖的自适应码书增益的平均值，gp(m-U表示第m-i帖的自适应码书增益，L为大于1的整数。
[0234] 代数码书增益的方差可W根据当前帖和当前帖之前的L-1帖的代数码书增益采用如下公式计算
[02对
樹
[0236] 其中，<(崎为第m帖或者当前帖的代数码书增益的方差，g>-U表示第m-i帖的代数码书增益，豪为L个帖中代数码书增益的平均值。
[0237] 另外，本实施例中，可W预先获取噪声库中各种噪声类型的GMM，例如；可W预先接收用户输入的或者接收其他设备发送的，或者还可W是预先为每种噪声类型训练一个 GMMo
[023引例如；WISF参数为例，在GMM训练中使用的特征矢量由ISF参数、自适应码书增益长时平均值，W及代数码书增益方差构成，特征维数为18维，如图5所示。在训练中可W 使用最大期望算法巧xpectationMaximizationAlgorithm,EM)对噪声数据库中的每一种噪声类型（设噪声类型数目为M)训练一个单独的GMM模型。
[0239] 本实施例中，统计单元86可W用于在所述音频信号中包括所述音频信号帖在内的起始段的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型。
[0240] 该实施方式可W实现使用音频信号的起始段的帖确定音频信号的噪声类型，该样在后续的帖就可W直接使用该噪声类型对应的神经网络进行增强。
[0241] 本实施例中，统计单元86可W用于在所述音频信号中包括所述音频信号帖在内的且不存在语音信号的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型。
[0242] 该实施方式可W实现使用不存在语音信号的N个帖确定音频信号的噪声类型，由于不存在语音信号的音频信号帖比含噪声信号的音频信号帖更加容易反映噪声类型，从而使用不存在语音信号的N个帖确定音频信号的噪声类型更加容易分析出音频信号的噪声类型。
[0243] 另外，该实施方式可W使用话音激活检测（VoiceActivityDetection,VAD)判断当前帖是否存在语音，该样就可W在VAD判定为不存在语音的帖中进行。还可能是当编码器开启非连续传输值iscontinuousTransmission，DlX)模式时，可W利用码流中的VAD信息判断语音是否存在；若编码器没有开启DTX模式，则可W利用ISF参数和码书增益参数等作为特征，判断语音是否存在。
[0244] 本实施例中，统计单元86还可W用于当检测到所述音频信号中连续的多帖的噪声类型与之前判断所述音频信号中包含的噪声类型不同时，在所述连续的多帖内统计所述连续的多帖包含的每个种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号的当前噪声类型；
[0245] 增强单元83可W用于使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值。
[0246] 该实施方式可W实现及时调整音频信号的噪声类型，因为一个音频信号往往会包括多个音频信号帖，而该些音频信号帖也可能会存在不同噪声类型的音频信号帖，从而通过上述步骤就可W实现及时使用当前正确的噪声类型对应的神经网络进行增强，W提供音频信号的质量。
[0247] 本实施例中，在图7所示的实施例的基础上增加了多种可选的实施方式，且都可 W实现降低音频信号的增强过程中计算复杂度和附加时延。
[0248] 请参阅图11，图11是本发明实施例提供的另一种音频信号增强装置的结构示意图，如图11所示，包括；处理器111、网络接口 11、存储器113和通信总线114,其中，通信总线114用于实现所述处理器111、网络接口 112和存储器113之间连接通信，处理器111执行所述存储器中存储的程序用于实现W下方法：
[0249] 解码输入的音频信号的比特流，获取所述音频信号的待增强帖的谱包络参数；
[0250] 使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值；
[0251] 对所述纯净估计值进行量化，得到所述待增强帖的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。
[0巧2] 本实施例中，处理器111执行的步骤还可W包括：
[0253] 解码输入的音频信号的比特流，获取所述音频信号的音频信号帖的谱包络参数；
[0254] 使用所述谱包络参数对所述音频信号帖进行噪声分类，W获取所述音频信号帖的噪声类型；
[0255] 在所述音频信号中包括所述音频信号帖在内的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型，其中，所述N为大于或者等于1的整数。
[0巧6] 本实施例中，处理器111执行的使用所述谱包络参数对所述音频信号帖进行噪声分类，W获取所述音频信号帖的噪声类型的步骤，可W包括：
[0巧7] 从输入的音频信号的比特流中获得对应于所述音频信号帖的码书增益参数，利用所述码书增益参数和所述谱包络参数计算所述音频信号帖对预设的M个噪声模型中每个噪声模型的后验概率，选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帖的噪声类型，其中，M为大于或者等于1的整数。
[0巧引本实施例中，处理器111执行的步骤还可W包括：
[0巧9] 对所述待增强帖的自适应码书增益和代数码书增益进行联合调整，分别对联合调整后的自适应码书增益和代数码书增益进行量化，得到所述待增强帖的联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引，其中，所述待增强帖的自适应码书增益和代数码书增益是对所述待增强帖进行解码操作获取的；
[0260] 将所述待增强帖联合调整后的的自适应码书增益的量化索引替换掉所述待增强帖的自适应码书增益对应的比特，将所述待增强帖联合调整后的的代数码书增益的量化索引替换掉所述待增强帖的代数码书增益对应的比特。
[0%1] 本实施例中，处理器111执行的使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值的步骤，可W包括：
[0%2] 计算所述音频信号的待增强帖与若干帖的谱包络参数的均值，其中，所述若干帖为所述音频信号中在所述待增强帖之前的若干帖；
[0%3] 计算所述待增强帖的去均值的谱包络参数，其中，所述去均值的谱包络参数为所述待增强帖的谱包络参数与所述均值的差值；
[0264] 使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述去均值的谱包络参数进行增强处理，W得到所述去均值的谱包络参数的纯净估计值；
[02化]将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的均值相加，W得到所述待增强帖的谱包络参数的纯净估计值。
[0%6] 本实施例中，处理器111执行的在所述音频信号中包括所述音频信号帖在内的N 个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型的步骤，可W包括：
[0%7] 在所述音频信号中包括所述音频信号帖在内的起始段的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型；或者
[0268] 在所述音频信号中包括所述音频信号帖在内的且不存在语音信号的N个帖中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型。
[0269] 本实施例中，处理器111执行的步骤还可W包括：
[0270] 当检测到所述音频信号中连续的多帖的噪声类型与之前判断的所述音频信号中包含的噪声类型

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6