一种音频信号增强方法和装置的制造方法

文档序号：9249914阅读：598来源：国知局

一种音频信号增强方法和装置的制造方法
【技术领域】
[0001] 本发明设及通信领域，尤其设及一种音频信号增强方法和装置。
【背景技术】
[0002] 在通信系统中，音频信号往往都会受到噪声的干扰，导致音频信号质量下降。目前，通信领域中主要是通过音频增强技术实现从被噪声污染的音频信号中提取尽可能的干净信号，W提高音频信号质量。由于实践中需要考虑终端设备在计算能力、存储空间和成本等方面的限制，往往使用网络设备实现对音频信号的增强。其中，在网络设备对音频信号进行语音增强过程中包括对音频信号进行完全解码、增强处理和重新编码的操作。由于需要对音频信号进行完全解码，再对解码后的数据进行处理，从而目前音频信号的增强过程中计算复杂度和附加时延都会比较高。

【发明内容】

[0003] 本发明实施例提供了一种音频信号增强方法和装置，可W降低音频信号的增强过程中计算复杂度和附加时延。
[0004] 第一方面，本发明实施例提供一种音频信号增强方法，包括：
[0005] 解码输入的音频信号的比特流，获取所述音频信号的待增强帖的谱包络参数；
[0006] 使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值；
[0007] 对所述纯净估计值进行量化，得到所述待增强帖的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。
[000引在第一方面的第一种可能的实现方式中，所述方法还包括：
[0009] 解码输入的音频信号的比特流，获取所述音频信号的音频信号帖的谱包络参数；
[0010] 使用所述谱包络参数对所述音频信号帖进行噪声分类，W获取所述音频信号帖的噪声类型；
[0011] 在所述音频信号中包括所述音频信号帖在内的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型，其中，所述N为大于或者等于1的整数。
[0012] 结合第一方面第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述使用所述谱包络参数对所述音频信号帖进行噪声分类，W获取所述音频信号帖的噪声类型，包括：
[0013] 从输入的音频信号的比特流中获得对应于所述音频信号帖的码书增益参数，利用所述码书增益参数和所述谱包络参数计算所述音频信号帖对预设的M个噪声模型中每个噪声模型的后验概率，选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帖的噪声类型，其中，M为大于或者等于1的整数。
[0014] 结合第一方面或者第一方面的第一种上可能的实现方式或者第一方面第二种可能的实现方式，在第一方面的第=种可能的实现方式中，所述方法还包括：
[0015] 对所述待增强帖的自适应码书增益和代数码书增益进行联合调整，分别对联合调整后的自适应码书增益和代数码书增益进行量化，得到所述待增强帖的联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引，其中，所述待增强帖的自适应码书增益和代数码书增益是对所述待增强帖进行解码操作获取的；
[0016] 将所述待增强帖的联合调整后的自适应码书增益的量化索引替换掉所述待增强帖的自适应码书增益对应的比特，将所述待增强帖的联合调整后的代数码书增益的量化索引替换掉所述待增强帖的代数码书增益对应的比特。
[0017] 结合第一方面或者第一方面的第一种上可能的实现方式或者第一方面第二种可能的实现方式，在第一方面的第四种可能的实现方式中，所述使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理， W获取所述待增强帖的谱包络参数的纯净估计值，包括：
[001引计算所述音频信号的待增强帖与若干帖的谱包络参数的均值，其中，所述若干帖为所述音频信号中在所述待增强帖之前的若干帖；
[0019] 计算所述待增强帖的去均值的谱包络参数，其中，所述去均值的谱包络参数为所述待增强帖的谱包络参数与所述均值的差值；
[0020] 使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述去均值的谱包络参数进行增强处理，W得到所述去均值的谱包络参数的纯净估计值；
[0021] 将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的均值相加，W得到所述待增强帖的谱包络参数的纯净估计值。
[0022] 结合第一方面第一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述在所述音频信号中包括所述音频信号帖在内的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型，包括：
[0023] 在所述音频信号中包括所述音频信号帖在内的起始段的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型；或者
[0024] 在所述音频信号中包括所述音频信号帖在内的且不存在语音信号的N个帖中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型。
[0025] 结合第一方面或者第一方面的第一种上可能的实现方式或者第一方面第二种可能的实现方式，在第一方面的第六种可能的实现方式中，所述方法还包括：
[0026] 当检测到所述音频信号中连续的多帖的噪声类型与之前判断的所述音频信号中包含的噪声类型不同时，在所述连续的多帖内统计所述连续的多帖包含的每种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号的当前噪声类型；
[0027] 所述使用预先为所述音频信号的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值，包括：
[002引使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，w获取所述待增强帖的谱包络参数的纯净估计值。
[0029] 结合第一方面上述任一种可能的实现方式，在第一方面的第走种可能的实现方式中，所述神经网络包括：
[0030] 递归深度神经网络。
[0031] 第二方面，本发明提供一种音频信号增强装置，包括：解码单元、增强单元和替换单元，其中：
[0032] 所述解码单元，用于解码输入的音频信号的比特流，获取所述音频信号的待增强帖的谱包络参数；
[0033] 所述增强单元，用于使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值；
[0034] 所述替换单元，用于对所述纯净估计值进行量化，得到所述待增强帖的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。
[0035] 在第二方面的第一种可能的实现方式中，所述解码单元还用于解码输入的音频信号的比特流，获取所述音频信号的音频信号帖的谱包络参数；
[0036] 所述装置还包括：
[0037] 分类单元，用于使用所述谱包络参数对所述音频信号帖进行噪声分类，W获取所述音频信号帖的噪声类型；
[003引统计单元，用于在所述音频信号中包括所述音频信号帖在内的N个帖内统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型，其中，所述N为大于或者等于1的整数；
[0039] 结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述分类单元用于从输入的音频信号的比特流中获得对应于所述音频信号帖的码书增益参数，利用所述码书增益参数和所述谱包络参数计算所述音频信号帖对预设的M个噪声模型中每个噪声模型的后验概率，选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帖的噪声类型。
[0040] 结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式，在第二方面的第=种可能的实现方式中，所述装置还包括：
[0041] 调整单元，用于对所述待增强帖的自适应码书增益和代数码书增益进行联合调整，分别对联合调整后的自适应码书增益和代数码书增益进行量化，得到所述待增强帖的联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引，其中，所述待增强帖的自适应码书增益和代数码书增益是对所述待增强帖进行解码操作获取的；
[0042] 所述替换单元还用于将所述待增强帖的联合调整后的自适应码书增益的量化索引替换掉所述待增强帖的自适应码书增益对应的比特，将所述待增强帖的联合调整后的代数码书增益的量化索引替换掉所述待增强帖的代数码书增益对应的比特。
[0043] 结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式，在第二方面的第四种可能的实现方式中，所述增强单元包括：
[0044] 第一计算单元，用于计算所述音频信号的待增强帖与若干帖的谱包络参数的均值，其中，所述若干帖为所述音频信号中在所述待增强帖之前的若干帖；
[0045] 第二计算单元，用于计算所述待增强帖的去均值的谱包络参数，其中，所述去均值的谱包络参数为所述待增强帖的谱包络参数与所述均值的差值；
[0046] 第=计算单元，用于使用预先为所述音频信号的噪声类型设置的神经网络对所述去均值的谱包络参数进行增强处理，W得到所述去均值的谱包络参数的纯净估计值；
[0047] 第四计算单元，用于将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的均值相加，W得到所述待增强帖的谱包络参数的纯净估计值。
[0048] 结合第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述统计单元用于在所述音频信号中包括所述音频信号帖在内的起始段的N个帖内中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型；或者
[0049] 所述统计单元用于在所述音频信号中包括所述音频信号帖在内的且不存在语音信号的N个帖中统计所述N个帖包含的每一种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型。
[0化0] 结合第二方面的第一种可能的实现方式，在第二方面的第六种可能的实现方式中，所述统计单元还用于当检测到所述音频信号中连续的多帖的噪声类型与之前判断的所述音频信号中包含的噪声类型不同时，在所述连续的多帖内统计所述连续的多帖包含的每种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号的当前噪声类型. [0化1] 所述增强单元用于使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值。
[0052] 结合第二方面上述任一种可能的实现方式，在第二方面的第八种可能的实现方式中，所述神经网络包括：
[0化3] 递归深度神经网络。
[0化4] 上述技术方案中，解码输入的音频信号的比特流，获取所述音频信号的待增强帖的谱包络参数；使用预

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏丙寅;周璇;苗磊;
技术所有人：华为技术有限公司;
我是此专利的发明人

上一篇：一种音乐文件的音质检测方法及装置的制造方法
上一篇：一种声音识别机器人用的声音收集器的制造方法