一种音频信号增强方法和装置的制造方法

文档序号:9249914阅读:598来源:国知局
一种音频信号增强方法和装置的制造方法
【技术领域】
[0001] 本发明设及通信领域,尤其设及一种音频信号增强方法和装置。
【背景技术】
[0002] 在通信系统中,音频信号往往都会受到噪声的干扰,导致音频信号质量下降。目 前,通信领域中主要是通过音频增强技术实现从被噪声污染的音频信号中提取尽可能的干 净信号,W提高音频信号质量。由于实践中需要考虑终端设备在计算能力、存储空间和成本 等方面的限制,往往使用网络设备实现对音频信号的增强。其中,在网络设备对音频信号进 行语音增强过程中包括对音频信号进行完全解码、增强处理和重新编码的操作。由于需要 对音频信号进行完全解码,再对解码后的数据进行处理,从而目前音频信号的增强过程中 计算复杂度和附加时延都会比较高。

【发明内容】

[0003] 本发明实施例提供了一种音频信号增强方法和装置,可W降低音频信号的增强过 程中计算复杂度和附加时延。
[0004] 第一方面,本发明实施例提供一种音频信号增强方法,包括:
[0005] 解码输入的音频信号的比特流,获取所述音频信号的待增强帖的谱包络参数;
[0006] 使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的 待增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包络参数的纯净估计值;
[0007] 对所述纯净估计值进行量化,得到所述待增强帖的谱包络参数的纯净估计值的量 化索引,并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。
[000引在第一方面的第一种可能的实现方式中,所述方法还包括:
[0009] 解码输入的音频信号的比特流,获取所述音频信号的音频信号帖的谱包络参数;
[0010] 使用所述谱包络参数对所述音频信号帖进行噪声分类,W获取所述音频信号帖的 噪声类型;
[0011] 在所述音频信号中包括所述音频信号帖在内的N个帖内中统计所述N个帖包含的 每一种噪声类型的帖数量,选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类 型,其中,所述N为大于或者等于1的整数。
[0012] 结合第一方面第一种可能的实现方式,在第一方面的第二种可能的实现方式中, 所述使用所述谱包络参数对所述音频信号帖进行噪声分类,W获取所述音频信号帖的噪声 类型,包括:
[0013] 从输入的音频信号的比特流中获得对应于所述音频信号帖的码书增益参数,利用 所述码书增益参数和所述谱包络参数计算所述音频信号帖对预设的M个噪声模型中每个 噪声模型的后验概率,选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信 号帖的噪声类型,其中,M为大于或者等于1的整数。
[0014] 结合第一方面或者第一方面的第一种上可能的实现方式或者第一方面第二种可 能的实现方式,在第一方面的第=种可能的实现方式中,所述方法还包括:
[0015] 对所述待增强帖的自适应码书增益和代数码书增益进行联合调整,分别对联合调 整后的自适应码书增益和代数码书增益进行量化,得到所述待增强帖的联合调整后的自适 应码书增益的量化索引和代数码书增益的量化索引,其中,所述待增强帖的自适应码书增 益和代数码书增益是对所述待增强帖进行解码操作获取的;
[0016] 将所述待增强帖的联合调整后的自适应码书增益的量化索引替换掉所述待增强 帖的自适应码书增益对应的比特,将所述待增强帖的联合调整后的代数码书增益的量化索 引替换掉所述待增强帖的代数码书增益对应的比特。
[0017] 结合第一方面或者第一方面的第一种上可能的实现方式或者第一方面第二种可 能的实现方式,在第一方面的第四种可能的实现方式中,所述使用预先为所述音频信号中 包含的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理, W获取所述待增强帖的谱包络参数的纯净估计值,包括:
[001引计算所述音频信号的待增强帖与若干帖的谱包络参数的均值,其中,所述若干帖 为所述音频信号中在所述待增强帖之前的若干帖;
[0019] 计算所述待增强帖的去均值的谱包络参数,其中,所述去均值的谱包络参数为所 述待增强帖的谱包络参数与所述均值的差值;
[0020] 使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述去均值的谱 包络参数进行增强处理,W得到所述去均值的谱包络参数的纯净估计值;
[0021] 将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的 均值相加,W得到所述待增强帖的谱包络参数的纯净估计值。
[0022] 结合第一方面第一种可能的实现方式,在第一方面的第五种可能的实现方式中, 所述在所述音频信号中包括所述音频信号帖在内的N个帖内中统计所述N个帖包含的每一 种噪声类型的帖数量,选择帖数量最多的噪声类型作为所述音频信号中包含的噪声类型, 包括:
[0023] 在所述音频信号中包括所述音频信号帖在内的起始段的N个帖内中统计所述N个 帖包含的每一种噪声类型的帖数量,选择帖数量最多的噪声类型作为所述音频信号中包含 的噪声类型;或者
[0024] 在所述音频信号中包括所述音频信号帖在内的且不存在语音信号的N个帖中统 计所述N个帖包含的每一种噪声类型的帖数量,选择帖数量最多的噪声类型作为所述音频 信号中包含的噪声类型。
[0025] 结合第一方面或者第一方面的第一种上可能的实现方式或者第一方面第二种可 能的实现方式,在第一方面的第六种可能的实现方式中,所述方法还包括:
[0026] 当检测到所述音频信号中连续的多帖的噪声类型与之前判断的所述音频信号中 包含的噪声类型不同时,在所述连续的多帖内统计所述连续的多帖包含的每种噪声类型的 帖数量,选择帖数量最多的噪声类型作为所述音频信号的当前噪声类型;
[0027] 所述使用预先为所述音频信号的噪声类型设置的神经网络对所述音频信号的待 增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包络参数的纯净估计值,包 括:
[002引使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待 增强帖的谱包络参数进行增强处理,w获取所述待增强帖的谱包络参数的纯净估计值。
[0029] 结合第一方面上述任一种可能的实现方式,在第一方面的第走种可能的实现方式 中,所述神经网络包括:
[0030] 递归深度神经网络。
[0031] 第二方面,本发明提供一种音频信号增强装置,包括:解码单元、增强单元和替换 单元,其中:
[0032] 所述解码单元,用于解码输入的音频信号的比特流,获取所述音频信号的待增强 帖的谱包络参数;
[0033] 所述增强单元,用于使用预先为所述音频信号中包含的噪声类型设置的神经网络 对所述音频信号的待增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包络参 数的纯净估计值;
[0034] 所述替换单元,用于对所述纯净估计值进行量化,得到所述待增强帖的谱包络参 数的纯净估计值的量化索引,并将所述量化索引替换掉所述待增强帖的谱包络参数对应的 比特。
[0035] 在第二方面的第一种可能的实现方式中,所述解码单元还用于解码输入的音频信 号的比特流,获取所述音频信号的音频信号帖的谱包络参数;
[0036] 所述装置还包括:
[0037] 分类单元,用于使用所述谱包络参数对所述音频信号帖进行噪声分类,W获取所 述音频信号帖的噪声类型;
[003引统计单元,用于在所述音频信号中包括所述音频信号帖在内的N个帖内统计所述N个帖包含的每一种噪声类型的帖数量,选择帖数量最多的噪声类型作为所述音频信号中 包含的噪声类型,其中,所述N为大于或者等于1的整数;
[0039] 结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式 中,所述分类单元用于从输入的音频信号的比特流中获得对应于所述音频信号帖的码书增 益参数,利用所述码书增益参数和所述谱包络参数计算所述音频信号帖对预设的M个噪声 模型中每个噪声模型的后验概率,选择所述M个噪声模型中后验概率最大的噪声模型作为 所述音频信号帖的噪声类型。
[0040] 结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可 能的实现方式,在第二方面的第=种可能的实现方式中,所述装置还包括:
[0041] 调整单元,用于对所述待增强帖的自适应码书增益和代数码书增益进行联合调 整,分别对联合调整后的自适应码书增益和代数码书增益进行量化,得到所述待增强帖的 联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引,其中,所述待增强 帖的自适应码书增益和代数码书增益是对所述待增强帖进行解码操作获取的;
[0042] 所述替换单元还用于将所述待增强帖的联合调整后的自适应码书增益的量化索 引替换掉所述待增强帖的自适应码书增益对应的比特,将所述待增强帖的联合调整后的代 数码书增益的量化索引替换掉所述待增强帖的代数码书增益对应的比特。
[0043] 结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可 能的实现方式,在第二方面的第四种可能的实现方式中,所述增强单元包括:
[0044] 第一计算单元,用于计算所述音频信号的待增强帖与若干帖的谱包络参数的均 值,其中,所述若干帖为所述音频信号中在所述待增强帖之前的若干帖;
[0045] 第二计算单元,用于计算所述待增强帖的去均值的谱包络参数,其中,所述去均值 的谱包络参数为所述待增强帖的谱包络参数与所述均值的差值;
[0046] 第=计算单元,用于使用预先为所述音频信号的噪声类型设置的神经网络对所述 去均值的谱包络参数进行增强处理,W得到所述去均值的谱包络参数的纯净估计值;
[0047] 第四计算单元,用于将所述去均值的谱包络参数的纯净估计值与预先获取的纯净 音频谱包络参数的均值相加,W得到所述待增强帖的谱包络参数的纯净估计值。
[0048] 结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式 中,所述统计单元用于在所述音频信号中包括所述音频信号帖在内的起始段的N个帖内中 统计所述N个帖包含的每一种噪声类型的帖数量,选择帖数量最多的噪声类型作为所述音 频信号中包含的噪声类型;或者
[0049] 所述统计单元用于在所述音频信号中包括所述音频信号帖在内的且不存在语音 信号的N个帖中统计所述N个帖包含的每一种噪声类型的帖数量,选择帖数量最多的噪声 类型作为所述音频信号中包含的噪声类型。
[0化0] 结合第二方面的第一种可能的实现方式,在第二方面的第六种可能的实现方式 中,所述统计单元还用于当检测到所述音频信号中连续的多帖的噪声类型与之前判断的所 述音频信号中包含的噪声类型不同时,在所述连续的多帖内统计所述连续的多帖包含的每 种噪声类型的帖数量,选择帖数量最多的噪声类型作为所述音频信号的当前噪声类型. [0化1] 所述增强单元用于使用预先为所述音频信号的当前噪声类型设置的神经网络对 所述音频信号的待增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包络参数 的纯净估计值。
[0052] 结合第二方面上述任一种可能的实现方式,在第二方面的第八种可能的实现方式 中,所述神经网络包括:
[0化3] 递归深度神经网络。
[0化4] 上述技术方案中,解码输入的音频信号的比特流,获取所述音频信号的待增强帖 的谱包络参数;使用预
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1