一种音频信号增强方法和装置的制造方法_6

文档序号:9249914阅读:来源:国知局
不同时,在所述连续的多帖内统计所述述连续的多帖包含的每种噪声类型 的帖数量,选择帖数量最多的噪声类型作为所述音频信号的当前噪声类型;
[0271] 本实施例中,处理器111执行的使用预先为所述音频信号的噪声类型设置的神经 网络对所述音频信号的待增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包 络参数的纯净估计值的步骤,可W包括:
[0272] 使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待 增强帖的谱包络参数进行增强处理,w获取所述待增强帖的谱包络参数的纯净估计值。
[0273] 本实施例中,上述神经网络可W包括:
[0274] 递归深度神经网络。
[0275] 本实施例中,解码输入的音频信号的比特流,获取所述音频信号的待增强帖的谱 包络参数;使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的 待增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包络参数的纯净估计值; 对所述纯净估计值进行量化,得到所述待增强帖的谱包络参数的纯净估计值的量化索引, 并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。该样可W实现只需要对 音频信号帖的谱包络参数对应的比特进行解码,即进行部分解码,从而可W降低音频信号 的增强过程中计算复杂度和附加时延。
[0276] 本领域普通技术人员可W理解实现上述实施例方法中的全部或部分流程,是可W 通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质 中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁 碟、光盘、只读存储记忆体化eacHDnlyMemcxry,ROM)或随机存取存储器(RandomAccess Memoir,简称RAM)等。
[0277] W上所揭露的仅为本发明较佳实施例而已,当然不能W此来限定本发明之权利范 围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
【主权项】
1. 一种音频信号增强方法,其特征在于,包括: 解码输入的音频信号的比特流,获取所述音频信号的待增强帧的谱包络参数; 使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增 强帧的谱包络参数进行增强处理,以获取所述待增强帧的谱包络参数的纯净估计值; 对所述纯净估计值进行量化,得到所述待增强帧的谱包络参数的纯净估计值的量化索 弓丨,并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。2. 如权利要求1所述的方法,其特征在于,所述方法还包括: 解码输入的音频信号的比特流,获取所述音频信号的音频信号帧的谱包络参数; 使用所述谱包络参数对所述音频信号帧进行噪声分类,以获取所述音频信号帧的噪声 类型; 在所述音频信号中包括所述音频信号帧在内的N个帧内中统计所述N个帧包含的每一 种噪声类型的帧数量,选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型, 其中,所述N为大于或者等于1的整数。3. 如权利要求2所述的方法,其特征在于,所述使用所述谱包络参数对所述音频信号 帧进行噪声分类,以获取所述音频信号帧的噪声类型,包括: 从输入的音频信号的比特流中获得对应于所述音频信号帧的码书增益参数,利用所述 码书增益参数和所述谱包络参数计算所述音频信号帧对预设的M个噪声模型中每个噪声 模型的后验概率,选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帧 的噪声类型,其中,M为大于或者等于1的整数。4. 如权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括: 对所述待增强帧的自适应码书增益和代数码书增益进行联合调整,分别对联合调整后 的自适应码书增益和代数码书增益进行量化,得到所述待增强帧的联合调整后的自适应码 书增益的量化索引和代数码书增益的量化索引,其中,所述待增强帧的自适应码书增益和 代数码书增益是对所述待增强帧进行解码操作获取的; 将所述待增强帧的联合调整后的自适应码书增益的量化索引替换掉所述待增强帧的 自适应码书增益对应的比特,将所述待增强帧的联合调整后的代数码书增益的量化索引替 换掉所述待增强帧的代数码书增益对应的比特。5. 如权利要求1-3中任一项所述的方法,其特征在于,所述使用预先为所述音频信号 中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处 理,以获取所述待增强帧的谱包络参数的纯净估计值,包括: 计算所述音频信号的待增强帧与若干帧的谱包络参数的均值,其中,所述若干帧为所 述音频信号中在所述待增强帧之前的若干帧; 计算所述待增强帧的去均值的谱包络参数,其中,所述去均值的谱包络参数为所述待 增强帧的谱包络参数与所述均值的差值; 使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述去均值的谱包络 参数进行增强处理,以得到所述去均值的谱包络参数的纯净估计值; 将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的均值 相加,以得到所述待增强帧的谱包络参数的纯净估计值。6. 如权利要求2所述的方法,其特征在于,所述在所述音频信号中包括所述音频信号 帧在内的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量,选择帧数量最多的 噪声类型作为所述音频信号中包含的噪声类型,包括: 在所述音频信号中包括所述音频信号帧在内的起始段的N个帧内中统计所述N个帧包 含的每一种噪声类型的帧数量,选择帧数量最多的噪声类型作为所述音频信号中包含的噪 声类型;或者 在所述音频信号中包括所述音频信号帧在内的且不存在语音信号的N个帧中统计所 述N个帧包含的每一种噪声类型的帧数量,选择帧数量最多的噪声类型作为所述音频信号 中包含的噪声类型。7. 如权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括: 当检测到所述音频信号中连续的多帧的噪声类型与之前判断的所述音频信号中包含 的噪声类型不同时,在所述连续的多帧内统计所述连续的多帧包含的每种噪声类型的帧数 量,选择帧数量最多的噪声类型作为所述音频信号的当前噪声类型; 所述使用预先为所述音频信号的噪声类型设置的神经网络对所述音频信号的待增强 帧的谱包络参数进行增强处理,以获取所述待增强帧的谱包络参数的纯净估计值,包括: 使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待增强 帧的谱包络参数进行增强处理,以获取所述待增强帧的谱包络参数的纯净估计值。8. 如权利要求1-6中任一项所述的方法,其特征在于,所述神经网络包括:递归深度神 经网络。9.一种音频信号增强装置,其特征在于,包括:解码单元、增强单元和替换单元,其中: 所述解码单元,用于解码输入的音频信号的比特流,获取所述音频信号的待增强帧的 谱包络参数; 所述增强单元,用于使用预先为所述音频信号中包含的噪声类型设置的神经网络对所 述音频信号的待增强帧的谱包络参数进行增强处理,以获取所述待增强帧的谱包络参数的 纯净估计值; 所述替换单元,用于对所述纯净估计值进行量化,得到所述待增强帧的谱包络参数的 纯净估计值的量化索引,并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比 特。10. 如权利要求9所述的装置,其特征在于,所述解码单元还用于解码输入的音频信号 的比特流,获取所述音频信号的音频信号帧的谱包络参数; 所述装置还包括: 分类单元,用于使用所述谱包络参数对所述音频信号帧进行噪声分类,以获取所述音 频信号帧的噪声类型; 统计单元,用于在所述音频信号中包括所述音频信号帧在内的N个帧内统计所述N个 帧包含的每一种噪声类型的帧数量,选择帧数量最多的噪声类型作为所述音频信号中包含 的噪声类型,其中,所述N为大于或者等于1的整数。11. 如权利要求10所述的装置,其特征在于,所述分类单元用于从输入的音频信号的 比特流中获得对应于所述音频信号帧的码书增益参数,利用所述码书增益参数和所述谱包 络参数计算所述音频信号帧对预设的M个噪声模型中每个噪声模型的后验概率,选择所述 M个噪声模型中后验概率最大的噪声模型作为所述音频信号帧的噪声类型。12. 如权利要求9-11中任一项所述的装置,其特征在于,所述装置还包括: 调整单元,用于对所述待增强帧的自适应码书增益和代数码书增益进行联合调整,分 别对联合调整后的自适应码书增益和代数码书增益进行量化,得到所述待增强帧的联合调 整后的自适应码书增益的量化索引和代数码书增益的量化索引,其中,所述待增强帧的自 适应码书增益和代数码书增益是对所述待增强帧进行解码操作获取的; 所述替换单元还用于将所述待增强帧的联合调整后的自适应码书增益的量化索引替 换掉所述待增强帧的自适应码书增益对应的比特,将所述待增强帧的联合调整后的代数码 书增益的量化索引替换掉所述待增强帧的代数码书增益对应的比特。13. 如权利要求9-11中任一项所述的装置,其特征在于,所述增强单元包括: 第一计算单元,用于计算所述音频信号的待增强帧与若干帧的谱包络参数的均值,其 中,所述若干帧为所述音频信号中在所述待增强帧之前的若干帧; 第二计算单元,用于计算所述待增强帧的去均值的谱包络参数,其中,所述去均值的谱 包络参数为所述待增强帧的谱包络参数与所述均值的差值; 第三计算单元,用于使用预先为所述音频信号的噪声类型设置的神经网络对所述去均 值的谱包络参数进行增强处理,以得到所述去均值的谱包络参数的纯净估计值; 第四计算单元,用于将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频 谱包络参数的均值相加,以得到所述待增强帧的谱包络参数的纯净估计值。14. 如权利要求10所述的装置,其特征在于,所述统计单元用于在所述音频信号中包 括所述音频信号帧在内的起始段的N个帧内中统计所述N个帧包含的每一种噪声类型的帧 数量,选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型;或者 所述统计单元用于在所述音频信号中包括所述音频信号帧在内的且不存在语音信号 的N个帧中统计所述N个帧包含的每一种噪声类型的帧数量,选择帧数量最多的噪声类型 作为所述音频信号中包含的噪声类型。15. 如权利要求10所述的装置,其特征在于,所述统计单元还用于当检测到所述音频 信号中连续的多帧的噪声类型与之前判断的所述音频信号中包含的噪声类型不同时,在所 述连续的多帧内统计所述连续的多帧包含的每种噪声类型的帧数量,选择帧数量最多的噪 声类型作为所述音频信号的当前噪声类型; 所述增强单元用于使用预先为所述音频信号的当前噪声类型设置的神经网络对所述 音频信号的待增强帧的谱包络参数进行增强处理,以获取所述待增强帧的谱包络参数的纯 净估计值。16. 如权利要求9-15中任一项所述的装置,其特征在于,所述神经网络包括: 递归深度神经网络。
【专利摘要】本发明实施例公开了一种音频信号增强方法和装置,该方法可包括:解码输入的音频信号的比特流,获取所述音频信号的待增强帧的谱包络参数;使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理,以获取所述待增强帧的谱包络参数的纯净估计值;对所述纯净估计值进行量化,得到所述待增强帧的谱包络参数的纯净估计值的量化索引,并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。本发明实施例可以降低音频信号的增强过程中计算复杂度和附加时延。
【IPC分类】G10L25/30, G10L21/0208, G10L21/0232
【公开号】CN104966517
【申请号】CN201510295355
【发明人】夏丙寅, 周璇, 苗磊
【申请人】华为技术有限公司
【公开日】2015年10月7日
【申请日】2015年6月2日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1