网络音频丢包掩蔽方法和装置制造方法

文档序号：2826128阅读：283来源：国知局

网络音频丢包掩蔽方法和装置制造方法
【专利摘要】本发明公开了一种网络音频丢包掩蔽方法和装置，涉及音频传输领域。本发明通过对丢包后的音频流解码，并将解码得到的音频信号进行反转，然后对音频信号和反转音频信号分别进行丢包补偿，并将补偿后的反转音频信号再次反转，最后对两路补偿后的音频信号进行幅度平均得到输出信号，这种双向预测差错掩蔽技术可以进一步提高音频质量，特别在丢包率比较高的网络环境下，仍然可以获得比较清晰的语音效果。
【专利说明】网络音频丢包掩蔽方法和装置

【技术领域】
[0001] 本发明涉及音频传输领域，特别涉及一种网络音频丢包掩蔽方法和装置，从而减低网络音频流由于丢包产生的不连续感，提高网络音频流的听觉效果。

【背景技术】
[0002] 在VOIP (Voice over Internet Protocol，网络电话)应用中，由于网络质量等一些原因，音频流可能会发生丢包现象，严重的可能会影响语音质量，对通话造成干扰。
[0003] iLBC( internet Low Bit Rate Codec，因特网低比特率编码)算法是一种基于CELP (Code Excited Linear Prediction,码激励线性预测编码)的低比特率语音编码算法，其优异的语音质量、突出的长时预测方法及丢包掩蔽（Packet Loss Concealment,简称PLC)技术，很好地解决了互联网上传输语音的问题。iLBC主要针对包交换网络设计，主要优势是其对于网络丢包的处理。iLBC采用由初始状态构造自适应码本对激励信号进行直接编码，实现了语音帧间的相互独立编码，丢帧的影响局限在本帧内。当数据丢失后，iLBC会根据之前记录的激励信号和语音参数，进行相关处理、残差增强、混合白噪声等操作，生成模拟的语音信号，从而替代丢失的语音。因此，iLBC在音频流发生丢包的情况下，可以减低丢包产生的不连续感。
[0004] 然而，在网络环境较差的情况下可能会发生严重丢包现象，采用现有的iLBC丢包掩蔽技术仍然无法获得满意的语音效果，因此，有必要提出一种丢包掩蔽技术在丢包率比较高的网络环境下，仍然可以获得比较清晰的语音效果。

【发明内容】

[0005] 本发明实施例所要解决的一个技术问题是：解决在丢包率比较高的网络环境下如何获得比较清晰的语音效果的问题。
[0006] 根据本发明实施例的一个方面，提出一种网络音频丢包掩蔽方法，包括：将丢包后的音频流解码为脉冲编码调制PCM信号，将丢包导致缺失的数据段的PCM数据值设为0,将处理后的PCM信号作为音频信号S ;对音频信号S进行时间反转得到音频信号S';音频信号 S经过因特网低比特率编码iLBC丢包补偿处理得到音频信号Si，音频信号S'经过iLBC丢包补偿处理得到音频信号Si' ；对音频信号Si'进行时间反转得到音频信号Sit ;对音频信号Si和音频信号Sit按滑动窗口进行幅度谱平均得到输出的音频信号So。
[0007] 对音频信号Si和音频信号Sit按滑动窗口进行幅度谱平均得到输出的音频信号 So,具体包括：采用滑动窗口对音频信号Si，音频信号Sit，音频信号So进行分帧，每帧的长度2N，两帧之间的滑动间隔为N，并记音频信号Si中的第i帧数据为矢量a i，音频信号 Sit中的第i帧数据为矢量0 i，音频信号So中的第i帧数据为矢量h，窗函数的矢量为w ; 根据窗函数对a ,进行加窗操作得到先，对呙进行快速傅里叶变换后计算其幅度谱化和相位谱t ;根据窗函数对I进行加窗操作得到爲，对属.进行快速傅里叶变换后计算其幅度谱&和相位谱ei;对幅度谱化和幅度谱&进行平均得到2 ;对以2为幅度谱和以t为相位谱的信号进行快速傅里叶逆变换，根据快速傅里叶逆变换的结果计算〇i。
[0008] iLBC丢包补偿处理具体包括：对丢失帧重建线性预测系数，并且重建残差信号。
[0009] 根据本发明实施例的再一个方面，提出一种网络音频丢包掩蔽装置，包括：解码模块，用于将丢包后的音频流解码为脉冲编码调制PCM信号，将丢包导致缺失的数据段的PCM 数据值设为〇,将处理后的PCM信号作为音频信号S ;反转模块，用于对音频信号S进行时间反转得到音频信号S' ；补偿模块，用于音频信号S经过因特网低比特率编码iLBC丢包补偿处理得到音频信号Si，音频信号S'经过iLBC丢包补偿处理得到音频信号Si' ；反转模块，还用于对音频信号Si'进行时间反转得到音频信号Sit ;幅度平均模块，用于对音频信号Si 和音频信号Sit按滑动窗口进行幅度谱平均得到输出的音频信号So。
[0010] 幅度平均模块，具体用于：米用滑动窗口对音频信号Si，音频信号Sit，音频信号 So进行分帧，每帧的长度2N，两帧之间的滑动间隔为N，并记音频信号Si中的第i帧数据为矢量a i，音频信号Sit中的第i帧数据为矢量0 ,，音频信号So中的第i帧数据为矢量〇i，窗函数的矢量为w ;根据窗函数对a i进行加窗操作得到七，对毛进行快速傅里叶变换后计算其幅度谱4和相位谱t ;根据窗函数对I进行加窗操作得到属，对爲进行快速傅里叶变换后计算其幅度谱&和相位谱0i;对幅度谱化和幅度谱&进行平均得到1 ;对以 Z为幅度谱和以叭为相位谱的信号进行快速傅里叶逆变换，根据快速傅里叶逆变换的结果计算〇i。
[0011] 补偿模块的iLBC丢包补偿处理具体用于：对丢失帧重建线性预测系数，并且重建残差号。
[0012] 本发明对丢包后的音频流解码，并将解码得到的音频信号进行反转，然后对音频信号和反转音频信号分别进行丢包补偿，并将补偿后的反转音频信号再次反转，最后对两路补偿后的音频信号进行幅度平均得到输出信号，这种双向预测差错掩蔽技术可以进一步提高音频质量，特别在丢包率比较高的网络环境下，仍然可以获得比较清晰的语音效果。
[0013] 通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

【专利附图】

【附图说明】
[0014] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0015] 图1为本发明网络音频丢包掩蔽方法一个实施例的流程示意图。
[0016] 图2为本发明采用的Hanning窗函数示意图。
[0017] 图3为本发明采用滑动窗口对语音信号叠加操作示意图。
[0018] 图4为本发明对错误掩蔽后的语音质量进行评估的结果示意图。
[0019] 图5为本发明网络音频丢包掩蔽装置一个实施例的结构示意图。

【具体实施方式】
[0020] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0021] 为了在丢包率比较高的网络环境下获得比较清晰的语音效果，本发明采用双向预测差错掩蔽技术可以进一步提高音频质量，特别在丢包率比较高的网络环境下，仍然可以获得比较清晰的语音效果。
[0022] 图1为本发明网络音频丢包掩蔽方法一个实施例的流程示意图。
[0023] 如图1所示，本实施例的网络音频丢包掩蔽方法包括以下步骤：
[0024] S101，将丢包后的音频流解码为PCM (脉冲编码调制）信号，将丢包导致缺失的数据段的PCM数据值设为0,将处理后的PCM信号作为音频信号S。
[0025] S102,对音频信号S进行时间反转得到音频信号S'。
[0026] 本实施例可以将音频信号S和音频信号S'分别存入两个缓冲区。
[0027] S103,音频信号S经过iLBC丢包补偿处理得到音频信号Si，音频信号S'经过iLBC 丢包补偿处理得到音频信号Si'。
[0028] 其中，iLBC丢包补偿处理过程后续详细说明。
[0029] S104,对音频信号Si'进行时间反转得到音频信号Sit。
[0030] S105,对音频信号Si和音频信号Sit按滑动窗口进行幅度谱平均得到输出的音频信号So。
[0031] 本发明提出一种示例性的幅度谱平均方法，可以参考步骤（1)?步骤（5)，具体如下：
[0032] (1)假设有两段相同长度的音频信号Si和音频信号Sit，进行叠加得到输出音频信号So的具体做法为：
[0033] 采用滑动窗口 b对音频信号Si，音频信号Sit，音频信号So进行分帧，每帧的长度 2N，两帧之间的滑动间隔为N，即每一帧与其前后两帧间分别有50%的重叠。这样做可以保证叠加得到的语音的平滑性，并记音频信号Si中的第i帧数据为矢量a i，音频信号Sit中的第i帧数据为矢量0 i，音频信号So中的第i帧数据为矢量Op 2N点对应的Hanning (汉明）窗函数的矢量为w。
[0034] 图2为本发明采用的Hanning窗函数示意图，如图2所示，Hanning窗的长度为2N， N=80。
[0035] 图3为本发明采用滑动窗口对语音信号叠加操作示意图，如图3所示，两个滑动窗口之间的间距为1/2帧。
[0036] (2)根据窗函数对a i进行加窗操作得到先?，对&进行快速傅里叶变换(简称FFT) 后计算其幅度谱A和相位谱小it)
[0037] 加窗操作可以参考如下公式：
[0038]

【权利要求】
1. 一种网络音频丢包掩蔽方法，包括：将丢包后的音频流解码为脉冲编码调制PCM信号，将丢包导致缺失的数据段的PCM数据值设为〇,将处理后的PCM信号作为音频信号S ; 对音频信号S进行时间反转得到音频信号S' ；音频信号S经过因特网低比特率编码iLBC丢包补偿处理得到音频信号Si，音频信号 S'经过iLBC丢包补偿处理得到音频信号Si' ；对音频信号Si'进行时间反转得到音频信号Sit ; 对音频信号Si和音频信号Sit按滑动窗口进行幅度谱平均得到输出的音频信号So。
2. 根据权利要求1所述的方法，其特征在于，所述对音频信号Si和音频信号Sit按滑动窗口进行幅度谱平均得到输出的音频信号So,具体包括：采用滑动窗口对音频信号Si，音频信号Sit，音频信号So进行分帧，每帧的长度2N，两帧之间的滑动间隔为N，并记音频信号Si中的第i帧数据为矢量a i，音频信号Sit中的第 i帧数据为矢量0 i，音频信号So中的第i帧数据为矢量h，窗函数的矢量为w ; 根据窗函数对a ,进行加窗操作得到A，对&进行快速傅里叶变换后计算其幅度谱& 和相位谱小i ; 根据窗函数对I进行加窗操作得到爲，对爲进行快速傅里叶变换后计算其幅度谱& 和相位谱0 i ; 对幅度谱4和幅度谱&进行平均得到：？；对以Z为幅度谱和以小i为相位谱的信号进行快速傅里叶逆变换，根据快速傅里叶逆变换的结果计算〇i。
3. 根据权利要求1所述的方法，其特征在于，所述iLBC丢包补偿处理具体包括：对丢失帧重建线性预测系数，并且重建残差信号。
4. 根据权利要求3所述的方法，其特征在于，所述对丢失帧重建线性预测系数具体包括：将过去帧的最后一个子帧的线性预测系数作为丢失帧的线性预测系数。
5. 根据权利要求3所述的方法，其特征在于，所述重建残差信号具体包括：对前一帧进行基音检测，以基音同步方式重建丢失帧的语音部分，利用相关性得到类噪音的增益，将语音部分与类噪音混合以重建残差信号。
6. -种网络音频丢包掩蔽装置，包括：解码模块，用于将丢包后的音频流解码为脉冲编码调制PCM信号，将丢包导致缺失的数据段的PCM数据值设为0,将处理后的PCM信号作为音频信号S ; 反转模块，用于对音频信号S进行时间反转得到音频信号S' ；补偿模块，用于音频信号S经过因特网低比特率编码iLBC丢包补偿处理得到音频信号 Si，音频信号S'经过iLBC丢包补偿处理得到音频信号Si' ；反转模块，还用于对音频信号Si'进行时间反转得到音频信号Sit ; 幅度平均模块，用于对音频信号Si和音频信号Sit按滑动窗口进行幅度谱平均得到输出的音频信号So。
7. 根据权利要求6所述的装置，其特征在于，所述幅度平均模块，具体用于：采用滑动窗口对音频信号Si，音频信号Sit，音频信号So进行分帧，每帧的长度2N，两帧之间的滑动间隔为N，并记音频信号Si中的第i帧数据为矢量a i，音频信号Sit中的第 i帧数据为矢量0 i，音频信号So中的第i帧数据为矢量h，窗函数的矢量为w ; 根据窗函数对a ,进行加窗操作得到4，对进行快速傅里叶变换后计算其幅度谱Ai和相位谱小i ; 根据窗函数对I进行加窗操作得到,对爲进行快速傅里叶变换后计算其幅度谱& 和相位谱0 i ; 对幅度谱Ai和幅度谱&进行平均得到Z ; 对以I为幅度谱和以t为相位谱的信号进行快速傅里叶逆变换，根据快速傅里叶逆变换的结果计算〇i。
8. 根据权利要求6所述的装置，其特征在于，所述补偿模块的iLBC丢包补偿处理具体用于：对丢失帧重建线性预测系数，并且重建残差信号。
9. 根据权利要求8所述的装置，其特征在于，所述补偿模块在重建线性预测系数时具体用于：将过去帧的最后一个子帧的线性预测系数作为丢失帧的线性预测系数。
10. 根据权利要求8所述的装置，其特征在于，所述补偿模块在重建残差信号时具体用于：对前一帧进行基音检测，以基音同步方式重建丢失帧的语音部分，利用相关性得到类噪音的增益，将语音部分与类噪音混合以重建残差信号。
【文档编号】G10L19/005GK104347076SQ201310345063
【公开日】2015年2月11日申请日期:2013年8月9日优先权日:2013年8月9日
【发明者】屈振华, 江洪, 尹梅, 马涛, 张海涛, 龙显军, 陈珣, 王刚, 王哲, 区洪辉, 黄梓南, 胡文胜, 许捷翰, 叶文超, 刘豪, 郭英申请人:中国电信股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：屈振华;江洪;尹梅;马涛;张海涛;龙显军;陈珣;王刚;王哲;区洪辉;黄梓南;胡文胜;许捷翰;叶文超;刘豪;郭英
技术所有人：中国电信股份有限公司
我是此专利的发明人

上一篇：一种电子变调音频的鉴定方法
上一篇：一种语音控制的方法和智能空调系统的制作方法