一种基于时频平面上下文的音频算术编码方法

文档序号：2829092阅读：283来源：国知局

专利名称：一种基于时频平面上下文的音频算术编码方法
技术领域：
本发明涉及一种基于时频平面上下文的音频算术编码方法，其中音频编码参数概率可自适应，是一种适合于音频信号经过离散余弦变换(MDCT, Modified Discrete CosineTransform)和量化处理后的算术编码方法，属于音频编码技术领域。
背景技术：
数字音频信号在传输过程中需要很大的带宽，在存储过程中需要大量的存储空间。随着熵编码的发展，如霍夫曼编码和算术编码，大量降低了带宽需求，并且不引入信息损失。熵编码方式去除了信源的冗余信息。同有损的数据压缩方式相比，矢量量化方法是去除主观上人们不可听的冗余信息。多数编码器使用有损压缩方式来进行量化和编码音频参数。如果在此基础上结合无损的熵编码，则可以获得更好的压缩效率。随着现在多媒体通讯的发展，高质量全频带低速率语音和音频编码日益重要。除了通过参数变换编码的有损压缩，大部分编码器引入了无损的编码算法来进一步压缩比特，如 MPEG-AAC，MPEG USAC 和 ITU-T G. 719。ITU-T G. 719 是一种低复杂度全频带(20Hz-10kHz)高质量语音和音频编码，编码比特率在32kbps到128kbps。同大部分音频编码器一样，G. 719使用离散余弦变换(MDCT)来实现时频变换。在变换至MDCT域中，信号的静态冗余信息被识别并去除。在使用矢量量化去除主观上不可听的冗余信息进行压缩后，如何实现进一步的压缩就取决于能否有效地对量化MDCT系数进行熵编码。在G. 719中，霍夫曼编码对量化MDCT系数和增益继续进行编码。虽然霍夫曼编码去除了量化MDCT系数的一些冗余信息，但是它具有一定的局限性。在霍夫曼编码中量化MDCT系数的分布是根据训练数据的统计特性提前定义的，缺乏自适应机制。而且霍夫曼编码的码字所需的比特数必须是整数，无法用小数表示。因此引入自适应算术编码到音频编解码器中，如MPEG USAC0自适应模型能够测量信源符号统计特性并在编码和解码过程中不断更新，并且相邻符号上下文的概念被引入自适应算术编码中来进一步提高压缩效率。我国公开号为CN102474274A的发明专利“算术编码和解码的方法”，描述了一种自适应算术编码所涉及的码元概率的更新方法。上下文最先是有图像和视频编码引入的，例如我国公开号为CN1874509的发明专利“基于上下文的自适应二进制算术编码的方法和系统”，提出了一种针对图像像素块上下文的二进制算术编码方法。视频编码中以H. 264中的基于上下文自适应二进制算术编码(CABAC)为例，CABAC是ITU-T/IS0/IEC的视频编码标准，在提高视频编码的编码效率反面起到了很大的作用。通过将算术编码、临近符号、二进制比特流、子宏块的上下文模型相结合，编码器具有高度自适应功能并去除了大量的冗余信息。CABAC的编码过程有三步二进制化，上下文模型选择，自适应二进制算术编码。在自适应二进制算术编解码中包含概率估计和二进制算术编码器。在CABAC中，对待编码符号选择合适的上下文模型，由该模型来分配相应的概率。在编码阶段，二进制算术编码器根据待编码符号的概率生成代表该符号的码字。概率模型决定了编码效率，好的模型能在很大程度上挖掘符号间的相关性。同时该模型还能在编码过程中动态更新。最近，基于位平面的上下文引入音频领域，比如USAC (联合语音音频编码)。其无噪编码方案是基于动态自适应上下文和算术编码器相结合。无噪编码需要量化频谱值和上下文累积概率表，上下文累积概率表来自于已编码的相邻二元矢量频谱系数。编码过程主要考虑符号，最高2比特和剩余比特。上下文自适应只用于最高2比特，符号和剩余比特都均匀分布的概率模型。CABAC设计主要是基于关键元素的二进制化，对二进制化以后的比特流来选择上下文模型，然后进行二进制算术编码。二进制化通过非二进制元素和比特序列的映射完成，生成为二进制流。同时算术编码作为一种无损数据压缩方式在音频领域也起着关键的作用。USAC使用了量化MDCT系数位平面之间的相关性。自适应上下文算术编码在音频编码中的应用还不广泛，尤其是用在量化后的音频参数这一方面还没有得到充分利用，并且没有从时域和频域上下文联合的角度考虑如何提高音频参数的算术编码效率。在我们的研究中，发明了一种基于时频平面上下文(包括时域和频域)的音频算术编码技术。有利于提高量化MDCT系数的编码效率。这种方法对于利用时频之间的相关性来提高待编码的量化MDCT系数的概率非常有用。

发明内容
本发明的目的是为了进一步提高多速率音频编码器的编码效率，压缩编码带宽，利用基于时频平面上下文的音频算术编码方法降低编码比特数，通过设计合适的上下文充分挖掘相邻元素的相关性从而达到整体的平均编码速率的降低。本发明方法在统计音频编码参数概率时使用频数(编码过程中音频编码参数出现的次数)表示，音频编码参数的概率可以通过每个音频编码参数的频数除以所有音频编码参数的累积频数后得到。为了实现上述目的，本发明首先对每帧音频信号使用离散余弦变换和矢量量化得到量化MDCT系数，对量化MDCT系数使用频域上下文，即统计每个量化MDCT系数的一阶条件频数，在使用频域上下文统计完每个量化MDCT系数的一阶条件频数后，对本帧量化MDCT系数是否使用时域上下文进行判断，利用本帧之前两帧相关性判断本帧是否使用时域上下文，如果使用时域上下文则对量化MDCT系数的一阶条件频数分布进行重新分配，如果不使用时域上下文则不对量化MDCT系数的一阶条件频数分布进行重新调整。将最终的一阶条件频数送入算数编码器进行编码。本发明采用的技术方案步骤如下对于待处理的每帧音频信号(I)使用离散余弦变换MDCT和矢量量化，得到量化MDCT系数；(2)对步骤(I)中量化MDCT系数使用频域上下文，统计每个量化MDCT系数的一阶条件频数f (Xi I s)，一阶条件频数是指在前一个量化MDCT系数的条件下统计当前量化MDCT系数的频数；(3)判断步骤(I)中本帧量化MDCT系数是否使用频域上下文，利用本帧之前两帧相关性进行判断，前两巾贞之间的相关系数记为correlation,当correlation < 0. 5时，在当前相邻的两巾贞使用时域上下文，当correlation > 0. 5时，当前相邻的两巾贞不使用时域上下文，其中相关系数correlation的表达式为
权利要求
1.一种基于时频平面上下文的音频算术编码方法，其中音频编码参数的概率可自适应，在统计音频编码参数概率时使用频数(编码过程中音频编码参数出现的次数)表示，音频编码参数的概率可以通过每个音频编码参数的频数除以所有音频编码参数的累积频数后得到，其特征在于通过如下步骤实现的对于待处理的每帧音频信号(1)对每帧音频信号使用离散余弦变换MDCT和矢量量化，得到量化MDCT系数；(2)对步骤(I)中量化MDCT系数使用频域上下文，统计每个量化MDCT系数的一阶条件频数f (Xi I s)，一阶条件频数是指在前一个量化MDCT系数的条件下统计当前量化MDCT系数的频数；(3)判断步骤(I)中本帧量化MDCT系数是否使用时域上下文，利用本帧之前两帧相关性进行判断，前两巾贞之间的相关系数记为correlation,当correlation < O. 5时，在当前相邻的两巾贞使用时域上下文，当correlation > O. 5时，当前相邻的两巾贞不使用时域上下文；(4)在步骤(3)的判断中，如果使用时域上下文则对步骤(2)中量化MDCT系数的一阶条件频数分布进行重新分配；(5)在步骤(3)的判断中，如果不使用时域上下文则对步骤(2)中量化MDCT系数一阶条件频数分布不进行重新分配；(6)把步骤(4)或步骤(5)得到的量化MDCT系数的一阶条件频数送入算数编码器进行编码。
2.如权利要求1所述的其中求取相邻两帧之间的相关系数方法，其特征在于步骤(3) 中计算相关系数的表达式为
3.如权利要求1所述的其中如果使用时域上下文则重新分配量化MDCT系数的一阶条件频数分布，其特征在于步骤(4)中的重新分配过程的表达式为
全文摘要
本发明涉及一种基于时频平面上下文的音频算术编码方法，其中音频编码参数的概率可自适应，属于音频编码领域。其技术特点是首先对每帧音频信号使用离散余弦变换MDCT和矢量量化，然后对量化后的MDCT系数进行上下文分配和概率建模。此过程对量化MDCT系数首先使用频域上下文，即统计待编码量化MDCT系数的一阶条件频数，在使用频域上下文统计完每个量化MDCT系数的一阶条件频数后，对本帧量化MDCT系数利用本帧之前两帧相关性判断是否使用时域上下文，将最终的一阶条件频数送入算术编码器进行编码。本发明方法能够在保持良好音频编码质量的同时，降低音频信号的平均编码速率，从而提高音频编码器的编码效率。
文档编号G10L19/038GK103035249SQ201210456918
公开日2013年4月10日申请日期2012年11月14日优先权日2012年11月14日
发明者王晶, 纪璇, 匡镜明申请人:北京理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晶;纪璇;匡镜明
技术所有人：北京理工大学
我是此专利的发明人

上一篇：一种pet纤维/矿棉纤维复合吸音棉及其制备方法
上一篇：一种语音唤醒模块的实现方法及应用的制作方法