一种音频数据的编码方法及装置的制作方法

文档序号：2823717阅读：232来源：国知局

专利名称：一种音频数据的编码方法及装置的制作方法
技术领域：
本发明涉及多媒体技术，特别涉及一种音频数据的编码方法及装置。
背景技术：
Ogg/Vorbis是美国Xiph. org组织开发的通用感知音频编码器。Ogg是一种多媒体外层格式，它可以是包含数字音频(Vorbis)也可以包含数字视频(Tarkin)，Vorbis是 Xiph. org开发的专用音频格式。相比于MP3等其他编码算法，Ogg/Vorbis的最大特点是源码完全公开、无专利限制，具有较大的编码灵活性。Ogg/Vorbis采用了一种有损音频压缩算法，在高质量(高比特率)级别(⑶或DAT立体声，16/Mbit量化)时，与现在的MPEG-2 和MPEG-4等的音频算法相当；Ogg/Vorbis编码器在没有重新采样到低采样率时，可将⑶ 或DAT高质量立体声信号压缩到低于48Kbps比特率；它支持采样率为8kHz-192kHz的16 位以上的⑶音频或PCM数据，支持30-190KbpS/channel的可变码率模式(VBR)，并且具有压缩率实时调节的技术，可以让用户在压缩一个文件的过程中不用中断工作就马上改变压缩率。Ogg/Vorbis支持单声道、立体声、4声道、5. 1声道，最高可支持255个独立声道。Ogg/Vorbis编码过程也是对时域信号采取加窗处理一帧一帧逐步进行，其中帧的大小分长帧和短帧，每帧信号的编码的基本流程如

图1所示，具体为Ogg/Vorbis是美国Xiph. org组织开发的通用感知音频编码器。Ogg是一种多媒体外层格式，它可以是包含数字音频(Vorbis)也可以包含数字视频(Tarkin)，Vorbis是 Xiph. org开发的专用音频格式。相比于MP3等其他编码算法，Ogg/Vorbis的最大特点是源码完全公开、无专利限制，具有较大的编码灵活性。Ogg/Vorbis采用了一种有损音频压缩算法，在高质量(高比特率)级别(⑶或DAT立体声，16/24bit量化)时，与现在的MPEG-2 和MPEG-4等的音频算法相当；Ogg/Vorbis编码器在没有重新采样到低采样率时，可将⑶ 或DAT高质量立体声信号压缩到低于48Kbps比特率；它支持采样率为8kHz-192kHz的16 位以上的⑶音频或PCM数据，支持30-190KbpS/channel的可变码率模式(VBR)，并且具有压缩率实时调节的技术，可以让用户在压缩一个文件的过程中不周中断工作就马上改变压缩率。Ogg/Vorbis支持单声道、立体声、4声道、5. 1声道，最高可支持255个独立声道。Ogg/Vorbis编码过程也是对时域信号采取加窗处理一帧一帧逐步进行，其中帧的大小分长帧和短帧，每帧信号的编码的基本流程如图1所示，其具体为编码器首先对输入音频PCM信号进行离散傅立叶变换MDCKModifiedDiscrete Cosine Transform)分析，同时对输入音频PCM信号要进行FFT分析，再将经过MDCT分析和FFT分析后获得的两种系数输入给心理声学模型单元，其中，MDCT系数用于计算噪声掩蔽特性，FFT系数用于计算音调掩蔽特性，两者的计算结果共同构造总掩蔽曲线。然后，根据 MDCT系数及获得的总掩蔽曲线，对频谱系数进行线性预测分析，再用线性预测系数(LPC) 经变换得到线谱对(Line Spectral Pair, LSP)来计算频谱包络，即基底曲线(Floor)；或通过线性分段逼近方式获得基底曲线。接着，从MDCT系数中去掉频谱包络可得白化的残差频谱，由于残差频谱动态范围明显变小，从而降低量化误差。之后，采用声道耦合技术对得到的残差频谱进一步降低冗余度，耦合主要是将左右声道数据从直角坐标映射到平方极坐标；最后，进行矢量量化处理，即使用与该帧数据的采样率和比特率对应的码本(系统会预先存储多种码本，以对应不同的采样率和比特率)对基底曲线和经声道耦合处理的残差频谱信息进行编码，最后对白化的各种信息数据，包括经过矢量量化处理后数据，按Vorbis 定义的包格式组装，形成Vorbis压缩码流。由此可见Ogg/Vorbis编码操作流程的时间和空间复杂度都很高，因此，在处理芯片执行能力较差的便携式多媒体播放器中实现Ogg/Vorbis编码有很大的难度。

发明内容
本发明实施例提供一种音频数据的编码方法及装置，用以降低在便携式多媒体播放器中实现Ogg/Vorbis编码的复杂度。发明实施例提供的具体技术方案如下一种音频数据的编码方法，包括接收需要进行编码的音频数据；对所述音频数据进行改良的离散余弦变换，即MDCT变换；根据所述MDCT变换结果计算掩蔽曲线；根据掩蔽曲线采用分段线性方法计算产生基底曲线；根据所述掩蔽曲线和基底曲线计算产生的频谱残差；对所述频谱残差进行声道耦合；对所述声道耦合的结果进行矢量化计算；将所述矢量化计算后获得的数据按照指定的采样率和比特率进行编码，获得编码后的音频数据。一种音频编码装置，包括离散余弦变换单元，用于接收需要进行编码的音频数据，并对所述音频数据进行改良的离散余弦变换，即MDCT变换；第一计算单元，用于根据所述MDCT变换的结果计算掩蔽曲线；第二计算单元，用于根据掩蔽曲线采用分段线性方法计算产生基底曲线；第三计算单元，用于根据所述掩蔽曲线和基底曲线计算产生的频谱残差；耦合单元，用于对所述频谱残差进行声道耦合；矢量化单元，用于对所述声道耦合的结果进行矢量化计算；编码单元，用于将所述矢量化计算后获得的数据按照指定的采样率和比特率进行编码，获得编码后的音频数据。—种音频处理设备，包括上述的音频编码装置。综上所述，本发明实施例中，采用了新设计的一条掩蔽曲线代替了现有技术下计算的音调掩蔽曲线和噪声掩蔽曲线，从而有效减少了 Ogg/Vorbis编码的计算量；另一方面，采用了指定的采用率和比特率对矢量化后的数据进行编码，从而有效减少了 Ogg/ Vorbis编码所占用的程序空间。这样，便降低了 Ogg/Vorbis编码的计算复杂度和空间复杂度，进而在便携式设备中实现了 Ogg/Vorbis编码。附图说明图1为现有技术下Ogg/Vorbis编码实现原理图；图2为本发明实施例中音频编码装置功能结构图；图3A为本发明实施例中实现Ogg/Vorbis编码流程图；图;3B为本发明实施例中耦合正方形极坐标示意图；图4A为现有技术下对歌曲1进行Ogg/Vorbis编码效果示意图；图4B为本发明实施例中对歌曲1进行Ogg/Vorbis编码效果示意图；图5A为现有技术下对歌曲2进行Ogg/Vorbis编码效果示意图；图5B为本发明实施例中对歌曲2进行Ogg/Vorbis编码效果示意图；图6A为现有技术下对歌曲3进行Ogg/Vorbis编码效果示意图；图6B为本发明实施例中对歌曲3进行Ogg/Vorbis编码效果示意图；图7A为现有技术下对歌曲4进行Ogg/Vorbis编码效果示意图；图7B为本发明实施例中对歌曲4进行Ogg/Vorbis编码效果示意图；图8为本发明实施例中包含音频编码装置的音频处理设备的功能结构图。
具体实施例方式鉴于要在便携式多媒体播放器中完全实现Ogg/Vorbis编码具有很大的难度，本发明实施例中，为了降低Ogg/Vorbi s编码的实现复杂度，对Ogg/Vorbi s编码流程进行了适当地优化，具体为接收需要进行编码的音频数据，对所述音频数据进行改良的离散余弦变换，即MDCT变换，再根据所述MDCT变换结果计算掩蔽曲线，根据掩蔽曲线采用分段线性方法计算产生基底曲线，以及根据所述掩蔽曲线和基底曲线计算产生的频谱残差，接着，对所述频谱残差进行声道耦合，并对所述声道耦合的结果进行矢量化计算，最后，将所述矢量化计算后获得的数据按照指定的采样率和比特率进行编码，获得编码后的音频数据。通过大量数据实验发现，优化Ogg/Vorbis编码程序在如下几个方面，可以减少大量的计算量和程序空间，而编码完的Ogg/Vorbis音频信号在音质上并没有下降很多，一般情况下与原来的标准OGG程序编码后的结果基本相同。1 优化心理声学模型单元，噪声掩蔽曲线和音调掩蔽曲线合二为一，同时根据不同采样率和比特率修改掩蔽补偿表，即根据采样率和比特率在预先存储的多个掩蔽补偿表 (可以是通过实验提前得到)中确定相应的掩蔽补偿值，这个掩蔽补偿表得到是理论依据人们对声音频率的敏感度，因为人耳对低频声音敏感，而对高频不敏感，所以补偿的时候就是对增加对低频补偿，减少对高频补偿，因而补偿表的值就是从低频到高频逐渐减少。用该表对掩蔽曲线进行补偿，使得一条掩蔽曲线就能达到原来音调掩蔽曲线和噪声掩蔽曲线两条曲线近似一样的效果。2:在相同采样率的不同比特率下都采用相同的码书进行编码，从而减少程序的运算量，也节省了存储空间。码书(Codebook)是矢量量化的关键技术之一，通常以表格的形式记载，通过码书查表得到到的数据就是码字，用以实现数据压缩。也就是说，在本发明中，只存储与特定采样率对应的一个码书，在进行矢量量化处理时，采用相同的码书进行编码。作为替代，也可以只存储少数几个码本，在进行矢量量化处理时，从其中选一个最接近的进行编码，或者选一个最接近的后再进行必要修改然后再进行编码。下面结合附图对本发明优选的实施方式进行详细介绍。参阅图2所示，本发明实施例中，用于实现Ogg/Vorbis编码的音频编码装置包括离散余弦变换单元10、第一计算单元11、第二计算单元12、第三计算单13、耦合单元14、矢量化单元15和编码单元16，其中，离散余弦变换单元10，用于接收需要进行编码的音频数据，并对所述音频数据进行改良的离散余弦变换，即MDCT变换；第一计算单元11，用于根据所述MDCT变换的结果计算掩蔽曲线；第二计算单元12，用于根据掩蔽曲线采用分段线性方法计算产生基底曲线；第三计算单元13，用于根据所述掩蔽曲线和基底曲线计算产生的频谱残差；耦合单元14，用于对所述频谱残差进行声道耦合；矢量化单元15，用于对所述声道耦合的结果进行矢量化计算；编码单元16，用于将所述矢量化计算后获得的数据按照指定的采样率和比特率进行编码，获得编码后的音频数据。基于上述原理，参阅图3所示，本发明实施例中，实现Ogg/Vorbis编码的详细流程如下步骤300 接收需要进行编码的音频数据；步骤310 对音频数据进行MDCT变换。本实施例中，使用50%重叠的改进的离散余弦变换MDCT作为时频转换的手段，具体公式如下
权利要求
1.一种音频数据的编码方法，用于实现Ogg/Vorbis编码，其特征在于，该编码方法包括接收需要进行编码的音频数据；对所述音频数据进行改良的离散余弦变换，即MDCT变换；根据所述MDCT变换的结果计算掩蔽曲线；根据掩蔽曲线采用分段线性方法计算产生基底曲线；根据所述掩蔽曲线和基底曲线计算产生频谱残差；对所述频谱残差进行声道耦合；对所述声道耦合的结果进行矢量化计算；将所述矢量化计算后获得的数据按照指定的采样率和比特率进行编码，获得编码后的音频数据。
2.如权利要求1所述的方法，其特征在于，采用下述公式进行MDCT变换
3.如权利要求1所述的方法，其特征在于，采用公式y= a+bx+c(x)计算掩蔽曲线，其中，
4.如权利要求1、2或3所述的方法，其特征在于，将所述矢量化计算后获得的数据按照指定的采样率和比特率进行编码时，根据设定的采样率，针对不同的比特率，选择预设的相同码书对矢量化操作后获得的数据进行编码。
5.一种音频编码装置，用于实现Ogg/Vorbis编码，其特征在于，该音频编码装置包括离散余弦变换单元，用于接收需要进行编码的音频数据，并对所述音频数据进行改良的离散余弦变换，即MDCT变换；第一计算单元，用于根据所述MDCT变换的结果计算掩蔽曲线；第二计算单元，用于根据掩蔽曲线采用分段线性方法计算产生基底曲线；第三计算单元，用于根据所述掩蔽曲线和基底曲线计算产生频谱残差；耦合单元，用于对所述频谱残差进行声道耦合；矢量化单元，用于对所述声道耦合的结果进行矢量化计算；编码单元，用于将所述矢量化计算后获得的数据按照指定的采样率和比特率进行编码，获得编码后的音频数据。
6.如权利要求5所述的音频编码装置，其特征在于，所述离散余弦变换单元采用公式
7.如权利要求5所述的音频编码装置，其特征在于，所述第一计算单元采用公式y =a+bx+c(x)计算掩蔽曲线，其中，
8.如权利要求5、6或7所述的音频编码装置，其特征在于，所述编码单元将所述矢量化计算后获得的数据按照指定的采样率和比特率进行编码时，根据设定的采样率，针对不同的比特率，选择预设的相同码书对矢量化操作后获得的数据进行编码。
9.一种音频处理设备，包括如权利要求5所述的音频编码装置。
全文摘要
本发明涉及多媒体技术，公开了一种音频数据的编码方法及装置，用以降低在便携式多媒体播放器中实现Ogg/Vorbis编码的复杂度。该方法为采用了新设计的一条掩蔽曲线代替了现有技术下计算的音调掩蔽曲线和噪声掩蔽曲线，从而有效减少了Ogg/Vorbis编码的计算量；另一方面，采用了指定的采用率和比特率对矢量化后的数据进行编码，从而有效减少了Ogg/Vorbis编码所占用的程序空间。这样，便降低了Ogg/Vorbis编码的计算复杂度和空间复杂度，进而在便携式设备中实现了Ogg/Vorbis编码。本发明同时公开了一种音频编码装置。
文档编号G10L19/00GK102332266SQ20101022959
公开日2012年1月25日申请日期2010年7月13日优先权日2010年7月13日
发明者陈展申请人:炬力集成电路设计有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈展
技术所有人：炬力集成电路设计有限公司
我是此专利的发明人

上一篇：电子白板系统及其语音处理方法
上一篇：一种利用受损听力的听阈进行降噪的方法