音频信号的编码和解码方法及其装置的制作方法

文档序号：7520363阅读：202来源：国知局

专利名称：音频信号的编码和解码方法及其装置的制作方法
技术领域：
本发明公开一种音频信号或者语音信号的编码和解码方法以及执行此方法的装置。
背景技术：
公开了音频信号或者语音信号的编码和解码方法，更为详细地讲，公开了图像动态专家组(MPEG)音频编码/解码方法。尤其，公开了可插入附加信息的MPEG中进行标准化的MPEG-D联合语音音频编码(USAC :Unified Speech and Audio Coding)编码/解码方法及装置。包含信息的波形是在幅度上连续并且在时间上也连续的模拟(Analog)信号。因此，为了将波形转换成离散(discrete)信号，进行模数(A/D)转换，并且为了 A/D转换需要两个过程。一个是，将时间上的连续信号转换为离散信号的采样(sampling)过程；另一个是，尽量用有限个数值限定幅度的幅值的幅度量化(quantization)过程。最近，随着数字信号处理技术的发展，开发了如下的技术，S卩，将现有的模拟信号经过采样/量化过程而转换成作为数字信号的脉冲编码调制(PCM=Pulse Code Modulation)数据，将信号存储在诸如紧凑盘(⑶=Compact Disc)和数字音频磁带(DAT Digital Audio Tape)的记录/存储介质上，然后，当用户需要时通过再现存储的信号来进行收听。相比于诸如慢转唱片(LP，Long-Play Record)和磁带的模拟方式，这种通过数字方式的数字信号的存储/恢复方式提高了音质并克服了由于存储时间而导致的劣化，但是数据量相对大。为此，使用为了压缩数字声音信号而开发的诸如差分脉冲编码调制(DPCM: Differential Pulse Code Modulation)或自适应差分脉冲编码调制(ADPCM :Adaptive Differential Pulse Code Modulation)等方法来进行用于减少数据量的努力，但是根据信号的类型，其效率有较大差异。最近，由国际标准化组织(ISO=International Standard Organization)制定标准的MPEG/audio技术或者Dolby开发的AC-2/AC-3技术中提出了利用人类的心理声学模型(Psychoacoustic Model)来减少数据量的方法，该方法可以与信号的特性无关地有效减少数据量。在诸如MPEG-1/audio、MPEG-2/audio或AC-2/AC-3的现有的音频信号压缩技术中，通过将时域信号划分为预定大小的块来转换为频域信号。然后，利用心理声学模型 (Psychoacoustic Model)来对该转换的信号进行标量量化(scalar quantization)。虽然这种量化技术简单，但是即使输入样品在统计上独立，也无法进行最优化处理。若输入样品在统计上有从属关系，则更加无法进行最优化处理。因此，包含如熵编码的无损编码或某种类型的适应性量化来进行编码。相比于仅单纯地存储PCM数据的方式，这种方法需要相当复杂的信号处理过程，并且编码的比特流不仅包含量化的PCM数据，还包含用于压缩信号的附加信息。MPEG/audio标准和AC-2/AC-3方式可以以减少至现有的数字编码的1/6至1/8的64Kbps-384Kbps的比特率提供与紧凑盘(Compact Disc)的音质几乎相同程度的音质，未来，MPEG/audio标准将对诸如数字音频广播(DAB :Digital Audio Broadcasting)、网络电话(internet phone)、音频点播(AOD :Audio on Demand)和多媒体系统的音频信号的存储和传输起着重要的作用。

发明内容
技术方案根据本发明的一实施例，提供一种在MPEG-D USAC方式中插入附加信息的MPEG-D USAC编码/解码方法及装置。根据本发明的一实施例，提供一种判断是否插入通过MPEG-D USAC编码的音频数据的附加信息的方法。有益效果根据本发明的一实施例，通过在MPEG-D USAC方式中插入附加信息，来改进关于音频内容的元数据或音质，从而可提供差别化服务。根据本发明的一实施例，提供MPEG-D USAC的扩展。

图1是示出ID3vl的比特流结构的一示例。图2是示出根据本发明一实施例的音频信号或者语音信号的编码器的框图。图3是示出根据本发明一实施例的音频信号或者语音信号的编码器中所执行的编码方法的一示例的流程图。图4是示出根据本发明一实施例的音频信号或者语音信号的编码器的框图。图5是示出根据本发明一实施例的音频信号或者语音信号的解码器中所执行的解码方法的一例的流程图。
具体实施例方式在MPEG-2/4 AAC(IS0/IEC 13818-7，IS0/IEC 14496-3)中，定义有诸如data_stream_element()、f ill_element ()的可以存储附力Π信息的语法。在 MPEG-Ilayer-III (mp3)中定义有ancillary data，可在帧信息中存储对于音频信号的附加信息。ID3vl就是其典型的例子。图1中示出ID3vl的比特流结构的一示例。随着多媒体时代的到来，需要支持可变比特率的各种类型的编码器。即使是支持可变比特率的编码器，在网络信道的带宽被固定的情况下，以固定比特率进行传输。此时，若每个帧所使用的比特数不同，则无法以固定比特率进行传输，因此为了防止这种现象而传输附加比特信息。并且，通过将多个帧绑定以一个载荷(payload)传输时，可以以可变比特率产生多个帧。但是，在这种情况下，如果网络信道的带宽是固定的，则需要以固定比特率进行传输，此时需要以固定比特率传输一个载荷的功能。因此，为了上述功能而传输附加比牛寸f曰息ο当前，正进行标准化的MPEG-D USAC的语法中没有定义可提供附加信息的语法。参照下面的[语法1]，记载了对于USAC语法(Syntex)的上级载荷的定义。
权利要求
1.一种音频信号或者语音信号的编码方法，包含如下步骤在音频信号或者语音信号的比特流中插入核心编码信息；插入编码工具信息；以及判断是否存在附加信息，当存在所述附加信息时插入附加信息比特。
2.根据权利要求1所述的音频信号或者语音信号的编码方法，其中，所述加入附加信息比特的步骤包含对所述比特流执行字节排列之后，执行插入所述附加信息比特。
3.根据权利要求1所述的音频信号或者语音信号的编码方法，其中，还包含如下步骤对插入有所述附加信息比特的所述比特流进行字节排列。
4.根据权利要求1所述的音频信号或者语音信号的编码方法，其中，所述编码工具信息包含增强型SBR(eSBR)信息以及环绕MPEG信息。
5.根据权利要求1所述的音频信号或者语音信号的编码方法，其中，所述附加信息比特包含所述附加信息的类型以及所述附加信息的长度信息。
6.根据权利要求5所述的音频信号或者语音信号的编码方法，其中，当所述附加信息比特未超过14字节时，用4比特来表示字节大小。
7.根据权利要求5所述的音频信号或者语音信号的编码方法，其中，当所述附加信息比特在15字节以上时，用4比特表示15，利用附加8比特来表示从所述附加信息的全部字节大小中减去15的值。
8.根据权利要求1至7中的任一项所述的音频信号或者语音信号的编码方法，其中，所述附加信息比特包含在联合语音音频编码的载荷中。
9.一种包含执行根据权利要求1至7中的任一项所述方法的比特流复用器的音频信号或语音信号编码器。
10.一种音频信号或者语音信号的解码方法，包含如下步骤通过读取包含于音频信号或者语音信号的比特流中的核心编码信息来执行核心解码；通过读取包含于所述比特流中的编码工具信息来执行解码；以及判断是否存在附加信息，当存在所述附加信息时，通过读取附加信息比特来生成解码 fn息ο
11.根据权利要求10所述的音频信号或者语音信号的解码方法，其中，生成所述解码信号的步骤包含对所述比特流执行字节排列之后执行通过读取所述附加信息比特来生成所述解码信号的步骤。
12.根据权利要求10所述的音频信号或者语音信号的解码方法，其中，还包含如下步骤读取所述附加信息比特，对所述比特流执行字节排列。
13.根据权利要求10所述的音频信号或者语音信号的解码方法，其中，所述编码工具信息包含增强型SBR信息或者环绕MPEG信息。
14.根据权利要求10所述的音频信号或者语音信号的解码方法，其中，所述附加信息比特包含在USAC载荷中。
15.一种包含执行根据权利要求10至14的任一项所述的方法的比特流解复用器的的音频信号或语音信号的解码器。
16.根据权利要求10所述的音频信号或者语音信号的解码方法，其中，通过判断在所述字节排列之后是否存在附加存储的比特，来判断是否存在所述附加信息。
17.根据权利要求10所述的音频信号或者语音信号的解码方法，其中，通过判断在所述字节排列时剩余比特是否是7比特以上，来判断是否存在所述附加信息。
18.根据权利要求10所述的音频信号或者语音信号的解码方法，其中，所述附加信息比特包含所述附加信息的类型以及所述附加信息的长度信息。
19.一种音频信号或者语音信号的解码方法，包含如下步骤在比特流的头中恢复用于解码的附加信息，当存在剩余比特时，从所述比特流的所述头中恢复包含所述附加信息的类型以及所述附加信息的数量的附加信息；通过读取包含于所述比特流的核心编码信息来执行核心解码；参照从所述头恢复的所述附加信息并按帧恢复所述附加信息。
20.根据权利要求19所述的音频信号或者语音信号的解码方法，其中，还包含如下步骤对所述比特流执行字节排列。
21.根据权利要求20所述的音频信号或者语音信号的解码方法，其中，在执行所述核心解码步骤之前，执行所述字节排列。
22.根据权利要求19所述的音频信号或者语音信号的解码方法，其中，所述附加信息的类型包含关于是否按所述帧传输所述附加信息的信息。
23.根据权利要求19所述的音频信号或者语音信号的解码方法，其中，根据从所述头中恢复的所述附加信息的类型恢复所述按帧恢复的附加信息。
24.根据权利要求19所述的音频信号或者语音信号的解码方法，其中，所述附加信息的比特包含于USAC有效载荷中。
25.一种包含执行根据权利要求19至M的任一项所述的方法的解复用器的音频信号或者语音信号的解码器。
全文摘要
公开一种对音频信号或者语音信号进行编码以及解码的方法和采用所述方法的装置。
文档编号H03M7/30GK102365680SQ201080014080
公开日2012年2月29日申请日期2010年2月2日优先权日2009年2月3日
发明者吴殷美, 朱基岘, 金重会申请人:三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱基岘;金重会;吴殷美
技术所有人：三星电子株式会社
我是此专利的发明人

上一篇：带数字转换的峰值检测的制作方法
上一篇：包括截取的希格玛-德塔调制器及其应用的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、田老师：1: 建筑节能绿色建筑能耗的模拟与检测(EnergyPlus)；建筑碳排放和生命周期评价；城市微气候、建筑能耗与太阳能技术的相互影响；地理信息系统(GIS)和空间回归方法用于城市建筑能耗分析；不确定性、敏感性分析和机器学习方法应用于建筑能耗分析(R)；贝叶斯方法用于城市和单体建筑能源分析 2: 过
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。