无失真音频压缩/解压缩熵压缩编码之装置及其方法

文档序号:82452阅读:477来源:国知局
专利名称:无失真音频压缩/解压缩熵压缩编码之装置及其方法
技术领域
本发明涉及一种音频压缩/解压缩之装置及其方法,且特别涉及一种通过熵压缩编码之无失真音频压缩/解压缩之装置及其方法。
背景技术
宽带传输环境如宽带网络及无线通讯的发展将使得传输高质量的影音信息成为必然的趋势,第三代移动通讯与目前的GSM移动通讯系统最大的差别之一正是其影音数据传输的能力,由于技术的进步,因此高质量甚至无失真的音频信号传输已成为可能的趋势之一,其主要的应用层面在于无失真的音频信号给予使用者完整的编辑空间,可以随应用的场合不同传送不同位率的音频信号,对于音乐或歌曲,使用者一般而言有比较高的质量要求,无失真的音频信号给予使用者完全的编辑使用空间,以欣赏音乐的角度而言比较需要无失真的音频。
而且制定国际影音压缩规格的国际标准组织ISO/IEC MPEG在第59次会议当中开始讨论是否需要制定新的无失真音频压缩标准(AudioLossless Coding,ALS),会中有热烈的讨论并有足够的证据显示已有制定新规格的产业需求且技术也已经达到可以规格化的地步了,目前的新规格制定已经到了最后的阶段,预计将会在2005年底整个规格制定的工作会告一个段落,同时MPEG也将进行无失真语音压缩标准(Speech LosslessCoding)的制定工作。另一方面,国际上也有许多非国际标准的无失真音频压缩系统如Monkey,FLAC(free lossless audio codec)及微软的WMA(window medium audio)。观察大部分的无失真音频压缩系统都由时域预测(time-domain prediction)及预测误差熵压缩编码(entropy coding)两个部分所组成,时域预测有两种典型的方法,前馈预测(Forward prediction)及反馈预测(Backward prediction),所谓前馈预测是指由前面的数据值经过一个预测滤波器来产生目前数据的预测值,与后者最大的差异在于前馈预测的滤波器系数是事先选定的,所以必须将滤波器系数予以储存到压缩数据中,如此解码端才能完整地把当初编码的数据正确地解码,另一方面反馈预测则是由一个适应性算法在预测过程中及时地更新预测滤波器的系数,因此不需要产生多余的信息到编码数据中,只要在解码端采用跟编码端一样的预测滤波器系数更新的算法就可以保证数据可以还原回来。
在此所称熵压缩编码(entropy coding)乃是一个广泛名词,且其最主要的目的就是利用预测误差大小值较小的特性用编码方法作进一步的压缩,常用的方法可有可变长度编码(Variable-Length Coding,VLC),Huffman编码及算术编码(Arithmetic coding)等。
音频的数字化是通过取样(Sampling)的方式将连续的模拟信号用固定数据分辨率(resolution)来储存,然而如果对于原始音频数据不加以处理的话其数据量会非常的庞大,由于相邻取样值之间有相当高的时域相关性,我们可以利用此相关性将数据作适当的预测编码以减低数据量,压缩的技巧有的会造成数据的损失,此种方式我们称之为有损失压缩(Lossycompression),这意味着解码端还原回来的数据将会有所差异,而这样的差异通常不会为人耳所分辨出来,所得到的好处就是可以大大地降低数据量,相对于有损失的压缩则是无失真音频压缩法,如此的压缩系统还原回来的数据则跟当初压缩前的数据一致。
公知无失真音频压缩法有下列几种。其中在美国专利号第6,675,148号中亦揭示一无失真音频压缩系统,且该系统将输入的音频信号切割成音频画面(Audio frames),接着对音频画面的数据做预测同时将预测器的系数量化并加以储存成为数据的一部分,经过预测编码后的音频画面可以更进一步地切割成为更小的子方块并做熵压缩编码。
另一美国专利号第5,884,269号提出一种数字音频之无失真压缩/解压缩装置。该数字音频之无失真压缩/解压缩装置之编码方框图则如图1所示,首先输入未压缩的音频,再经过一个预测滤波器(或称预测器)加以处理并产生预测误差信号,接着该预测误差信号会经最佳表选择器以使其从预先选定好表格之紧密Huffman总汇编及紧密Huffman加权表二者中选出一组最佳化的表格。通过该组最佳化的表格进行熵编码;意即进行Huffman编码及画面编码。此时,熵编码能针对每一个音频画面(Audio frame)的误差信号所选定的Huffman表来对每一个音频画面(Audio frame)的误差信号作最有效的编码产生最短的编码数据以提高压缩比。之后,己熵编码之音频则输出并储存。
再请参照图2,图2是该数字音频之无失真压缩/解压缩装置之解码方框图。基本上,其是依与图1之相反方向进行解码。即己熵编码之音频被输入至画面解码区,该画面解码区可从该己熵编码之音频的文件头信息读出所使用之Huffman表的信息且通过该信息从Huffman总汇编中选出对应之Huffman表。如此可将己熵编码之音频进行下一个操作;即Huffman解码,而还原出预测误差信号。然后该预测误差信号再输入反向预测器,以使该预测误差信号被加上该对应的预测值而恢复该音频之原本值(即恢复压缩前之原始音频)。
然而,上述之公知技术不论是使用Huffman表编码或算术编码(Arithmetic coding)皆需要很大运算量,不适于作及时压缩。因此,有必要提供一种运算量不大且适用于各种时域预测的熵压缩编码之方法及装置。

发明内容本发明之主要目的是提供一种高效率,高压缩比且无过多运算之适用于各种时域预测的音频熵压缩编码方法及装置。该装置包括缓冲器,时间轴预测器及位分配之熵编/解码器,其中该时间轴预测器会将此时点输入信号值与该值的预测值作减法运算而产生音频压缩后之预测误差信号。然后,该预测误差信号再输入运用本发明编码准则的该位分配之熵解码器,而加以编码。又本发明之熵压缩编码后之区间数据封包结构包括32位的文件头(header)信息,文件头之后为真正的数据,但该数据实质上为该数据之原本值与区间最小值的差。通过上述方法可达到减少公知之复杂运算量即可得到高效率的熵压缩编码之音频。其中该时间轴预测器包括递归最小二乘(recursive least square,RLS)及最小均方(least mean square,LMS)。
本发明之更进一目的是提供一种适用于各种时域预测的音频熵压缩编码方法及装置之编码准则。该编码准则是用来根据所需的数据精度将预测误差信号做分析并切割出不同的区间。且区间切割其实是由四个主要的条件所共同决定的,当以下的四个条件任一成立时,编码器就会利用该编码准则产生一个新的编码区间,并且对区间文件头跟数据作写出操作。此四个条件为(a)目前要编码的误差数据的数据精度大于前一个误差数据且因为编码此信号整个区间要多付出的数据量大于32-bit或(b)目前的区间已有50条数据且编码目前数据点所需要的位数大于后来50点每点所需的数据量精度或(c)目前的误差数据跟前一时点误差数据间的差值大于预定值且因为编码此信号整个区间要多付出的数据量大于32-bit或(d)目前区间中的点数已经有4096点。
为让本发明之上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。
图1是揭示公知数字音频之无失真压缩/解压缩装置之编码方框图。
图2是揭示公知数字音频之无失真压缩/解压缩装置之解码方框图。
图3是揭示本发明较佳实施例之适用于各种时域预测的音频熵压缩编码装置。
图4是揭示预测误差信号值与对应原本数值之关系图。
图5为本发明较佳实施例之一个熵压缩编码的区间示意图。
图6是揭示本发明较佳实施例之适用于各种时域预测的音频熵压缩解码装置。
具体实施方式请参照图3,其揭示本发明较佳实施例之适用于各种时域预测的音频熵压缩编码装置,其包括缓冲器,时间轴预测器及位分配之熵解码器。该缓冲器用以将输入的原始未压缩的音频分割成多个音频画面(audioframe)且该音频画面为含有依次排列的固定音频点数的一维音频值数据;该时间轴预测器是用以将输入该音频画面中之时间点音频值与该点的预测值作减法运算而产生压缩音频之预测误差信号(其实质上为数值,或亦可称预测误差信号值)。其中在作开始进行减法运算时之初始值被设定为零,意即最先输入该时间轴预测器者为原始未压缩的音频且其数值大小被储存在该时间轴预测器内以作为后续输入音频之比较基础。然后,该预测误差信号再输入运用本发明编码准则的该位分配之熵编/解码器,而加以编码切割成为长度不固定的数据区间且该数据区间包括文件头信息及该区间内每一音频点之预测误差信号。其中该时间轴预测器由RLS预测器及LMS预测器两个部分所构成。
本发明之适用于各种时域预测的音频熵压缩编码方法包括将原始未压缩的音频信号输入缓冲器中以被分割成为固定长度的一维数据称为音频画面(audio frame);接着,每张音频画面都会通过时域RLS-LMS预测器,由于该RLS预测器的收敛速度(即预测误差收敛趋近于零的速度)比较快所以被放在整个预测器的第一个部分,故该未压缩的音频信号先通过该RLS预测器,其产生的预测误差再送到该LMS预测器做进一步的预测编码,最后产生预测误差值;最后,该预测误差值输入位分配之熵编/解码器,其根据本发明之编码准则及根据所需的数据精度将预测误差信号做分析编码成不同区间的编码音频数据。
由于整个预测编码的过程都是由该预测器做适应性的预测计算,所以预测器的系数不需要传送到解码端,如此可以节省一些数据空间。在解码时,只要解码端也使用相同的滤波器算法就可以将原始数据毫无遗失地还原回来。
一般而言预测器如能适当地将音频信号做预测编码,其预测误差值将会远小于原本的信号值以达到数据压缩的目的,典型的无失真音频压缩在预测编码器之后会有一个熵压缩编码器利用误差值较原始值小的特性做进一步的数据压缩。本发明所提出之跨音频画面的熵压缩编码法,是将预测误差信号,如图4所示,依据本发明之多个准则把误差切割成好几个子区间,图4所示为一段预测误差信号值,其数值变化颇为剧烈,有的部分占去5-bit(位)左右,有的则需要十几个位才能表示误差值,如果整个区间都用13-bit来表示数据,虽然比原本的精度16-bit相比已有减低数据量,但整体而言还有很大的数据压缩空间,所以本发明提出一个方法将预测误差信号做分析并根据所需的数据精度切割出不同的区间,区间内的每条数据都用相同的精度来表示信息,所储存的信息不是原本的数据值而是每点数值与该区间最小值的差。另外,我们必须保留32-bit的数据空间给每个记录区间内的数据排放方式。
请参照图5所示为一个熵压缩编码的区间示意图,在真正的数据之前是长度固定为32-bit的文件头信息(Header)。其中包含三个字段的信息,首先用4-bit来表示区间里面所有数据的数据精度,接着用16-bit来表示前述的最小值(请注意该最小值是指该区间之最小预测误差值而非音频之原本值),最后的12-bit用来表示该区间的点数,所以每个区间最多可以存放4096条数据,紧接在文件头之后的就是真正的数据(D1,D2,D3...DN-1,DN),如前所述我们存放的不是原本的值而是每个数据点与该区间最小值的差。
前面提到的区间切割编码是依据四个主要的条件所共同决定的。当以下的四个条件任一成立时,编码器就会产生一个新的编码区间,并且对区间文件头跟数据作写出操作。此四个条件分别为(a)目前要编码的误差数据的数据精度大于前一个误差数据且因为编码此信号整个区间要多付出的数据量大于32-bit或(b)目前的区间已有50条数据且编码目前数据点所需要的位数大于后来50点每点所需的数据量精度或(c)目前的误差数据跟前一条误差数据间的差值大于一个预先选定好的固定值且因为编码此信号整个区间要多付出的数据量大于32-bit或(d)目前区间中的点数已经有4096点。
请参照表一,其是比较本发明,FLAC,Wavpack及WMA四种不同音频压缩格式在以大致相同压缩比(比如1.508,1.405等)条件下来压缩三种不同歌曲之运算减少百分比。
(表一)由表一明显地示出,本发明之音频压缩和其它三种不同音频压缩格式相比所需运算量大为减少。
请再参照图6,其揭示本发明较佳实施例之适用于各种时域预测的音频熵压缩解码装置。该解码装置所包括位分配之熵解码器,缓冲区及包含LMS-RMS之反向预测解码器,在此解码装置中解码的过程主要包括以下几个步骤欲解码的输入信号(即编码压缩之音频)会先送到该位分配之熵解码器以还原成压缩音频数据之音频画面,接着把该音频画面输入该缓冲区以还原成具有预测误差值之每一压缩音频数据点。该每一压缩音频数据点再送到反向预测解码器做预测解码的操作,预测解码出来的就是原始的未压缩音频数据。
综上所述,本发明之一种适用于各种时域预测的音频熵压缩编码方法及装置和公知技术相比具有下列优点1.本发明所需之音频编码/解码的运算量显著地减少,故本发明适合于实时压缩且进而大大地缩短音频编码/解码所需的时间。
2.由于本发明之适用于各种时域预测的音频熵压缩编码装置并需要如公知之紧密Huffman总汇编及紧密Huffman加权表,因此,本发明之音频压缩/解压缩编码装置和公知技术相比大为简化,故可因而大大地减少制造成本。
虽然本发明已以较佳实施例披露如上,然其并非用以限定本发明,任何所属技术领域
的技术人员,在不脱离本发明之精神和范围内,当可作些许之更动与改进,因此本发明之保护范围当视权利要求
所界定者为准。
权利要求
1.一种音频编码压缩装置,其特征是包括缓冲器,其用以将输入之原始未压缩的音频信号分割成为多个音频画面且该音频画面为含有依时序排列的固定音频点数的一维音频值数据;时间轴预测编码器,其用以将输入该音频画面中之时间点音频值与该音频值之预测值作减法运算而产生压缩音频之预测误差信号;及熵压缩编码器,其用以将该预测误差信号根据编码准则,而加以编码切割成为长度不固定的数据区间以供读出该编码压缩音频数据区间。
2.根据权利要求
1所述之音频编码压缩装置,其特征是该时间轴预测编码器由RLS预测器及LMS预测器两个部分所构成且该音频画面先输入该RLS预测器再输入该LMS预测器。
3.根据权利要求
1所述之音频编码压缩装置,其特征是该缓冲区为一段存储器,其具有足够长度可以存放整个音频信号的数据。
4.根据权利要求
1所述之音频编码压缩装置,其特征是该编码准则为以下四个条件之一成立即可,该四个条件分别为(a)目前要编码的误差数据的数据精度大于前一个误差数据且因为编码此信号整个区间要多付出的数据量大于32-bit或(b)目前的区间已有50条数据且编码目前数据点所需要的位数大于后来50点每点所需的数据量精度或(c)目前的误差数据跟前一时点误差数据间的差值大于一个预先选定好的固定值因为编码此信号整个区间要多付出的数据量大于32-bit或(d)目前区间中的点数已经有4096点。
5.根据权利要求
1所述之音频编码压缩装置,其特征是该数据区间包括文件头信息及该区间内每一音频点之预测误差信号。
6.一种音频编码压缩方法,其特征是包括将原始未压缩的音频信号输入缓冲器中以被分割成为多个音频画面且该音频画面为含有依时序排列的固定音频点数的一维音频值数据;每张音频画面输入时间轴预测编码器,以将输入该音频画面中之时间点音频值与该点音频值的预测值作减法运算而产生压缩音频之预测误差信号;将该预测误差信号输入熵压缩编码器,以将该预测误差信号根据编码准则,而加以编码切割成为长度不固定的数据区间以供读出该编码压缩音频数据区间。
7.根据权利要求
6所述之音频编码压缩方法,其特征是该每张音频画面输入时间轴预测编码器之步骤中,该未压缩的音频信号先通过该时间轴预测编码器之RLS预测器,其产生的预测误差再送到该时间轴预测编码器之LMS预测器做进一步的预测编码,最后产生预测误差信号。
8.根据权利要求
6所述之音频编码压缩方法,其特征是读出该编码压缩音频数据区间之步骤,包括作包括读出该编码压缩音频数据区间之文件头及紧接在文件头后的数据。
9.根据权利要求
6所述之音频编码压缩方法,其特征是在由熵压缩编码器根据编码准则该预测误差信号加以编码切割成为长度不固定的数据区间之步骤中,该编码准则为依据以下四个条件之一成立即可,该四个条件分别为(a)目前要编码的误差数据的数据精度大于前一个误差数据且因为编码此信号整个区间要多付出的数据量大于32-bit或(b)目前的区间已有50条数据且编码目前数据点所需要的位数大于后来50点每点所需的数据量精度或(c)目前的误差数据跟前一时点误差数据间的差值大于一个预先选定好的固定值因为编码此信号整个区间要多付出的数据量大于32-bit或(d)目前区间中的点数已经有4096点。
10.一种音频编码解压缩装置,其特征是包括熵压缩解码器,其用以将编码压缩音频数据区间根据编码准则,还原成为依时序排列之预测误差信号;缓冲器,其用以将该输入之依时序排列之预测误差信号还原成为多个音频画面且该音频画面为含有依时序排列的固定音频点数的预测误差信号;及时间轴预测解码器,其用以将各固定音频点数的预测误差信号加上该音频未压缩前之原本值而被解码出原本之音频。
11.根据权利要求
10所述之音频编码解压缩装置,其特征是该时间轴预测编码器由LMS预测器及RLS预测器两个部分所构成且各固定音频点数的预测误差信号先输入该LMS预测器再输入该RLS预测器以完成预测解码操作。
12.根据权利要求
10所述之音频编码解压缩装置,其特征是该编码准则为以下四个条件之一成立即可,该四个条件分别为(a)目前要编码的误差数据的数据精度大于前一个误差数据且因为编码此信号整个区间要多付出的数据量大于32-bit或(b)目前的区间已有50条数据且编码目前数据点所需要的位数大于后来50点每点所需的数据量精度或(c)目前的误差数据跟前一时点误差数据间的差值大于一个预先选定好的固定值因为编码此信号整个区间要多付出的数据量大于32-bit或(d)目前区间中的点数已经有4096点。
13.根据权利要求
10所述之音频编码解压缩装置,其特征是该缓冲区为一段存储器,其具有足够长度可以存放依时序排列的固定音频点数的预测误差信号。
14.根据权利要求
10所述之音频编码解压缩装置,其特征是该编码压缩音频数据区间包括文件头信息及该区间内每一音频点之预测误差信号。
专利摘要
本发明提供一种无失真音频压缩/解压缩熵压缩编码之装置及其方法。该装置包括缓冲器,时间轴预测器及位分配之熵编解码器,其中该时间轴预测器会将此时点输入信号值之预测值与此时点的原输入信号值作减法运算而产生预测误差信号。然后,该预测误差信号再输入根据编码准则的该位分配之熵解码器,而编码成不同长度之数据区间。又熵压缩编码后之数据区间结构包括32位的文件头(header)信息,文件头之后为真正的数据,但该数据实质上为该数据之原本值与区间最小值的差。
文档编号H03M7/30GK1991978SQ200510135415
公开日2007年7月4日 申请日期2005年12月28日
发明者陈信豪, 吴国瑞, 朱朝居, 黄得瑞 申请人:财团法人工业技术研究院导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1