数字声频信号低比特率编译码器、和编译码方法及其编码记录媒体的制作方法

文档序号:7564578阅读:221来源:国知局
专利名称:数字声频信号低比特率编译码器、和编译码方法及其编码记录媒体的制作方法
技术领域
本发明涉及用于多声道系统中压缩编码声频信号的低比特率编码器和低比特率编码方法,用于对压缩编码信号进行译码的低比特率译码器和低比特率译码方法,以及使用这种编码器/编码方法将编码的信号记录在其上的记录媒体,上述装置或方法可以用于电影胶片放映系统以及立体声或多声道音响系统,例如磁带录像机或视盘放像机等。
现有技术中已经公知了各种用于声频或话音等信号的实用编码技术和装置。
作为实用编码技术的实例,有一种分组频带分段系统,即所谓变换编码,用于将例如每个时间单位的时间区段中的声频等信号分组,以便将每组的根据时基的信号变换成根据频基的信号(正交变换),然后将其分成多个频带中的信号分量,并将每个相应频带的那些信号分量进行编码。
另外,还可以例举出分频段编码(SBC)技术,这是一种非分组频带分段系统,在该系统中时间区段中的声频等信号被分成多个频带中的信号分量,无需按每个单位时间将其分组,然后将信号分量进行编码。
此外,也已经提出了将上述分频段编码与变换编码相结合的实用编码技术和装置。在这种情况下,例如使用分频段编码将输入信号分成多个频带中的信号分量,然后将每个相应频带的信号正交地变换成频段中的信号,以便实现将这些频段中的正交变换的信号分量进行编码。
这里作为用于上述这分频段编码中频带划分的滤波器,可以例举出QMF滤波器(正交镜像滤波器)。在例如如下的文献中已经说明了这种滤波器,“Digital coding of speech in subbands”R.E.Crochiere,Bell Syst.Tech.J.,SS卷,1976年第8期。该QMF滤波器用于将频带平分成相等带宽的频段。该滤波器的特征在于在以后的处理阶段中合成上述被分段的频带时不会产生所谓的混叠。
另外,文献“Polyphase Quadrature filters-A new subband coding technique”Joseph H.Rothweiler ICASP 83,BOSTON,说明了相等带宽的滤波器分段技术。该多相正交滤波器的特征在于分段可以在将信号分成多个相等带宽的频带中的信号分量时进行。
此外作为上述的正交变换处理,还有例如按预定的单位时间(帧)将输入声频信号分成组的正交变换系统,以便执行快速傅里叶变换(FFT)、离散余弦变换(DCT)或改进型DCT变换(MDCT)等变换,每个相应的组从而将根据时基的信号变换成根据频基的信号。
在如下的文献中说明了这种MDCT,“SUbband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation”J.P.Princen A.B. Bradley,Univ.of Surrey Royal Melbourne Inst.of Tech.ICASSP 1987。
另外作为对分入各频带的相应频率分量编码(量化)的情况下的频分宽度,有一种频带划分考虑了例如人的听觉特性。即,有按带宽将声频信号分成多个(例如25个)频带中的信号分量的实例,根据频率编移至较高频带侧而使得该带宽变得较宽,上述频带一般称为临界频带。
此外在上述时间将每个相应频带的数据进行编码时,按照每个相应频带的预定比特分配或每个相应频带的自适应比特分配进行编码。
例如,在按照上述比特分配对进行MDCT处理之后得到的系数数据进行编码时,就按照相对于由MDCT处理每个相应组得到的每个相应频带的MDCT系数数据的自适应分配比特数量,进行编码。
作为比特分配技术和装置,下述的两种技术和装置是公知的。
例如在文献“Adaptive Transform Coding of Speech Signals”中(IEEE Transactions of Acounstics,Speech,and Signal Processing,ASSP-25卷,1977年8月第4期)根据每个相应频带的信号量值进行比特分配的。
此外例如在文献“The critical band coder-digital encoding of the perceptual requirement of the auditory System”(M.A.Kransner MIT,ICASSP 1980)中,给出了利用听觉掩蔽使每个频带得到所需的信噪比,以便进行固定比特分配的技术和装置。
同时例如上述的利用分频段编码等方法用于声频信号的实用压缩编码系统中,利用人的听觉特性压缩声频数据,以便使其数据量变成仅约1/5,现在已经得到实施了。
应当指出,有一种系统称为ATRAC(自适应变换声学编码,SONY公司的商业名称)用于例如MD(小型盘,SONY公司的商业名称)作为压缩声频数据的实用编码系统,以便使数据量变成大约1/5。
然而在利用人的听觉特性的实用编码系统中,有如下的情况,通过对话音信号压缩编码得到的乐器或人的噪音等,在之后对该编码的信号进行译码时可能与原始声音相比会产生变化,尽管这种现象仅在较小的程度上发生。特别是在利用听觉特性用于记录媒体的记录格式的上述实用编码系统情况下,要求原始声音的高保真度地重放,也就要求实现较高的音质。
相反,上述实用编码系统(ATRAC系统等)的用于压缩声频信号,并使其信号(数据)量变成大约1/5的格式已经实施了,而且采用这种格式的硬件是非常普及的。
因此,进行与该格式不具有兼容性的改变或扩展,不仅对已经采用该格式的制造商(生产商)不利,而且对普通用户也不利。
由于这种原因,因此希望基于装置在编码或译码中得到高的音质,而不要改变该格式本身。
除了上述实现高音质的方法之外,还要将线性PCM(脉冲编码调制)声音混入普通的压缩数据。然而因为实用编码系统的压缩数据与线性数据在帧长和每帧的时间长度上是不同的,所以难于在重放时实现同步。因此,在相同的时间使用两种格式的这些数据是非常困难的。
此外,不仅在普通声频设备的情况下,而且在例如电影胶片放映系统、高清晰度电视以及立体声或多声道音响系统,例如磁带录像机或视盘放像机等的情况下,都可能处理4至8个声道的多声道声频信号。因此在这种情况下,也希望进行有效地编码,以便降低比特率。
特别是在电影胶片上,有例如记录着8个声道的数字声频信号的实例,即左声道、左中声道、中央声道、右中声道、右声道、环绕左声道、环绕右声道和次低音扬声器声道。在这种情况下,就需要上述的有效编码,以便降低比特率。
也就是说,在电影胶片上难于确保能够容纳8个声道抽样频率为44.1KHz(4赫)和16比特的线性量化声数据的区域,而这种线性量化声频数据是用在所谓CD(光盘)等上的。因此,需要对声频数据进行压缩。
应当指出,记录在电影胶片上8个声道数据的各声道分别对应左扬声器、左中扬声器、中央扬声器、右中扬声器、右扬声器、环绕左扬声器、环绕右扬声器和次低音扬声器,它仍被置放在屏幕侧,在那里通过放映机电影胶片上图像记录区域将重放的图像放映出来。
中央扬声器置放在屏幕侧的中央,用于通过中央声道的声频数据输出重放的声音。该中央扬声器输出最重要的重放声音,例如演员的话音等。
次低音扬声器用于通过次低音扬声器声道的声频数据输出重放的声音。该次低音扬声器有效地输出与其说是低频带的声音不如说是感觉像是振动的声音,例如爆炸声,因此常常有效地用于爆炸的场面。
左扬声器和右扬声器分别置放在屏幕的左侧和右侧,用于分别输出通过左声道声频数据的重放声音和通过右声道声频数据的重放声音。该左和右扬声器具有立体声的音响效果。
左中扬声器置放在左扬声器与中央扬声器之间,而右中扬声器置放在中央扬声器与右扬声器之间。左中扬声器输出通过左中声道声频数据的重放声音,而右中扬声器输出通过右中声道声频数据的重放声音。该左中和右中扬声器分别对左和右扬声器起辅助作用。
特别是在具有大屏幕和大量观众的电影院中,存在着根据座位位置声像定位变得不稳定的缺点。然而增加上述的左中和右中扬声器,从而具有形成声像的更为实际的定位的效果。
另外,环绕左和右扬声器置放于环绕观众座位的位置。该环绕左和右扬声器用于分别输出通过环绕左声道声频数据的重放声音和通过环绕右声道声频数据的重放声音,并且具有产生由鼓掌声或欢呼声环绕的混响或效果的作用。因此能够以多达三维的方式形成声像。
此外,因为操作等通常发生在电影胶片媒体的表面,所以如果在其上记录有数字数据,则在该处会造成大得的数据丢失。从实用观点来看,不可能使用这种记录系统。因此纠错码的性能是非常重要的。
因此对于数据压缩,必须将压缩处理进行到这种程度,即通过将用于纠错码的比特考虑在内,才可以在胶片的记录区域中进行记录。
由于上述因素,作为如上所述的压缩8个声道数字声频信号的压缩方法,采用了实用的编码系统(例如ATRAC系统),通过如上所述考虑人的听觉特性,进行最佳比特分配,以便获得能与CD相比的声音质量。
然而与上述情况相似,采用这种实用编码系统,一般乐器声或人的噪音等与原妈声音相比有变化,尽管这种现象仅是在很小的程度上发生。因此,在采用上述系统的情况下,在要求具有与原始声音的保真度的重放记录格式方面,需要采取能实现较高声音质量的各种措施。
除了上述实用编码系统用作电影胶片上的多声道记录格式之外,在其他系统的情况下,也总是存在上述问题,因此从确保记录区域的观点来看,还采用了不可逆压缩系统。
此外,在如上所述实现对多声道声频信号实用编码的系统中,相应声道的数据被独立地进行压缩处理。
因此,即使在例如某一声道处于非噪声的状态,固定比特(字节)的分配量还是被分配给该声道。
将固定比特分配量给予上述处于非噪音状态的声道是冗余的。
另外因为对于低电平信号的声道与高电平信号的声道,比特分配量都是相同的,所以如果估算整个相应的各声道的比特分配量,就存在冗余的比特。
特别是考虑到对于每个相应声道比特分配量都是固定的情况,上述的冗余问题变得更突出了。
综上所述,本发明的目的在于提供一种能够消除多声道系统压缩编码中比特分配量冗余,并且能够实现较高质量压缩编码的编码器和编码方法,与其相对应的译码器和译码方法,以及将压缩编码的信号记录在其上的记录媒体。
为了实现上述目的,根据本发明提供了一种低比特率编码器,用于利用声频信号和人的听觉的特性,对多声道的数字声频信号进行压缩编码,该编码器包括能量检测装置,用于检测相应声道每个数字声频信号的数字声频信号能量;比特分配量确定装置,用于根据检测的结果,对相应声道确定比特分配量;压缩编码装置,用于根据按照确定的比特分配量而分配给每个相应声道的比特分配量,对数字声频信号进行压缩编码;以及多路复用装置,用于多路复用每个相应声道的压缩编码信号。比特分配量确定装置用于确定相应比特分配量,以便使数字声频信号的能量与比特分配量之间的关系具有非线性特性,致使根据数字声频信号能量的增大,比特分配量整体上是增加的。另外相对于时间区段中的抽样和多声道声频信号频率区段的抽样,在声道之间进行可变的比特分配。
在根据本发明第一实施例的低比特率编码器中,能量检测装置是幅度信息检测装置,用于在进行压缩编码之前,检测相应声道数字声频信号的幅度信息。另外,根据关于幅度信息的次方的变化,比特分配量确定装置确定对于相应声道的比特分配量。
在这种情况下,通过预定的变换公式,比特分配量确定装置根据听觉特性计算(确定)相对于相应声道幅值信息峰值的比特分配量,从而根据变换结果,确定要分配给相应声道的比特量。
另外,比特分配量确定装置分别确定由预定的变换公式要分配给相应声道的比特量的估算量,以便与相应估算量成比例地分配相应声道的比特分配量,从而使所有声道的比特分配量是固定的。
另一方面,根据本发明第一实施例的低比特率译码器包括译码装置,用于对由第一实施例低比特率编码器编码的相应声道信号进行译码。
另外,在根据本发明第二实施例的低比特率编码器中,能量检测装置是用于检测对于相应声道信号关于预定的换算因数[时间与频率二维面积的归一化值(成组浮动单元)]的变化,并且比特分配量确定装置用于按照换算因数的变化进行声道之间的可变比特分配。
此外在第二实施例的低比特率编码器中,通过预定的变换公式,比特分配量确定装置根据人的听觉特性计算(确定)相对于关于相应声道换算因数总计次方的变化的比特分配量,以便根据变换结果,确定要分配给相应声道的比特量。
另外,比特分配量确定装置分别计算(确定)由预定的变换公式要分配给相应声道的比特量的估算量,以便与相应估算量成比例地分配相应声道的比特分配量,从而使所有声道的总比特分配量是固定的。
此外,根据本发明第二实施例的低比特率译码器包括译码装置,用于对由第二实施例低比特率编码器编码的相应声道信号进行译码。
根据本发明,在对多声道声频信号进行压缩编码中,因为采用了根据关于相应声道的能量次方的变化的方法,确定相应声道的比特分配量,从而进行压缩编码,所以能够对于相应声道进行与信息量相对应的比特分配。
此外根据本发明,在对多声道声频信号进行压缩编码中,在相应声道中使能量与比特分配量的关系是非线性的,以便根据比特分配量进行压缩编码。因此,能够对于相应声道进行与信息量相对应的比特分配。
图1是以方框形式示出的电路图,示出了根据本发明第一实施例的低比特率编码器的结构略图。
图2是以方框形式示出的电路图,示出了根据本发明第一和第二实施例的低比特率编码器的结构略图。
图3是以方框形式示出的电路图,用于示出ATRAC系统的低比特率编码器和根据本发明实施例的低比特率编码器中的比特分配。
图4是用于示出声帧中数据记录状态的图。
图5是用于示出第一实施例中比特分配量的曲线图。
图6是用于示出第一实施例中确定比特分配量的操作的流程图。
图7是以方框形式示出的电路图,示出了根据本发明第二实施例的低比特率编码器的结构略图。
图8是用于示出第二实施例中比特分配量的曲线图。
图9是用于示出第二实施例中确定比特分配量的操作的流程图。
下面将参考


本发明的优选实施例。
在图1和2中示出了根据本发明第一实施例的主要结构。图1中示出了第一实施例的低比特率编码器的结构,图2中示出了第一实施例的低比特率译码器的结构。
首先说明图1中所示的编码器的结构。
通过与相应声道对应的输入端201-20n和传输路径11~1n,将多声道(Ch1、ch2…chn)的声频信号发送到与相应声道对应的抽和量化元件1001~100n。在上述抽样和量化元件1001~100n中,将相应声道的声频信号变换为量化信号。通过相应的传输线21~2n,将来自上述抽样和量化元件1001~100n的量化信号发送到幅度信息检测电路200和延迟线3001~300n。
从相应声道的量化信号中,幅度信息检测电路200检测幅度信息。也就是说,该幅度信息检测电路200检测与声频信号抽样(下称时间组)数相对应的每个周期的幅度信息峰值,下面还将说明在某个时刻通过编码元件4001~400n处理声频信号的抽样,通过与相应声道相对应的传输线41~4n,将上述峰值发送(传送)到比特分配确定电路500。应当指出,该幅度信息检测电路200可以具有通过来自传输线11~1n的信号检测幅度信息的结构。
通过变换,以下面说明的方式由每个相应声道的峰值,比特分配确定500确定每个相应声道的比特分配量,通过传输线51~5n,将上述比特分配量发送(传送)到相应的编码元件4001~400n。
通过变换,以下面将要说明的方式由每个相应声道的峰值,比特分配确定电路500确定每个相应声道的比特分配量,通过传输线51~5n,将上述比特分配量发送(传送)到相应的编码元件4001~400n。
另外,延迟线3001~300n延迟通过传输线21~2n按时间组已经接收的信号,通过相应的传输线31~3n,将上述被延迟的信号发送(传送)到相应的编码元件4001~400n。
相应的编码元件4001~400n进行每个时间组的压缩操作。在这时通过传输线51~5n接收的比特分配量反映通过传输线31~3n接收的信号峰值。相应的编码元件4001~400n压缩已经通过传输线31~3n接收的信号,以便使其比特分配量等于已经通过传输线51~5n接收的比特分配量,通过相应的传输线61~6n,将上述被压缩的信号发送(传送)到格式化装置600。
根据预定的格式,格式化装置600对已经通过传输线61~6n接收的每个声道的压缩信号进行纠错处理,将其组成比特流,用于传输或记录在记录媒体上。通过传输线7从输出端21输出上述比特流。
另外例如通过激光记录装置26,将上述比特流写入电影胶片27上的预定区域28。在图中标号29指示适配的孔洞,以使用于胶片进给的放映机链轮(图中未示出)与其啮合。记录区域28例如可以设在孔洞29之间。
下面参考图2说明该实施例的低比特率译码器的结构。
由图1的编码器(低比特率编码器)组成的比特流被传输或记录在记录媒体上。通过预定的重放装置(图中未示出),将上述记录的比特流送到输入端22,然后从该输入端22通过传输线8发送到解格式化装置700。
根据预定格式,该解格式化装置700将已经通过传输线8发送的数据流分解成每个相应声道的压缩信号。通过与相应声道对应的传输线91~9n,将每个相应声道分解的压缩信号发送到与每个相应声道相对应设置的译码元件8001~800n。
相应的译码元件8001~800n扩展通过相应传输线91~9n发送的压缩信号,然后将其通过对应的各传输线101~10n发送到D/A(数字/模拟)变换器9001~900n。
相应的D/A变换器9001~900n将通过相应的传输线101~10n发送的扩展信号(数字信号)变换成模拟信号。通过对应的传输线111~11n和输出端231~23n,将以模拟形式形成的上述信号输出,作为相应声道Ch1~Chn的译码信号。
如上所述的实施例的低比特率编码器中采用的压缩编码技术可以用于能变化比特率的所有编码器。这里举例说明了以固定比特率,利用上述人的听觉特性,用于压缩立体声2声道声频信号的压缩编码技术,以使其信号量等于大约1/5(例如用于所谓MD(小型盘)的ATRAC系统),下面将说明用于使以固定比特率压缩能够成为以可变比特率压缩的该实施例的压缩编码方法。
在图3中示出了将所谓ATRAC系统用于其上的编码器结构。应当指出,从图3的频带分段滤波器401到再量化器406、格式化装置407的部分与图1的相应声道编码元件4001~400n相对应。
在图3中,通过输入端24传送到的抽样和量化声频信号首先被分成三个频带的信号(信号分量)0~5.5KHz低频带中的信号分量、5.5KHz~11KHz中频带中的信号分量以及高于11KHz(11KHz~22KHz)高频带的信号分量。
在三个频带的信号中,来自频带分段滤波器401的低频带中的信号被发送到MDCT电路402L,以便执行MDCT(改进型离散余弦变换)操作,中频带中的信号被发送到MDCT电路402M,以便同样地执行MDCT操作,高频带中的信号被发送到MDCT电路402H,以便也同样地执行MDCT操作。在上述MDCT电路402L~402H中,那些信号被分别分解成频率分量。
与此同时,对于每个相应频带在进行MDCT处理时的时间组长度是可变的。在信号突然变化的部分,时间组长度就缩短,从而提高时间分辨率。相反在信号处于稳定状态的部分,时间组长度就延长,以便控制信号分量和量化噪声的有效传输。
上述时间组长度是在组长估算元件403中预先确定的。也就是说,来自频带分段滤波器401的三个频带中的信号也被发送到组长估算元件403。上述组长估算元件403确定MDCT的时间组长度,并将指示确定的时间组长度的信息发送到MDCT电路402L~402H。
在MDCT处理的两种时间组长度之中,采用长时间组长度的模式称为长模式,具有11.6毫秒(ms)的时间组长度。另一方面,采用较短时间组长的模式称为短模式,在较高频带(高于11KHz)具有1.45ms的时间组长度,而在较低频带(低于5.5KHz)与在中频带(5.5KHz至11KHz)具有2.9ms的时间组长度,这样就提高了时间分辨率。
以这种方式被分解成时间和频率二维区域(下称成组浮动单元)中的信号分量的声频信号,在整个低频带、中频带和高频带中被分成52个成组浮动单元,并且在每个单元中被归一化(进行换算因数的确定)。
利用人的听觉特性,比特分配元件405分析组成对应声频信号的分量。该分析结果被发送到再量化器406,来自归一化电路404L~404H的每个相应单元的信号也加到再量化器406。
根据分析结果,再量化器406确定每个单元编码的准确度,也就是说进行字长的确定,以便得到参数和进行再量化。
最后按照预定的格式,格式化器407多路复用每个相应单元的相应参数信息和再量化的频谱信号,从而形成比特流。该格式化器407的输出信号从输出端25输出。
在声帧的每个单元中进行上述的编码操作。
图4中示出了声帧40中的数据记录状态。
在图4中一个声帧包括212比特。在该声帧中,512个抽样并且对应一个声道的声频重放数据在44.1KHz的抽样率上被压缩编码。
212比特的声帧数据包括组长模式41、子信息量42、字长数据43、换算因数数据44、频谱数据45、冗余换算因数数据46、冗余字长数据47、下部分子信息量48和下部分组长模式49。
在212比特的数据中,包括用于纠错的双写部分。也就是说该部分包括冗余换算因数数据46、冗余字长数据47、下部分子信息量48和下部分组长模式49。
在该实施中,212比特中的186比特对应除去双写部分之外的部分,并且以基本比特率来表示,成为等于128千比特/秒(KbPS)。
组长模式是用于记录图3组长估算元件403的估算结果的数据,其内容如表1中所示。
表1 从以上表1中可以看出,当组长应用模式为长模式时,要进行变换处理的信号分别在低频带和中频带中通过MDCT操作,被分解成128个频率分量,而在高频带中被分解成256个频率分量。
另一方面,当组长应用模式为短模式时,要进行变换处理的信号分别在低频带、中频带和高频带中被分解成32个频率分量。
另外,量1、量2和量3这三个信息被记录在子信息量42中。量1指示字长和记录的换算因数的数量,量2指示双写的字长的数量,量3指示双写的换算因数的数量。其内容如表2中所示。
表2量1量2量3 字长指当(每个信号)相应单元被再量化时的字长。其内容如表3中所示。
表3
换算因数指示当(每个信号)相应单元被归一化理的值。其内容如表4中所示。
表4A
表4B
表4C 同时,上述图3中的比特分配元件405考虑人的听觉特性确定字长值,以使一个声帧的比特量在再量化中等于212比特。通过使212比特的值成为可变,能够构成可变长度的编码器。
也就是说,如果采用下述结构,即根据本发明实施例构成低比特率编码器的图1中比特分配确定电路500的输出连接到图3的比特分配元件405,就能够构成可变长度的编码器。
下面将参考图5中的曲线和图6中的流程图,说明以上述方式连接到图3比特分配元件405的图1比特分配确定电路500的操作。
首先,当在图6的步骤S61中启动处理操作时,在步骤S62中,比特分配确定电路500检测每个相应声道的峰值。通常峰值与相应声道中步频信号的能量对应。
然后在步骤S63中,计算与确定的峰值相对应的比特分配量。对于上述计算,采用制成表的峰值/比特分配量对应曲线。
图5中的曲线是相对于峰值变换比特分配量的曲线。应当指出,图5中所示的比特分配量变换曲线是在所谓ATRAC系统用作编码系统情况下的曲线。
在图5中,横坐标表示输入信号的峰值,能够取的最大值被归一化成1。
另外纵坐标表示比特分配量,并且最大分配量被设定为186字节。该值等于所谓MD(小型盘)装置中ATRAC系统一个声帧的信息量。
通过利用各种声频信号进行试验,确定图5中所示的变换曲线。
在图5中,比特分配量的整体趋势如下,即比特分配量随着峰值的增大而增加,但是当峰值大于2的负3次方时,比特分配量朝减少的方向变化。
上述曲线是根据试验结果作出的,因为当信号电平足够大(显著大)时,量化噪声通过再量化被信号电平掩蔽,所以即使再量化噪声的注入量增大,也很难听到声音。
另一方面在图5中,在信号电平足够小(显著小)的情况下,例如峰值小于2的负12次方,就使比特分配量成为固定的(均匀比特分配)。这是因对于ATRAC系统的相应参数信息(图4中所示的字长数据或换算因数数据等),所需的比特量是大致固定的,因此必须在某个程度上确保比特量。
另外,因为当电平降低时,就能够听到随机噪声(写噪声),并且信号具有频率分量在整个频带上不均匀分布的趋势,所以尽管电平较小也需要大的比特量。
如上所述原因导致比特分配量与峰值之间的关系成为非线性的(大致呈S形的曲线)。也就是说,除非考虑了听觉特性,比特分配量与峰值之间的关系是成比例的关系。然而在本发明中采用了一种方案,在该方案中保持每个相应声道的最低比特量,在电平大于某一预定电平的情况下,比特分配量减少。
在步骤S64中,对整个比特量是否是固定的进行判断。当在上述步骤S64中判断需要使所有声道的总比特分配量成为固定的时,处理操作进行到步骤S65。在上述变换完成之后,下面将进行公式(1)的计算,以便算出每个相应声道的极限比特分配量。
也就是说,当假设n声道系统中每一个声帧的总比特分配量为G,通过变换的比特分配量为Ci(i=1、2、……n),分配给每个声道的极限比特分配量Si如下式所示Si=G*Ci/(C1+C2+……Cn)……(1)在步骤S65中的处理之后,或者在步骤S64中判断整个比特量不是固定的之后,处理操作进行到步骤S66,结束该处理。
使图1的格式化装置600和图2的解格式化装置700与上述ATRAC系统对应,其操作在下面进行说明。
图1的格式化装置600按声道的顺序,安排由每一个声帧相应声道编码元件4001~400n按照如图4中所示格式发送的数据,以便将其作为数据流传送。也就是说,上述格式化装置600用作多路复用器。
另外,图2的解格式化装置700用作多路分解器,以便分解每个相应声道在格式化装置600多路复用的数据,将其发送(传送)到相应的译码元件8001~800n。
如上所述,按照根据本发明第一实施例的装置(编码器/译码器),在压缩具有多声道的声频数据时,通过关于相应声道幅值信息时间的变化,确定相应声道的比特分配量,以便对声频数据进行编码。因此,能够对于相应声道进行与信息量相对应的比特分配。从而能够进行更有效的编码。
也就是说,能够实现较高的音质,或实现所有声道总计上的低比特率。应当指出,虽然根据记录的媒体举例说明了希望固定长度的情况,但是能够以使所有声道的总比特分配量成为大致固定的方式,在第一实施例的装置中进行编码。
下面说明本发明的第二实施例。
图7中示出了第二实施例低比特率编码器的结构。
在图7中,通过与相应声道对应的输入端301~30n和传输线1011~101n,将多声道(Ch1、Ch2、Chn)的声频信号发送到与相应声道对应的抽样和量化元件1201~120n。在上述抽样和量化元件1201~120n中,相应声道的声频信号被变换成量化信号。来自相应抽样和量化元件1201~120n的上述量化信号,通过传输线1021~102n被发送到相应编码元件2101~210n。
在相应编码元件2101~210n中,相应声道的声频信号被分成时间和频率二维区域(成组浮动单元)中的信号,以便利用每个成组浮动单元的换算因数,使属于成组浮动单元的信号分量归一化。通过传输线1031~103n,将确定的相应成组浮动单元的换算因数发送到比特分配确定电路310。
该比特分配确定电路310确定通过传输线1031~103n接收的换算因数的每个相应声道的总和,以便由该总和按照下面将要说明的变换公式(变换曲线),计算(确定)相应声道的比特分配量,并将比特分配量通过传输线1041~104n发送(传送)到编码元件2101~210n。
因此根据比特分配量,相应编码元件2101~210n对来自传输线1021~102n的信号进行再量化,并将再量化的,即压缩的信号通过传输线1051~105n发送(传送)到格式化装置410。
格式化装置410将通过多声道传输线1051~105n接收的压缩信号组成比特流,用于按照预定的格式传输或记录在记录媒体上。上述比特流通过传输线106从输出端31输出。
另外通过例如激光记录装置26,将上述比特流写入电影胶片27上的预定记录区域28中。
应当指出,因为第二实施例中低比特率译码器的基本结构与图2中的结构相似,所以省略了详细的说明。
下面将参考图2简要地说明该译码器。按照预定的格式,第二实施例低比特率译码器的解格式化装置700也将来自第二实施例低比特率编码器的比特流分解成每个相应声道的压缩信号。
在与每个相应声道对应设置的译码元件,8001~800n中,扩展每个相应声道分解了的压缩信号,然后在D/A(数字/模拟)变换器9001~900n中,将其变换成模拟信号。上述模拟信号作为相应声道Ch1~Chn的译码信号输出。
用于第二实施例低比特率编码器中的压缩编码技术可以用于所有采用换算因数进行压缩编码的系统中。
也就是说,当采用了与第二实施例中同样的结构时,即图7比特分配确定电路310的输出连接到图3的比特分配元件405,就能够构成可变长度编码器。
下面参考图8中的曲线和图9中的流程图,说明连接到图3比特分配元件405的图7比特分配确定电路310的详细操作。
首先,当在图9的步骤S91中开始处理操作时,在步骤S92中,比特分配确定电路310由来自编码元件2101~210n的换算因数,计算每个相应声道换算因数的总和。
在后面的步骤S93中,由确定的相应声道换算因数总和计算每个相应声道的比特分配量。
这里,换算因数是如上所述包含在52个成组浮动单元中已经归一化频率分量的值。通常,采用一种在对应成组浮动单元中确定频率分量绝对值的方法,以便从表4所示的值中选择那些绝对值中最小的一个值,而不是最大值。
也就是说,考虑了换算因数指示成组浮动单元中数据的典型特征,即能量。因此,考虑了如果确定了换算因数之和,就能够估算整个信息量。
图8中示出了图7比特分配确定电路310中相对于换算因数之和的比特分配量。
同样在图8中与第一实施例相同,采用ATRAC系统作为编码系统。在图8中,与图5相似纵坐标表示比特分配量(最大分配量为186字节),而横坐标表示换算因数之和。
与第一实施例的图5相似,通过利用各种声频信号进行试验,确定图8中所示的变换曲线。
作为整体趋势是根据换算因数之和的值增大,比特分配量也增加。
然而在图8中,当换算因数之和的值大于大约7000时,比特分配量朝减少方向变化。这是根据如下的试验结果因为在比特分配量上信号电平相对较大,这种情况下换算因数之和的值就显著地较大(信号电平足够大),并且通过再量化的量化噪声被信号电平掩蔽,所以即使再量化噪声的注入量增加,也难于听到信号。
另一方面,当换算因数之和的值小于1.5时(在信号电平足够小的情况下),比特分配量是固定的,其原因是因为用于ATRAC系统相应参数信息(图4中所示的字长数据或换算因数数据等)所需的比特量是大致固定的,所以必须确保上述比特量。
同样在该实例中,比特分配量换算因数总和之间的关系呈现大致为S形曲线的非线性特性。
还是在第二实施例步骤S94中,进行整个比特量是否是固定的判断。当在上述步骤S94中判断出必须使所有声道的总比特分配量成为固定的,该处理操作就进行到步骤S95。在上述变换完成之后,进行公式(1)的计算,以便算出每个相应声道的极限比特分配量。
在步骤S95中的处理之后,或者在步骤S94中判断整个比特量不是固定的,该处理操作进行到步骤S96。
还是在第二实施例中,图7的模式化装置410按声道的顺序,安排由每一个声帧相应声道的编码元件2101~210n以图4中所示的形式发送的数据,以便将其作为比特流传送。也就是说,上述格式化装置410用作多路复用器。
另外,第二实施例低比特率译码器中的解格式化装置也用作多路分解器,以便分解每个相应声道在格式化装置410中多路复用的数据,并将其发送(传送)到相应的译码元件。
如上所述根据第二实施例的装置(编码器/译码器),在压缩具有多声道的声频数据时采用了一种方法,即通过关于相应声道换算因数总和的次方的变化,确定相应声道的比特分配量,以便将声频数据编码。因此,能够对相应声道实现与信息量相对应的比特分配,从而能够进行更有效的编码。
通过在编码中的上述改进,能够实现较高的音质或较低的比特率。也就是说,同样在该实施例的第二装置中,能够在整个声道上总体上实现较低的比特率或较高的音质。在这种情况下,能够进行编码使所有声道的总比特分配量大致固定。
在上述本发明的第一和第二实施例中,举出了以电影胶片作为记录媒体的例子进行了说明,然而作为记录媒体,并不仅限于能够使用电影胶片,而且还包括各种未脱离本发明主题范围的能够使用的媒体。例如可以使用光盘和磁带等。
在本发明中,因为通过能量,例如幅度信息,或者关于相应声道换算因数总和的次方的变化,确定相应声道的比特分配量,所以对于相应声道能够实现与信息量相对应的比特分配。因此,能够进行更有效的编码,从而能够实现低比特率的高音质。
此外,本发明中多声道系统的声频信号涉及至少2个声道,在声道数量为5个或5个以上声道,例如电影的声迹的情况下,本发明就能具有期望的更显著的效果。
权利要求
1.一种低比特率编码器,适用于利用声频信号和人的听觉特性,对多声道的数字声频信号进行压缩编码,该编码器包括能量检测装置,用于检测相应声道每个数字声频信号的数字声频信号能量;比特分配量确定装置,用于根据检测的结果,对相应声道确定比特分配量;压缩编码装置,用于根据按照确定的比特分配量而分配给相应声道的比特分配量,对数字声频信号进行压缩编码;以及多路复用装置,用于多路复用每个相应声道的压缩编码信号;比特分配量确定装置,用于确定比特分配量,以便使数字声频信号的能量与比特分配量之间的关系具有非线性特性,致使根据数字声频信号能量的增大,比特分配量整体上是增加的。
2.如权利要求1中所述的低比特率编码器,其特征在于比特分配量确定装置的非线性特性为近似于大致S形曲线的特性。
3.如权利要求1中所述的低比特率编码器,其特征在于当数字声频信号的能量足够小时,比特分配量确定装置的非线性特性具有均匀比特分配特性。
4.如权利要求1中所述的低比特率编码器,其特征在于比特分配量确定装置的非线性特性具有这样一种特性,即当数字声频信号的能量足够大时,比特分配量减少。
5.如权利要求1中所述的低比特率编码器,其特征在于比特分配量确定装置确定每个相应声道所需比特量的估算量,以便每单位时间从所有声道整体上与相应估算量成比例地分配比特量,从而确定相应声道的比特分配量。
6.如权利要求1中所述的低比特率编码器,其特征在于数字声频信号的能量是指数字声频信号的幅度特性。
7.如权利要求1中所述的低比特率编码器,其特征在于幅度特性是指峰值。
8.如权利要求1中所述的低比特率编码器,其特征在于数字声频信号的能量是指换算因数。
9.一种记录媒体,在其上通过低比特率编码器记录了多路复用的压缩编码信号,该低比特率编码器适用于利用声频信号和人的听觉特性,对多声道的数字声频信号进行压缩编码,该低比特率编码器包括能量检测装置,用于检测相应声道每个数字声频信号的数字声频信号能量;比特分配量确定装置,用于根据检测的结果,对相应声道确定比特分配量;压缩编码装置,用于根据按照确定的比特分配量而分配给每个相应声道的比特分配量,对数字声频信号进行压缩编码;以及多路复用装置,用于多路复用每上相应声道的压缩编码信号;比特分配量确定装置,用于确定比特分配量,以便使数字声频信号的能量与比特分配量之间的关系具有非线性特性,致使根据数字声频信号能量的增大,比特分配量整体上是增加的。
10.一种低比特率编码方法,利用声频信号和人的听觉特性,对多声道的数字声频信号进行压缩编码,该方法包括以下步骤检测相应声道每个数字声频信号的数字声频信号能量;根据检测的结果,对相应声道确定比特分配量;根据按照确定的比特分配量而分配给每个相应声道的比特分配量,对数字声频信号进行压缩编码;以及多路复用每个相应声道的压缩编码信号;在比特分配量确定步骤中确定比特分配量,以便使数字声频信号的能量与比特分配量之间的关系具有非线性特性,致使根据数字声频信号能量的增大,比特分配量整体上是增加的。
11.如权利要求10中所述的低比特率编码方法,其特征在于非线性特性为近似于大致S形曲线的特性。
12.如权利要求10中所述的低比特率编码方法,其特征在于当数字声频信号的能量足够小时,非线性特性具有均匀比特分配特性。
13.如权利要求10中所述的低比特率编码方法,其特征在于非线性特性具有这样一种特性,致使当数字声频信号的能量足够大时,比特分配量减少。
14.一种低比特率译码器,包括用于对来自通过低比特率编码器多路复用的压缩编码信号产生的相应声道信号进行译码的译码装置,该低比特率编码器适用于利用声频信号和人的听觉特性,对多声道的数字声频信号进行压缩编码,该低比特率编码器包括能量检测装置,用于检测相应声道每个数字声频信号的数字声频信号能量;比特分配量确定装置,用于根据检测的结果,对相应声道确定比特分配量;压缩编码装置,用于根据按照确定的比特分配量而分配给每个相应声道的比特分配量,对数字声频信号进行压缩编码;以及多路复用装置,用于多路复用每个相应声道的压缩编码信号;比特分配量确定装置,用于确定比特分配量,以便使数字声频信号的能量与比特分配量之间的关系具有非线性特性,致使根据数字声频信号能量的增大,比特分配量整体上是增加的。
15.一种低比特率译码器,包括用于对来自记录媒体的相应声道信号进行译码的译码装置,通过上述权利要求1至5中任何一项权利要求中所述的低比特率编码器以及上述权利要求10至13中任何一项权利要求中所述的低比特率编码方法,在该记录媒体上记录了多路复用的压缩编码信号。
16.一种低比特率译码方法,包括对来自记录媒体的相应声道信号进行译码的步骤,通过利用声频信号和人的听觉特性,对多声道数字频信号进行压缩编码的低比特率编码方法,在该记录媒体上记录了多路复用的压缩编码信号,该低比特率编码方法包括以下步骤检测相应声道每个数字声频信号的数字声频信号能量;根据检测的结果,对相应声道确定比特分配量;根据按照确定的比特分配量而分配给每个相应声道的比特分配量,对数字声频信号进行压缩编码;以及多路复用每个相应声道的压缩编码信号;在比特分配量确定步骤中确定比特分配量,以便使数字声频信号的能量与比特分配量之间的关系具有非线性特性,致使根据数字声频信号能量的增大,比特分配量整体上是增加的。
全文摘要
低比特率编码器包括能量检测部件,用于检测相应声道每个数字声频信号和数字声频信号能量;比特分配量确定部件,用于根据检测的结果,对相应声道确定比特分配量;压缩编码部件,用于根据按照确定的比特分配量而分配给每个相应声道的比特分配量,对数字声频信号进行压缩编码;以及多路复用部件,用于多路复用每个相应声道的压缩编码信号;比特分配量确定部件,用于确定比特分配量。
文档编号H04B1/66GK1106967SQ94118669
公开日1995年8月16日 申请日期1994年10月26日 优先权日1993年10月26日
发明者宫森慎二, 上野正俊 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1