立体声信号编码的制作方法

文档序号：2821026阅读：197来源：国知局

专利名称：立体声信号编码的制作方法
技术领域：
本发明涉及包括至少第一和第二信号部分的多通道信号的编码。更特别的，本发明涉及多声道音频信号例如立体声信号的编码。
立体声音频信号包括来自立体声信号源(例如分离的麦克风)的左(L)信号部分和右(R)信号部分。音频信号编码的目的是减少立体声信号的比特率，例如为了实现声音信号通过通信网络(例如因特网、调制解调器和模拟电话线、移动信道或者其他无线网络等等)的高效传输，以及在智能卡或者其他具有有限存储容量的存储介质上存储立体声信号。
美国专利6121904披露了一种用于压缩数字音频信号的压缩器，其包括相应于左右立体声通道的预测器。用于左声道的预测器接收左音频信号的当前和在先采样以及右音频信号的当前和在先采样，并且产生左信号的下一个预测采样。类似地，用于右声道的预测器接收右音频信号的当前和在先采样以及左音频信号的当前和在先采样，并且产生右信号的下一个预测采样。
本发明的目的是提供一种以低比特率编码多通道信号的方法和装置。
通过一种包括至少第一信号部分和第二信号部分的多通道信号的编码方法来达到以上和其他目的，本方法包括步骤—确定一预测滤波器的一组滤波参数，从而预测滤波器接收到第一信号部分作为输入时提供第二信号部分的估计；和—将多通道信号表示成第一信号部分和这组滤波参数。
从而，通过以第一信号部分和一组滤波参数来编码多通道信号，就用了仅比一个单独通道例如单通道略高的比特率对多通道信号编码。所得到的编码信号可以存储和/或传送到一个接收器。本发明所基于的是认为，对于许多多通道信号来说，一个信号部分可以通过自适应滤波处理从多通道信号的至少一个其他通道来预测。因此，当所确定的滤波参数被传输到解码器时，就可以在第一信号部分和该滤波参数的基础上恢复该多通道信号，并且解码器可以对第二信号部分建模。
术语多通道信号包括任何具有两个或更多相关信号部分的信号。这种信号的例子包括例如立体声信号或相似信号的多声道音频信号，其包括相同音频表示的同步记录。根据本发明的一些实施例，多通道信号包括一个多通道声源信号的变换信号部分，例如将L和R立体声信号变换成一组更适于根据本发明依据另一个信号部分对一个信号部分建模的变换信号而产生的变换立体声信号部分。多通道信号的进一步示例包括从数字通用光碟(DVD)或超级音频光碟等中接收的信号。
在本发明的一个优选实施例中，确定一组滤波器参数的步骤包括确定滤波器参数的步骤从而使第二信号部分和估计的信号部分的差小于一个预定值。当建模信号和第二信号部分之间的差比较小时，建模信号提供第二信号部分的较好估计。因此，提供了对于质量的度量，以便建模第二信号部分，从而保证根据本发明的编码处理提供最小的质量降低，例如该信号的立体声音频信号最小可闻失真。
根据本发明一个进一步的优选实施例，将多通道信号表示成第一信号部分和一组滤波参数的步骤进一步包括如果所述差不小于所述预定值，则将多通道信号表示成第一信号部分、该组滤波参数和一个表示第二信号部分和估计信号部分之差的误差信号的步骤。
因此，如果滤波步骤提供的估计信号没有很好的建模第二信号部分，编码信号中就包含误差信号以便为解码器提供额外的信息。解码器可以综合预测信号和接收到的误差信号，从而得到第二信号部分的一个较好近似。用于传输误差信号的比特率可以变化，例如根据通信连接在给定时间的可用带宽而变化。因而，本发明的优势在于提供了在用于传输信号的比特率和接收器中的信号质量之间进行折衷的可能。因此提供一种完美降低的技术，例如通过自适应地增加或减少误差信号所用的比特率。
在本发明的另一优选实施例中，该方法进一步包括将多通道源信号的至少第一源信号部分和第二源信号部分变换成第一和第二信号部分的步骤。因此第一和第二信号部分分别是第一和第二源信号部分的组合，从而提供更适于将第二信号部分预测为相应的源信号的预测滤波器的输入信号。变换的例子包括第一和第二源信号的线性组合，例如在立体声音频信号的情况下L+R和L-R的组合。进一步的例子包括信号空间的旋转和其他变换。该变换可以通过固定的或自适应的变换参数来参数化，即它们可以根据源信号的属性进行调整。
在本发明的一个进一步的实施例中，—所述第一信号部分是包括多个源信号部分的多通道源信号的主成分信号，而第二信号部分是相应的残余信号；—该方法进一步包括通过预定变换将至少第一和第二源信号变换成包含大部分信号能量的主成分信号和比主成分信号包含更少能量的至少一个残余信号，通过至少一个变换参数对预定变换进行参数化；和—将多通道信号表示成第一信号部分和该组滤波参数的步骤进一步包括将多通道信号表示成主成分信号、该组滤波参数和变换参数的步骤。
因此，根据本实施例，多通道信号通过主信号、变换参数和用于由接收器对小残余信号建模的一组滤波参数表示，从而提高了多通道信号的编码效率。本实施例所基于的是，对于许多多通道信号(例如在音乐音频信号和语音信号的情况下)，残余信号可以作为主信号的滤波版本而被准确估计。因而本实施例的优势在于提供一种保持较高质量的特别高效的编码方法。
优选的，可以连续追踪最优的变换参数，从而保证即便输入信号的特征发生改变，例如在音频信号的例子中由于声源的移动或者环境声学特性的变化产生的输入信号的特征改变，仍然能够保持变换是最优。
当预定变换是旋转并且变换参数对应于一个旋转角度时，仅基于一个单一参数(旋转角度)来提供一个简单的变换。通过调整该角度使得信号部分即立体声信号的L和R信号部分旋转成主成分信号和残余信号，这样在保持高质量信号的同时提供了一种有效编码。
本发明的优点在于提供一种高效的比特率利用，即一个对于给定声音质量使用低速率的编码方案。这个根据本发明的编码方案可以用于不显著降低声音质量地降低比特率，在提高声音质量的同时保持比特率，或者两者的结合。
在本发明的一个优选实施例中，确定一组滤波参数的步骤进一步包括确定至少一个用于缩放对于第二信号部分的估计的缩放参数(β1，β2)的步骤，以便于增加第二信号部分和的估计第二信号部分之间的相关度量。因而优化了估计和信号之间的相似性度量，从而提高了编码信号的质量。
本发明进一步涉及一种解码多通道信号信息的方法，该方法包括步骤
—接收第一信号部分和一组滤波参数；—利用相应于所接收的滤波参数组的预测滤波器来估计第二信号部分，预测滤波器接收所接收的第一信号部分作为输入。
本发明可以通过不同的方式来实现，包括上述的方法以及下列的，编码和解码多通道信号的装置，分别地可以是数据信号，和进一步的产品设备，每个都具有所述与第一种提及的方法有关的一个或多个好处和优点，以及每个都具有和所述与第一种提及的方法有关的优选实施例相应的一个或多个优选实施例，并且记载在从属权利要求。
要注意的是，上面和以下所述的方法的特征可以用软件来实现并且在数据处理系统或者其他通过计算机可执行指令的执行来激发的处理设备中执行。这些指令可以以程序代码方式从存储介质或者通过计算机网络从另一台计算机载入例如RAM的存储器中。可选地，所述特征可以通过硬连线电路代替软件或与软件相结合来实现。
本发明进一步涉及一种用于编码包括至少第一信号部分和第二信号部分的多通道信号的装置，该装置包括—用于估计第二信号部分的预测滤波器，该预测滤波器对应于一组滤波参数并且接收第一信号部分作为输入；和—用于将多通道信号表示成第一信号部分和该组滤波参数的处理设备。
本发明进一步涉及一种用于解码对应至少两个信号部分的多通道信号的装置，该装置包括—用于接收多通道信号的第一信号部分和一组滤波参数的接收设备；—用于估计多通道信号的第二信号部分的预测滤波器，预测滤波器接收所接收的该组滤波参数和所接收的第一信号部分作为输入。
上述装置可以是任何包括计算机的电子设备的一部分，例如固定和便携式PC，固定和便携式无线电通讯设备，和其他手持或便携式装置例如移动电话，呼机，音频播放器，多媒体播放机，发报机即电子组织器，智能电话，个人数字助理(PDA)，掌上电脑等等。
术语处理设备包括通用或特殊用途的可编程微处理器，数字信号处理器(DSP)，专用集成电路(ASIC)，可编程逻辑阵列(PLA)，现场可编程门阵列(FPGA)，特定用途的电子电路等，或者它们的组合。上面的第一和第二处理设备可以是分离的处理设备或者它们也可以包括在一个处理设备中。
术语接收设备包含适于能够例如通过有线或无线数据链路进行数据传输的电路和/或装置。这种接收设备的例子包括网络接口，网卡，无线电接收器，用于其他合适的电磁信号，例如通过IrDa端口的红外线接收器，基于无线电的通信，例如通过蓝牙收发信机，等等。这种接收设备进一步的例子包括线缆调制解调器，电话调制解调器，综合服务数字网(ISDN)适配器，数字用户线路(DSL)适配器，卫星收发机，以太网适配器等等。
术语接收设备进一步包括其他用于接收数字信号例如存储在计算机可读介质中的数字信号的输入电路/装置。这种接收设备的例子包括软盘驱动器，光盘驱动器，DVD驱动器，或其他任何合适的盘驱动器、存储卡适配器、智能卡适配器等。
本发明进一步涉及一种包含多通道信号信息的数字信号，该数字信号由上下文所述的方法生成。该信号可以具体化为一种载波中的数字信号，例如由如上下文所述的通信设备传输的数字信号。
本发明进一步涉及一种包括由上下文所述方法生成的表示多通道信号信息的数字记录的计算机可读介质。术语计算机可读介质包括磁带，光盘，数字视频光盘(DVD)，压缩光盘(CD或CD-ROM)，小型盘，硬盘，软盘，铁电存储器，电可擦除可编程只读存储器(EEPROM)，闪存，EPROM，只读存储器(ROM)，静态随机存取存储器(SRAM)，动态随机存取存储器(DRAM)，同步动态随机存取存储器(SDRAM)，铁磁存储器，光学存储器，电荷耦合装置，智能卡，PCMCIA卡等。
本发明进一步涉及一种传输多通道信号的装置，该装置包括如上下文所述编码多通道信号的设备。
根据参照实施例和参照附图的说明，本发明的这些和其他方面会更明白，其中

图1显示了根据本发明的实施例用于传输立体声信号的系统的示意图；图2显示了根据本发明的第一实施例用于编码多通道信号的装置的示意图；图3显示了根据本发明的第一实施例用于解码多通道信号的装置的示意图；图4显示了根据本发明的第二实施例用于编码立体声信号的装置的示意图；图5说明了根据本发明的实施例的信号变换的确定；图6显示了根据本发明的第二实施例用于解码立体声信号的装置的示意图；图7a-c显示了用在本发明的实施例中的滤波电路的示例的示意图；图8显示了根据本发明的第三实施例用于编码立体声信号的装置的示意图；图9显示了根据本发明的第四实施例用于编码立体声信号的装置的示意图；图10显示了根据本发明的第四实施例用于解码立体声信号的装置的示意图；图11显示了根据本发明的第五实施例用于编码多通道信号的装置的示意图；和图12显示了本发明的实施例使用的减法电路的示意图。
图1显示了根据本发明的实施例用于传输立体声信号的系统的示意图。此系统包括用于生成编码立体声信号的编码装置101和用于将接收到的编码信号解码成立体声L信号和立体声R信号部分的解码装置105。编码装置101和解码装置105中的每一个都可以是任何电子设备或这种设备的一部分。这里术语电子设备包括计算机，例如固定和便携式PC，固定和便携式无线电通讯设备，和其他手持或便携式装置例如移动电话，呼机，音频播放器，多媒体播放机，发报机即电子组织器，智能电话，个人数字助理(PDA)，掌上电脑等等。要注意的是编码装置101和解码装置105可以组合在一个电子设备中，其中立体声信号存储在计算机可读介质中用于以后再现。
编码装置101包括用于根据本发明编码立体声信号的编码器102，立体声信号包含L信号部分和R信号部分。编码器接收L和R信号部分并生成编码信号T。立体声信号L和R可以来自一组麦克风，例如通过进一步的电子设备如混频装置等。该信号可以进一步作为其他立体声播放机的输出、无线广播的无线电信号或通过任何其他合适的方式而被接收。以下将说明根据本发明的这种编码器的优选实施例。根据一个实施例，编码器102连接到发射机103，以便通过信道109将编码信号T发射到解码装置105。发射机103可以包括适于例如通过有线或无线数据链路109进行数据传输的电路。这种发射机的例子包括网络接口，网卡，无线电发射机，用于其他合适的电磁信号的发射机例如通过IrDa端口发射红外线的LED，基于无线电的通信，例如通过蓝牙收发信机，等等。合适的发射机的进一步的例子包括线缆调制解调器，电话调制解调器，综合服务数字网(ISDN)适配器，数字用户线路(DSL)适配器，卫星收发机，以太网适配器等等。相应地，信道109可以是任何合适的有线或无线数据链路，例如基于分组的通信网络如因特网或其他的TCP/IP网络，短距离通信线路如红外线路、蓝牙连接或其他基于无线电的线路。这种信道的进一步的例子包括计算机网络和无线通信网络，例如蜂窝数字分组数据(CDPD)网络，全球移动系统(GSM)网络，码分多址(CDMA)网络，时分多址网络(TDMA)，通用分组无线电服务(GPRS)网络，第三代网络如UMTS网络，等等。可选的或者另外的，编码装置可以包括一个或多个其他接口104，用于将编码立体声信号T传输到解码装置105。这种接口的例子包括用于存储数据到计算机可读介质110的盘驱动器，例如软盘驱动器，读/写CD-ROM驱动器，DVD驱动器等。其他例子包括存储卡插槽，磁卡读/写器，访问智能卡的接口等。相应地，解码装置105包括对应的用于接收由发射机发射的信号的接收器108和/或用于通过接口104和计算机可读介质110接收编码立体声信号的其他接口106。解码装置进一步包括接收所接收信号T和将其解码成相应的立体声部分L’和R’的解码器107。下面将对根据本发明的这种解码器的优选实施例加以说明。解码的信号L’和R’随后可以被提供给立体声播放器，用于通过一组扬声器、耳机等来再现。
图2显示了根据本发明的第一实施例用于编码多通道信号的装置的示意图。根据本实施例，多通道信号包括两部分S1和S2。该装置包括接收信号部分S1作为输入并生成滤波信号的自适应滤波器201。自适应滤波器的滤波参数Fp是通过例如根据由减法电路203生成的表示S2和之间差别的误差信号e控制自适应滤波器201来选择的，以使得滤波信号近似第二信号部分S2。滤波器201可以是本领域公知的任何合适的滤波器。这种滤波器的例子包括有限脉冲响应(FIR)滤波器或无线脉冲响应(IIR)滤波器，自适应或者固定的，具有固定的或者递归追踪的截断频率和幅度，等等。该滤波器可以是任何阶的，优选的小于10。滤波器的类型可以是巴特沃思，切比雪夫，或者其他任何适当类型的滤波器。在音频信号的例子中，这种自适应滤波器的例子包括由回波消除领域得知的自适应滤波器，或者例如从MPEG编码所知的基于人的听觉系统的心理声学模型的滤波器，从而减少滤波器参数的数量。根据另一实施例，滤波器可以进一步简化，例如通过一个使用5个双二阶滤波器的10阶滤波器和一个人工混响单元。在本实施例中，在编码一侧配置滤波器和决定混响时间。这些参数缓慢地改变，从而减少它们在传输中所需的比特率。
所得的滤波器参数Fp被提供给编码器205，例如提供哈夫曼编码或者其他任何合适的编码方案的编码器，从而生成编码的滤波参数Fpe。编码的滤波参数Fpe被提供给组合器电路204。该装置进一步包括执行信号部分S1的适当编码的编码器202。例如在音频信号的情况下，信号S1可以根据MPEG例如MPEGI层3(MP3)，根据正弦编码(SSC)，或者基于子带、参数的或变换方案的音频编码方案，或者其他任何合适的方案或其组合来编码。所得的编码信号S1，e与滤波器参数Fp一起提供给组合器电路204。组合器电路204执行成帧、比特率分配和无损编码，以得到要传输的组合信号T。
图3显示了根据本发明的第一实施例用于解码多通道信号的装置的示意图。本装置接收编码的多通道信号T，例如来自根据结合图2所述的实施例的编码器。本装置包括用于从组合信号T中提取编码信号S1，e和编码的滤波器参数Fpe的电路301，即电路301执行图2的组合器204的逆运算。滤波器参数通过解码器303来解码，其相应于图2中的编码器205对滤波器参数的编码。提取的信号S1，e被提供给解码器302，以相应于图2中编码器202所执行的编码执行音频解码，并生成解码的第一信号部分信号S1’。信号S1’和解码的滤波参数Fp一起被提供给滤波器303。滤波器304生成相应的估计的第二信号部分因此，图2的解码器生成相应于所接收第一信号部分和估计的第二信号部分的输出。
图4显示了根据本发明的第二实施例用于编码立体声信号的装置102的示意图。本装置包括用于执行立体声信号在L-R空间的α角度的旋转的电路401，根据变换
y＝Lcosα+Rsinα＝wLL+wRRr＝-Lsinα+Rcosα＝-wRL+wLR，(1)生成旋转信号部分y和r，其中使用wL＝cosα和wR＝sinα作为加权因子。
根据本实施例，确定角度α，以使其与高信号方差的方向对应。最大信号方差的方向即主要部分可以通过主成分分析进行估计，从而使旋转的y部分对应包含大部分信号能量的主成分信号而r是残余信号。相应地，图4的装置包括确定角度α或者可选地确定加权因子wL和wR的电路400。
参照图5，根据一个优选实施例，上述加权因子wL和wR根据以下算法确定首先，对输入的立体声信号L和R进行修正和低通滤波，以分别产生L和R的包络信号p(k)和q(k)，其中p(k)和q(k)被适当地采样并且用k表示采样索引。这样，矢量x(k)＝(p(k)，q(k))就表示输入的信号矢量。可选地，可以直接使用信号L和R，即不经过滤波，或者可以使用L和R的其他滤波版本，例如高通滤波信号L和R。在图5中用圆圈显示了多个信号点。作为举例，显示了信号点x(k)及其相应部分p(k)和q(k)。根据本发明，在信号矢量的主成分方向上旋转信号。在图5的示例中，这对应于y方向，其中α是y方向和p方向之间的夹角。加权因子w＝(wL，wR)表示主成分的方向，而x(k)的旋转部分分别用y(k)和r(k)来表示。
主成分可以通过本领域已知的任何合适的方法确定。在一个特别有利的实施例中，使用了利用Oja规则(参见例如S.Haykin“Neural Networks”，PrenticeHall，N.J.，1999)的迭代方法。根据本实施例，加权因子w根据以下等式迭代估计w(k)＝w(k-1)+μ[x(k-1)-w(k-1)y(k-1)]， (2)其中w(k)＝(wL(k)，wR(k))对应于在时间k的估计。以上迭代可以例如用一组小的随机权值w(0)初始化，或者通过其他适当的方式。以上估计的加权矢量可以用来根据y(k)＝wT(k)x(k)计算旋转信号。可选地，等式(2)的迭代可以基于块执行，例如对于一个N个采样的块，其中N依赖于特定实现，例如N＝512，1024，2048等。在本实施例中，用于块的估计加权因子w(N)可以根据y(k)＝wT(N)x(k)用于该块的所有采样的变换。
等式(2)中的因子μ对应于追踪算法的时间标度。如果μ＝0，加权因子以及角度α保持不变，而对于较大的μ它们变化得很快。作为举例，对于一个2048采样的块，μ可以选择为10-3数量级，以用于44.1kHz的采样速率。
上述迭代算法的优势在于它是线性的，即它不需要计算任何三角函数、平方根等。上述迭代算法的进一步的优势在于它获得了一个归一化的加权因子w，因为等式(2)中的-μw(k-1)y(k-1)项对应于一个使较大权值衰减的加权衰减项，而+μx(k-1)项在主成分方向上驱动加权因子。进一步要注意的是，在当前实施例中，由于x(k)是包络信号，wL，wR∈
，即加权因子w存在于图5中的第一象限，从而保证了μ是正值。本发明的进一步优势在于，它能够传递wL和wR之一，而根据wR=1-(wL)2]]>来确定另一个因子。可选地，可以传递角度α。
再参照图4，电路400输出确定的角度α或者可选的，加权因子wL和wR的一个或全部。将角度信息提供给生成旋转信号部分y和r的旋转电路401。可以理解，电路400和401可以组合成一个执行等式(2)的迭代运算和根据等式(1)的y和r的计算的单个电路。
根据本发明的这一实施例，认为残余信号r可以作为主信号y的滤波版本来估计。在没有例如由于反射等形成的声学失真的情况下，在通过两个麦克风记录的一个音频源的声学记录中，主信号y对应于音频源而残余信号基本为零。例如，立体声信号L和R可以表示为L＝M+S和R＝M-S，其中M对应于一个中间或中央信号，S对应于立体声或边信号(side signal)。在对固定声源进行声学记录的情形，例如一个由两个麦克风记录的讲话者，L和R信号基本相同，如果讲话者恰好位于麦克风之间并且假定没有例如反射等声学失真。因此，在这种情况下S基本为零或者至少很小，并且根据本实施例的编码方案基本上输出对应L+R的y和对应L-R的为零或者很小的r；这对应于α＝45度。如果讲话者不是恰好位于麦克风之间即是不对称的，但是仍假定没有反射或其他失真，那么根据本发明的旋转信号y仍然对应于讲话者而残余信号r基本为零。不过这种情况下角度α不再是45度。
在更实际的情形中会存在失真，例如由于信号在房间的墙上和讲话者的头上和身上的反射等。这些效果影响了残余信号r。因此，当通过滤波器估计残余信号时，滤波器实际上是对房间声学特性等建模。对于一个古典管弦乐队情形是相似的，而对于现代流行音乐情形就有了一些不同。在这种情形下，音响工程师经常使用人工混响、效果箱等将多个通道混合成两通道。在这种情形，滤波器对由混合处理引进的声学效果建模。
于是，仍然参照图4，本装置进一步包括接收主信号y作为输入并产生滤波信号的自适应滤波器201。自适应滤波器的滤波参数Fp是通过例如根据由减法电路203生成的表示r和之间差别的误差信号e控制自适应滤波器201来选择的，以使得滤波信号近似残余信号r。将所得的滤波参数Fp提供给例如提供哈夫曼编码或其他任何合适的编码方案的编码器205，以生成编码滤波参数Fpe。将编码滤波参数Fpe提供给组合电路204。滤波器201可以是本领域公知的任何合适的滤波器。这种滤波器的例子包括有限脉冲响应(FIR)滤波器或无限脉冲响应(IIR)滤波器，自适应或者固定的，具有固定的或者递归追踪的截断频率和幅度，等等。该滤波器可以是任何阶的，优选的小于10。滤波器类型可以是巴特沃思，切比雪夫，或者其他任何适当类型的滤波器。本装置进一步包括结合图2所述的用于编码主信号的编码器202，从而得到编码的主信号ye与滤波参数Fp和角度信息α一起被提供给组合电路204。如结合图2所述，组合电路204执行成帧、比特率分配和无损编码，以得到要传输的组合信号T，其包括编码的主成分信号ye、滤波参数Fp和角度信息α。在一个实施例中，角度α或者可选的，wL和/或wR可以作为在信号帧、信号块等之前传输的首部的一部分进行传输。
根据本发明，由于对变换角度α进行追踪以便使主成分信号包含信号能量的大部分，从而分配给y和r信号的比特率也可以选择为不相同，从而优化编码效率。如上所述，在没有声学失真的情况下，在通过两个麦克风记录的一个音频源的声学记录中，主信号y对应于音频源而残余信号基本为零。在本例中，角度α对应声源相对于麦克风的位置。如果声源移动了，例如从左向右，根据本发明的方法仍然得到一个对应于声源的主成分信号y和小的残余信号r，理想情况下r＝0。在这种情形，α从0(最左)变化到90度(最右)。上面的例子说明了追踪角度α的优点。因此本发明的优点在于实现立体声信号的高效编码。
根据本发明的这个实施例，分配给滤波参数Fp的比特率可以显著小于主信号y所需的比特率，例如在一个实施例中，用于滤波参数Fp的比特率可以平均小于用于y的比特率的10％。因而，本发明的优势在于它减少了传输立体声信号所需的比特率。根据本发明的总比特率仅比用于一个单通道的略高。然而，要注意的是，该速率在记录中会变化。例如，在几乎没有失真和固定声源的情形下，该速率可以变得更小。但在例如L和R信号瞬间独立时也会变大。
图6显示了根据本发明的第二实施例，用于解码立体声信号的装置107的示意图。本装置接收例如来自根据结合图4所述实施例的编码器的编码立体声信号T。本装置包括用于从组合信号T中提取编码信号ye、编码滤波参数Fpe和角度信息α的电路301，即电路301执行图4中组合器204的逆运算。将提取的信号ye提供给解码器302，用于相应于图4中编码器202执行的编码来执行音频解码，以生成解码主成分信号y’。编码滤波器参数Fpe通过解码器303相应于图4中的编码器205对滤波器参数的编码来进行解码。信号y’和解码的滤波参数Fp一起被提供给滤波器304。滤波器304生成相应的估计残余信号所接收的主成分信号y’、估计残余信号和所接收的角度信息α被提供给旋转电路601，其将信号y’、旋转回原始的L和R部分的方向，从而得到接收的信号L’和R’。
在结合图4和6所述的实施例中，滤波器201和304可以是瞬时或时域中的标准自适应滤波器(例如参见“Adaptive Filter Theory”，by S.Haykin，PrenticeHall，2001)，例如回波消除领域公知的自适应滤波器。其他例子的滤波器包括具有固定或自适应的截断频率和幅度的固定的FIR或IIR滤波器。可选地，滤波器可以是基于人的听觉系统的心理声学模型或者其他合适的滤波器，例如使用5个双二阶滤波器的10阶滤波器和人工混响单元，如结合图2所述。
图7a-c显示了用在本发明的实施例中的滤波电路的示例的示意图。
在图7a的例子中，滤波器201包括滤波器701和混响滤波器702的组合。例如，滤波器701可以是瞬时或时域中的标准自适应滤波器，具有固定或自适应的截断频率和幅度的固定的FIR或IIR滤波器等，例如高通滤波器。根据本实施例，滤波器701的滤波参数和混响滤波器702的滤波参数(例如用T60表示的混响时间)，都作为滤波参数Fp而被传输到解码器。
在图7b的例子中，除了滤波器701和702之外，又增加了两个控制电路703-704。增加控制电路703是为了保证残余信号r的平均功率和混响器702的输出的平均功率大致相同，例如通过用参数β1与混响器702的输出相乘。第二控制电路704用β2与混响器的缩放后的输出相乘。因子β2可以在从-3dB到+6dB的范围内选择并且通过使r和之间的互相关ρ尽可能高来确定，即，使信号r和尽可能地相似。因而，图7b的滤波装置进一步包括用于确定互相关ρ的电路705。滤波装置进一步包括乘法器706，用于产生乘积β＝β1·β2，并输出上述乘积以作为滤波参数Fp的一部分。因此，β1是例如通过比较r和的绝对均值来自动控制的增益，而β2是例如通过利用互相关系数ρ来自动控制的另一个增益。第一个增益目的是为了保证r的能量被保持，即，使接收器中预测信号的能量对应于r的能量。第二个增益是为了保证r和很好地相关。
在一个实施例中，混响器702和滤波器701可以被固定，即不根据滤波参数Fp进行调整。进一步地，β2可以被固定，从而使缓慢变化的参数β1作为惟一需要调整和传输的自适应参数。因此，提供了一个特别简单的滤波装置。本实施例的优点在于它仅需要大约原始立体声比特率的一半来传输立体声信号。要注意的是可以使用上述实施例的进一步的改变。例如，在一个实施例中滤波器701可以省略。
另外，对于相关ρ，可选的或者附加的，可以使用其他的相关性度量来保证原始信号和经过编解码后的信号的高度相似。例如，在一个实施例中可以用两个相关器来代替相关器705。一个相关器可以计算输入信号L和R之间的互相关ρLR，另外，第二个相关器可以计算编一解码器产生的输出L’和R’之间的互相关ρ’LR，即根据本实施例，编码器进一步包括用于确定信号L’和R’的解码电路。本实施例使用差ερ＝ρLR-ρ’LR来控制β2从而使ερ最小。这在图7c中说明，其中用接收L和R以及L’和R’作为输入并产生表示差ερ的信号作为输出的电路707来代替图7b的相关器。电路707的输出ερ控制电路704来对估计的残余进行缩放从而使ερ最小化。在一个实施例中，电路707的输入被高通滤波例如在250Hz，从而使低频率对于ερ的影响降低。在如图7b的实施例中，本实施例的优点在于所得立体声映象和编解码之前的原始立体声映象之间的相关性非常高。
图8显示了根据本发明的第三实施例用于编码立体声信号的装置的示意图。本装置是结合图4所述的实施例的变形，包括用于执行立体声信号L和R的旋转的电路401，用于确定旋转角度的电路400，自适应滤波器201，减法电路203，编码器202，编码器205，和组合电路204，如结合图4所述。根据本实施例，主成分信号y没有被直接提供给滤波器201。替代地，本装置进一步包括如结合图6所述的解码器302。解码器302接收由编码器202生成的编码主成分信号ye并产生解码的主信号y’，后者被提供给滤波器201。本实施例的优点在于减少了由信号y的编码和解码而引入的编码误差的影响。由于解码器302实际上不是编码器202的完全的逆，即E E-1≠1，因而这些编码误差使得解码信号y’与原始信号y略有不同。因此，通过在解码器应用信号y的编码和解码，滤波器201的输入y’对应于在接收器提供给滤波器304(图6)的输入y’，从而改善了在接收器处残余信号的的预测结果。因而，根据本实施例的编码器可以与根据图6的实施例的解码器结合使用。
图9显示了根据本发明的第四实施例用于编码立体声信号的装置的示意图。本装置是结合图4所述的实施例的变形，包括用于执行立体声信号L和R的旋转的电路401，用于确定旋转角度的电路400，自适应滤波器201，减法电路203，编码器202，编码器205，和组合电路204，如结合图4所述。根据本实施例，主成分信号y不直接提供给滤波器201。替代地，本装置进一步包括乘法电路901，使用常数γ和从电路401接收的残余信号r相乘，和加法电路902，用于为主成分信号y加上缩放后的残余信号，从而生成信号y+γr提供给滤波器201。这里，γ是一个小的正值，例如为10-2数量级。在一个实施例中，对常数γ进行自适应追踪。本实施例的优点在于可以在通过滤波器201对残余信号的建模中利用在信号y的频谱中基本不存在而存在于r的频谱中的频率，从而改善了编码信号的质量。根据本实施例，信号y+γr被提供给编码器202，生成传送到接收器的解码的主信号ye。另外，根据本实施例，常数γ被提供给组合器204并传输到接收器。
图10显示了根据本发明的第四实施例用于解码立体声信号的装置的示意图，即适于解码从图9的编码器接收的信号。本装置包括用于从组合信号T中提取接收信息的电路301，解码器302，解码器303，滤波器304和如结合图6所述的旋转电路601。根据本实施例，电路301进一步从组合信号T中提取常数γ，并且本装置进一步包括用接收的常数γ与滤波器304产生的预测残余信号相乘的乘法电路1001。本装置进一步包括用于从解码的主信号y’中减去所得缩放后的预测残余信号γ 的电路1002。
图11显示了根据本发明的第五实施例用于编码多通道信号的装置的示意图。本装置接收包括n个通道S1，...，Sn的多通道信号。本装置包括用于执行信号部分S1，...，Sn的主成分分析的主成分分析器1100，并得到用于将输入信号变换成主成分信号y和n-1个残余信号r1，r2，...，rn-1的加权矢量w＝(w1，...，wn)。本装置进一步包括变换电路1101，接收输入信号部分S1，...，Sn和确定的加权矢量w并根据以上变换产生信号y和r1，r2，...，rn-1。主成分信号y被提供给一组自适应滤波器201，每个预测残余信号r1，r2，...，rn-1之一，如结合图4所述，得到相应的滤波参数Fp1，...，Fp(n-1)，后者被提供给相应的编码器205以及随后提供给组合器204。在相应的解码器(未示出)，相应的滤波器被用于基于滤波参数生成残余信号的估计如结合图6所述。本装置进一步包括编码器202，用于编码主成分信号y，得到提供给组合器204的编码信号ye。
可以理解，根据一个实施例，只有残余信号的一个子集例如r1，r2，...，rk，k＜n-1，可以被传送到接收器或者提供给相应的滤波器，从而减少了需要的比特率而保留了大部分信号质量。
图12显示了本发明的实施例使用的减法电路的示意图。在以上实施例中，通过比较目标信号和估计信号来确定滤波参数，即通过例如由减法电路203生成的表示r和之间差别的误差信号e。可以理解，减法电路可以生成r和之间差别的不同度量，例如可以在时域或者频域确定差别。参照图12，电路203可以包括用于例如通过执行快速傅里叶变换(FFT)将信号r和分别变换到频域的电路1201。所得的频率部分可以进一步地分别通过电路1204处理。例如不同的频率可以不同地加权，优选地根据人的听觉系统的特性，从而对可听频率范围内的差别被更重地加权。通过电路1204的进一步处理的其他例子包括对预定频率部分的平均、计算复杂频率部分的幅度、滤波部分的聚类(cluster)等。例如在一个优选实施例中，在频域的减法之前执行聚类。此聚类可以通过滤波器组来执行，例如用线性或对数子带宽。可选地，可以使用所谓的等效矩形带宽(ERB)(例见“An introduction to the Psychology of Hearing”，by BrianMoore，Academic Press，London，1997)执行聚类。等效矩形带宽技术对相应于人的听觉滤波器的频带进行聚类，例如所谓的关键频带。根据本实施例，作为中心频率的函数的ERB的对应值f(以kHz为单位)可以根据ERB＝24.7(4.37f+1)来计算。仍然参照图12，电路203进一步包括用于减去已处理频率部分的减法电路1203。可选地，由电路1201生成的变换信号不经过进一步处理就直接提供给减法电路1204。由减法电路1204产生的差信号被提供给变换电路1202，用于将误差信号变换回时域，例如通过执行逆快速傅里叶变换(IFFT)。可选地，可以直接使用频域的差信号。
可以理解的，普通技术人员可以例如通过添加或减少特征，或者通过结合上述实施例的特征来修改上述实施例。例如，可以理解，图8和9的实施例中介绍的特征也可以结合在图11的实施例中。作为另一个例子，用来描述图4的实施例中的估计残余信号的质量的误差信号e可以与一个表示最大可接受误差的误差阈值比较。如果误差不可接受，误差信号可以在适当地编码后和信号T一起，与线性预测编码(LPC)领域中使用的方法相似地传输。
进一步要注意的是，本发明不限于立体声信号，而是也可以应用于其他具有两个或更多输入通道的多通道输入信号。这种多通道信号的例子包括从数字通用光碟(DVD)或超级音频光碟等中接收的信号。在这种更通用的情形，主成分信号y和一个或更多的残余信号r仍可以根据本发明生成。传输的残余信号的数目依赖于通道的数目和所希望的比特率，因为可以略去较高阶残余而不会显著降低信号质量。
一般地，本发明的优点在于比特率分配可以自适应地改变，从而可以实现完美的降低。例如，如果信道在瞬间只允许传输一个减少的比特率，例如由于增加的网络通信量、噪声等，就可以降低传输信号的比特率而不会显著降低信号的可察觉的质量。例如，在上面讨论的固定声源的情形，可以用接近2的因子来降低比特率而不会显著降低信号质量，与传输一个单一通道而不是两通道相比。
要注意的是，上述装置可以实现为通用或特殊用途的可编程微处理器，数字信号处理器(DSP)，专用集成电路(ASIC)，可编程逻辑阵列(PLA)，现场可编程门阵列(FPGA)，特定用途的电子电路等，或者它们的组合。
应该注意的是，上述实施例说明而不是限制本发明，并且本领域普通人员能够设计出许多替换实施例而不会脱离附加权利要求的范围。在权利要求中，任何括号之间的参考标记都不应解释为对权利要求的限制。词汇“包括”不排除未列在权利要求中之外的其他元件或步骤的存在。本发明能够通过包括多个不同元件的硬件和通过一适当编程计算机来实现。在一个列举了多个设备的装置权利要求中，这些设备中的一些能够通过同一个硬件单元来实现。在互不相同的从属权利要求中引用某些措施并不表示不能有利地使用这些措施的组合。
权利要求
1.一种编码包括至少第一信号部分和第二信号部分的多通道信号的方法，本方法包括步骤—确定一预测滤波器的一组滤波参数，从而预测滤波器在接收到第一信号部分作为输入时提供第二信号部分的估计；和—将多通道信号表示成第一信号部分和该组滤波参数。
2.根据权利要求1的方法，其中确定该组滤波参数的步骤包括确定滤波参数以使得第二信号部分和估计信号部分的差小于一个预定值。
3.根据权利要求2的方法，其中将多通道信号表示成第一信号部分和该组滤波参数的步骤进一步包括如果所述差不小于所述预定值，则将多通道信号表示成第一信号部分、该组滤波参数以及表示第二信号部分与估计信号部分的差的误差信号。
4.根据权利要求1-3中的任何一个的方法，其特征在于第一信号部分对应于第一信号能量，和第二信号部分对应于小于第一信号能量的第二信号能量。
5.根据权利要求1-4中的任何一个的方法，其中该方法进一步包括将多通道源信号的至少第一源信号部分和第二源信号部分变换成第一和第二信号部分的步骤。
6.根据权利要求5的方法，其中多通道源信号包括具有左和右信号部分的立体声信号。
7.根据权利要求1-6中任何一个的方法，其中—所述第一信号部分是包括多个源信号部分的多通道源信号的主成分信号，并且第二信号部分是相应的残余信号；—该方法进一步包括通过预定变换将至少第一和第二源信号部分变换成包含大部分信号能量的主成分信号和比主成分信号包含更少能量的至少一个残余信号的步骤，通过至少一个变换参数将预定变换参数化；和—将多通道信号表示成第一信号部分和该组滤波参数的步骤进一步包括将多通道信号表示成主成分信号、该组滤波参数和变换参数的步骤。
8.根据权利要求7的方法，其中预定变换是一个旋转，而变换参数对应于旋转角度。
9.根据权利要求1-8中任何一个的方法，其中确定一组滤波参数的步骤进一步包括确定至少一个用于缩放第二信号部分的估计的缩放参数的步骤，从而增加第二信号部分和第二信号部分的估计之间的相关性度量。
10.一种解码多通道信号信息的方法，该方法包括步骤—接收第一信号部分和一组滤波参数；—利用相应于所接收的该组滤波参数的预测滤波器来估计第二信号部分，预测滤波器接收所接收的第一信号部分作为输入。
11.根据权利要求10的方法，其中—接收第一信号部分的步骤进一步包括接收变换参数的步骤，第一信号部分对应于多通道源信号的至少第一和第二源信号部分的预定变换的结果，至少通过该变换参数对预定变换进行参数化；—该方法进一步包括通过逆变换接收的第一信号部分和估计的第二信号部分而产生第一和第二解码信号部分的步骤。
12.一种用于编码包括至少第一信号部分和第二信号部分的多通道信号的装置，该装置包括—用于估计第二信号部分的预测滤波器，所述预测滤波器对应于一组滤波参数并且接收第一信号部分作为输入；和—用于将多通道信号表示成第一信号部分以及该组滤波参数的处理设备。
13.一种用于解码对应于至少两个信号部分的多通道信号的装置，该装置包括—用于接收多通道信号的第一信号部分和一组滤波参数的接收设备；—用于估计多通道信号的第二信号部分的预测滤波器，预测滤波器接收所接收的这组滤波参数和所接收的第一信号部分作为输入。
14.一种包括多通道信号信息的数据信号，该数据信号通过一种编码包括至少第一信号部分和第二信号部分的多通道信号的方法而产生，所述方法包括步骤—确定一预测滤波器的一组滤波参数，从而预测滤波器在接收到第一信号部分作为输入时提供第二信号部分的估计；和—将多通道信号表示成第一信号部分和该组滤波参数。
15.一种计算机可读介质，包括表示通过一种编码包括至少第一信号部分和第二信号部分的多通道信号的方法而产生的多通道信号信息的数据记录，这种方法包括步骤—确定一预测滤波器的一组滤波参数，从而预测滤波器在接收到第一信号部分作为输入时提供第二信号部分的估计；和—将多通道信号表示成第一信号部分和该组滤波参数。
16.一种用于传输多通道信号的设备，这种设备包括一种用于编码包括至少第一信号部分和第二信号部分的多通道信号的装置，该装置包括—用于估计第二信号部分的预测滤波器，所述预测滤波器对应于一组滤波参数并且接收第一信号部分作为输入；和—用于将多通道信号表示成第一信号部分以及该组滤波参数的处理设备。
全文摘要
所公开的是一种编码至少包括第一信号部分(y)和第二信号部分(r)的多通道信号的方法。本方法包括确定预测滤波器(201)的一组滤波参数(F
文档编号G10L25/12GK1647158SQ03807982
公开日2005年7月27日申请日期2003年3月20日优先权日2002年4月10日
发明者R·M·阿尔特斯, R·艾旺申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：R.M.阿尔特斯;R.艾旺
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：立体声信号编码的制作方法
上一篇：用于媒体信号的水印处理的窗口整形函数的制作方法