用于混合压缩数字位流的方法及装置的制作方法

文档序号：84178阅读：1231来源：国知局

专利名称:用于混合压缩数字位流的方法及装置的制作方法
技术领域：
本公开总体上涉及数字压缩，更具体地涉及用于混合压缩数字位流的方法及装置。
背景技术：
在现代电视或无线电广播站中，通常采用压缩数字位流来承载用于发送的视频和/或音频数据。例如，在美国针对数字电视(DTV)广播的先进电视系统委员会(ATSC)标准采用运动图像专家组(MPEG)标准(例如，MPEG-1、MPEG-2、MPEG-3、MPEG-4等)来承载视频内容，并采用数字音频压缩标准(例如，公知为Dolby Digital的AC-3)来承载音频内容(即，ATSC标准数字音频压缩(AC-3)，A版，2001年8月)。AC-3压缩标准基于感知型数字音频编码技术，该技术在最小化可感知失真的同时减少再现原始音频信号所需的数据量。具体来说，AC-3压缩标准认识到，人耳在特定谱频率处无法觉察到小于这些谱频率处的掩蔽能量的频谱能量变化。掩蔽能量是音频片段的一特性，其取决于该音频片段的音调和类噪声特性。可采用不同的已知心理声学模型来确定特定谱频率处的掩蔽能量。此外，AC-3压缩标准提供了用于数字电视(DTV)、高清晰度电视(HDTV)、数字多功能盘(DVD)、数字线缆以及卫星传输的使得能够广播特殊声音效果(例如，环绕声)的多声道数字音频格式(例如，5.1声道格式)。
一些广播情形要求要与主音频服务(MAS)(其可与要广播的主电视或无线电节目相对应)混合的辅助音频服务(AAS)，例如包含画外音材料的音频服务。AAS可源于实况音频，或者可按照模拟、非压缩数字格式或压缩数字格式来存储。将AAS与MAS混合通常包括衰减MAS并加入AAS，使得AAS可听得见，同时MAS仍处于较低但可感知的水平。
在传统的模拟广播中，混合两种音频源(例如，AAS和MAS)是相对简单的任务，涉及公知的衰减和放大电路。同样，混合两个非压缩数字音频流也是相对简单的任务，这是因为可采用公知的线性衰减和加法技术来混合非压缩数字样本。然而，当任一个音频源或两个音频源都提供压缩数字音频流时(如在全数字现代广播设备的情况下)混合两个音频源要复杂得多。在一些已知的系统中，混合一个或更多个压缩数字音频流要求对要混合的所有流进行解压缩。然后采用非压缩的数据流执行混合，接着对所得的混合数据流进行再压缩。然而，这种要求对源数字流进行解压缩并对混合数据流进行再压缩的方法并非理想的，因为再压缩是昂贵的操作，其由于众多的附加处理步骤而要求附加装置、造成附加音频延时、并且增加了潜在故障模式数。
图1是用于图2中的示例混合装置的示例环境的框图。
图2是用在图1中的示例环境下的用来混合压缩数字位流的示例混合装置的框图。
图3描述了要利用图2中的示例混合装置处理的示例单声道压缩数字音频位流。
图4是例示了实现图2中的示例混合装置的示例方式的框图。
图5描述了通过图4中的示例混合装置对图3中的示例单声道压缩数字音频位流执行的示例操作序列。
图6描述了可用来实现图4中的示例混合装置的示例量化查找表。
图7描述了要由图4中的示例混合装置处理的示例多声道压缩数字音频位流。
图8描述了要通过图4中的示例混合装置对图7中的示例压缩数字音频位流执行的示例操作序列。
图9是表示要用来实现图4中的示例混合装置的示例处理的流程图。
图10是表示用于图9中的示例处理的第一示例修改处理的流程图。
图11是表示用于图9中的示例处理并适于对图3或图7中的示例压缩数字音频位流进行操作的第二示例修改处理的流程图。
图12描述了用在图1中的示例环境下的另选示例混合装置。
图13是表示可用来实现图12中的示例混合装置的示例处理的流程图。
图14A至图14B是表示对图13中的示例处理的示例改进的流程图。
图15是可用来实现图2中的示例混合装置的示例处理器系统的框图。
具体实施方式总体上公开了用来对压缩数字位流进行组合的方法及装置。本文公开的方法及装置可用来在无需预先对压缩数字位流进行解压缩的情况下对该压缩数字位流进行组合。因此，本文公开的方法及装置无需对压缩数字位流进行多轮解压缩/压缩，多轮解压缩/压缩例如对于电视广播网络分支机构来说通常是不可接受的，这是因为多轮解压缩/压缩会严重劣化压缩数字位流提供的媒体内容的质量。尽管这里给出的示例关注对各自承载音频内容的两个数字位流的混合，但是所公开的方法和装置可更一般地应用于按照任意适当方式组合按照任意适当格式承载任意类型内容的任意数量的数字数据流。
例如，在广播之前，本文公开的方法和装置可用来对与根据数字音频压缩标准(例如，AC-3压缩标准)格式化的压缩主数字位流相关联的改进离散余弦变换(MDCT)系数集进行解包。可修改经解包的MDCT系数集的尾数来将辅助数字位流与主压缩数字位流相混合。可对所得经修改的MDCT系数再打包以形成用来传输到一个或更多个媒体消费点的压缩混合数字位流。按照这种方式，可将辅助数字位流直接与压缩版主数字位流相混合，而无需对压缩主数字位流进行解压缩并随后对混合数字位流进行再压缩。
参照图1，示例使用环境100例示了示例混合装置110在包括广播网络供应商120和服务于多个本地媒体消费点140的本地服务供应商130的广播系统中的操作。广播网络供应商120可以是能够向一个或更多个本地服务供应商130提供广播内容的任意类型的广播网络供应商。例如，广播网络供应商120可对与电视节目、广播节目、体育赛事、新闻广播等相对应的音频、视频和/或多媒体内容进行打包，以传输到本地服务供应商130用于随后传输到特定本地服务供应商130所服务的本地媒体消费点140。在很多情形下，广播网络供应商120生成的音频、视频和/或多媒体内容是适于广大听众消费的一般内容。在这种情况下，本地服务供应商130可剪辑广播网络供应商120提供的一般内容，以供与本地媒体消费点140相关联的特定本地听众进行消费。
本地服务供应商130例如可由任何服务供应商来实现，例如本地有线电视服务供应商、本地射频(RF)电视服务供应商、本地无线电广播供应商等。本地服务供应商130经由接收器150从广播网络供应商120接收广播内容。接收器150可由基于广播网络供应商120与本地服务供应商130之间的通信链路的任意适合类型的接收器来实现，例如卫星接收器、高速数字网络接收器等。另外，本地服务供应商130可生成要与接收器150接收到的广播内容相混合的本地内容160，例如用以剪辑广播内容以供与本地媒体消费点140相关联的特定本地听众进行消费。将经由接收器150接收到的广播内容和本地内容160施加给混合装置110，以生成混合广播内容用来经由发送器170广播到本地媒体消费点140。发送器170可采用适于本地服务供应商130的任意适合类型的发送器来实现，例如有线电视发送器、RF电视发送器、广播无线电发送器等。
尽管示例使用环境100将混合装置110示出为与本地服务供应商130相结合地进行操作以将来自广播网络供应商120的内容与本地内容160相混合，但是也可以采用其他使用环境。例如，可由广播网络供应商120使用混合装置110来混合来自多个源的内容，用以生成要提供给本地服务供应商130的广播内容。另外或另选的是，可由本地服务供应商130使用混合装置110来混合来自多个源的内容用以生成本地内容160。更一般的是，混合装置110可用在要将来自多个源的内容相混合以生成所得混合内容的任意情形下。
图2示出了示例混合装置200，该示例混合装置200被配置为将非压缩辅助数字位流210与压缩主数字位流220相混合以生成所得压缩混合数字位流230。可使用示例混合装置200来例如在如下情况下实现图1中的示例混合装置110将本地内容160格式化为非压缩数字位流(例如，对应于非压缩辅助数字位流210)，并将广播网络供应商120提供的广播内容格式化为压缩数字位流(例如，对应于压缩主数字位流220)。压缩主数字位流220例如可根据诸如AC-3压缩标准和/或MPEG-AAC压缩标准(可采用其中任一种来利用来自各个块的预定数量的数字化样本对音频信号块进行处理)的音频压缩标准来压缩。如下所述，可以以例如48千赫兹(kHz)的采样率来对压缩数字位流220的源(未示出)进行采样以形成音频块。
通常，音频压缩技术(例如基于AC-3压缩标准的音频压缩技术)采用交叠音频块和MDCT算法来将音频信号转换为压缩数字位流(例如，图2中的压缩主数字位流220)。可根据采样的音频信号的动态特性来使用两种不同的块尺寸(即，短块和长块)。例如，可采用AC-3短块来最小化音频信号的瞬态片段的预回声，并可采用AC-3长块来实现音频信号的非瞬态片段的高压缩增益。根据AC-3压缩标准，AC-3长块对应于512时域音频样本的块，而AC-3短块对应于256时域音频样本。基于用在AC-3压缩标准中的MDCT算法的交叠结构，在AC-3长块的情况下，通过将先前(旧)256时域样本块与当前(新)256时域样本块连接起来而获得512个时域样本，以生成512时域样本的音频块。然后采用MDCT算法来对AC-3长块进行变换以生成256个变换系数。根据同一标准，同样从一对连续时域样本音频块获得AC-3短块。然后采用MDCT算法来对AC-3短块进行变换以生成128个变换系数。然后对与两个相邻短块相对应的128个变换系数进行交织以生成一组256个变换系数。由此，对AC-3长块或AC-3短块的处理得到了相同数量的MDCT系数。作为另一示例，根据MPEG-AAC压缩标准，短块包含128个样本，而长块包含1024个样本。
图3例示了要由图2中的示例混合装置200处理为压缩主数字位流220的示例单声道压缩数字位流的格式300。格式300基于包括多个256样本时域音频块310(概括地示为A0、A1、A2、A3、A4和A5)的非压缩数字位流。MDCT算法处理音频块310以生成MDCT系数集320(通过示例的方式将其示出为MA0、MA1、MA2、MA3、MA4和MA5(其中MA5未示出))。例如，MDCT算法可处理音频块A0和A1以生成MDCT系数集MA0。将音频块A0和A1连接起来生成512样本音频块(例如，AC-3长块)，采用MDCT算法对该512样本音频块进行MDCT变换以生成包含256个MDCT系数的MDCT系数集MA0。同样，可对音频块A1和A2进行处理以生成MDCT系数集MA1。由此，音频块A1是交叠音频块，因为其用来生成MDCT系数集MA0和MA1两者。按照类似的方式，采用MDCT算法来对音频块A2和A3进行变换以生成MDCT系数集MA2，对音频块A3和A4进行变换以生成MDCT系数集MA3，对音频块A4和A5进行变换以生成MDCT系数集MA4，等等。由此，音频块A2是用来生成MDCT系数集MA1和MA2的交叠音频块，音频块A3是用来生成MDCT系数集MA2和MA3的交叠音频块，音频块A4是用来生成MDCT系数集MA3和MA4的交叠音频块，等等。合起来说，将MDCT系数集320打包以形成图2中的压缩数字位流220。
图4例示了图2中的混合装置200的示例实现。在图4的示例中，混合装置200包括获取单元410、解包单元420、修改单元430以及再打包单元440。尽管下面根据AC-3压缩标准描述了混合装置200的操作，但是可将混合装置200实现为例如根据另外的和/或其他压缩标准(例如，MPEG-AAC压缩标准)进行操作。将利用图5的示例更详细描述混合装置200的操作。
获取单元410被配置为获取与压缩数字位流220(示于图2中)相关联的一个或更多个帧510(示于图5中)，帧510的一部分通过示例的方式示出为图5中的帧A和帧B。如前所述，压缩数字位流220可以是根据AC-3标准压缩的数字位流(下文中称作“AC-3数据流”220)。尽管AC-3数据流220可包括多个声道，但是为了清晰起见，以下的示例将AC-3数据流220描述为仅包括一个声道。在AC-3数据流220中，各个帧510包括多个原始MDCT系数集520。根据AC-3压缩标准，例如，各个帧510包括六个原始MDCT系数集(即，六个“音频块”，其中各MDCT系数集对应于一AC-3音频块)。例如，帧A包括原始MDCT系数集MA0、MA1、MA2、MA3、MA4和MA5，帧B包括原始MDCT系数集MB0、MB1、MB2、MB3、MB4和MB5。
获取单元410还被配置为例如处理与各个帧510相关联的头信息，例如与AC-3数据流220相关联的声道数。尽管如上所述示例AC-3数据流220仅包括一个声道，但是下面将关于图7和图8来描述具有多个声道的示例压缩数字位流。
返回到图4和图5，解包单元420被配置为对原始MDCT系数集520进行解包来例如确定压缩信息，例如原始压缩处理的参数(即，音频压缩技术压缩音频信号或音频数据以形成压缩数字数据流220的方式)。例如，解包单元420可确定采用多少位来表示原始MDCT系数集520内的各个原始MDCT系数。另外，压缩参数可包括限制AC-3数据流220可修改的程度以确保经由AC-3数据流220传送的媒体内容质量级足够高的信息。混合装置200随后采用由解包单元420识别的压缩信息来将非压缩辅助数字位流210混合到AC-3数据流220中，从而确保按照与压缩主数字位流220中提供的压缩信息一致的方式来执行混合操作。
如在AC-3压缩标准中详细描述的，采用尾数和指数来表示各个原始MDCT系数。AC-3压缩标准采用能够减少表示各个原始MDCT系数所用的位数的技术。心理声学掩蔽是可被这些技术采用的一个因素。例如，在特定频率k处存在音频能量Ek(例如，声调)或者在特定频率k附近的频带上的扩展处存在音频能量Ek(例如，类噪声特性)都产生掩蔽效应。也就是说，如果在特定频率k处或在频率k附近的频带上的扩展处的频域能量的变化小于给定能量阈值ΔEk，则人耳不能感知该变化。因为人耳的这一特性，可以用与ΔEk有关的步长来量化与频率k相关联的MDCT系数mk，而不会造成给音频内容带来任何可感知的变化的风险。对于AC-3数据流220，用尾数Mk和指数Xk来表示各原始MDCT系数mk，使得mk＝Mk.2-Xk，其中2-Xk表示系数mk的量化步长。用来表示原始MDCT系数集520中的各原始MDCT系数的尾数Mk的位数可基于在AC-3压缩标准中公布的已知量化查找表(例如，图6中的示例量化查找表600)来确定。在图6的示例中，量化查找表600提供了由四位数表示的MDCT系数的尾数码或位模式以及对应的尾数值。如下面详细描述的，尾数Mk可修改为表示将非压缩辅助数字位流210与AC-3数据流220相混合而得到的MDCT系数。
返回到图4和图5，修改单元430被配置为对各原始MDCT系数集520执行逆变换以生成时域音频块530，通过示例的方式将时域音频块530示出为TA0’，…，TA3”，TA4’，TA4”，TA5’，TA5”，TB0’，TB0”，TB1’，TB1”，…，以及TB5’(TA0”到TA3’以及TB2’到TB4”未示出)。修改单元430执行逆变换操作以生成与被连接起来以形成AC-3数据流220的原始MDCT系数集520的多个256样本时域音频块相关联的先前(旧)时域音频块集(其被表示为上撇号块)集和当前(新)时域音频块(其被表示为秒号块)集。例如，修改单元430对原始MDCT系数集MA5执行逆变换以生成时域块TA4”和TA5’，对原始MDCT系数集MB0执行逆变换以生成TA5”和TB0’，对原始MDCT系数集MB1执行逆变换以生成TB0”和TB1’，等等。然后，修改单元430生成重构的时域音频块540，其提供对被压缩以形成AC-3数据流220的原始时域音频块的重构。为了生成重构的时域音频块540，修改单元430可例如基于已知的Princen-Bradley时域混叠消除(TDAC)技术(如在Princen等人的“Analysis/Synthesis Filter Bank Design Based on Time Domain AliasingCancellation”，Institute of Electrical and Electronics Engineers(IEEE)Transactions on Acoustics，Speech and Signal Processing，Vol.ASSP-35，No.5，pp.1153-1161(1986)(在此通过引用并入其全部内容)中描述的)来相加时域音频块530。例如，修改单元430可通过采用Princen-Bradley TDAC技术来将上撇号时域音频块TA5’和秒号时域音频块TA5”相加，来重构图3中的时域音频块A5(对应于TA5R)。同样，修改单元430可通过采用Princen-Bradley TDAC技术来将上撇号音频块TB0’和秒号音频块TB0”相加，来重构时域音频块B0(对应于TB0R)。按照这种方式，对用来形成AC-3数据流220的原始时域音频块进行重构以使得非压缩辅助数字位流210能够被直接混合到AC-3数据流220中。
修改单元430还被配置为将非压缩辅助数字位流210混合到重构的时域音频块540中以生成混合时域音频块550，通过示例的方式将混合时域音频块550示出为TA0X、…、TA4X、TA5X、TB0X、TB1X、…、以及TB5X(块TA1X、TA2X、TA3X、TB2X、TB3X以及TB4X未示出)。修改单元430可通过将非压缩辅助数字位流210中包括的时域音频样本与所连接的重构时域音频块540中的对应时域音频样本相加来实现混合处理，以生成混合时域音频块550。另外，修改单元430可被配置为在相加操作之前，衰减非压缩辅助数字位流210和重构时域音频块540中的任一个或两者中的时域音频样本。例如，在AC-3数据流220对应于MAS且非压缩辅助数字位流210对应于AAS的情况下，修改单元430可被配置为在相加操作之前将与MAS相对应的重构时域音频块540中的时域样本衰减一衰减因数(例如，3dB到10dB)。这种衰减将使得AAS成为混合音频信号中的主导音频分量，但仍使得MAS按较低但可感知的级别被听到。
返回到图4和图5，基于混合时域音频块550，修改单元430生成中间混合MDCT系数集560，通过示例的方式将中间混合MDCT系数集560示出为MA0I、...、MA4I、MA5I、MB0I、...、以及MB5I(块MA1I、MA2I、MA3I、MB1I、MB2I、MB3I以及MB4I未示出)。根据上述示例，修改单元430基于混合时域音频块TA5X和TB0X生成中间混合MDCT系数集MA5I。具体来说，修改单元430将混合时域音频块TA5X和TB0X连接起来以形成512样本连接音频块，并将该512样本连接音频块转换为中间混合MDCT系数集MA5I，如下面将更详细描述的，可采用该中间混合MDCT系数集MA5I来修改原始MDCT系数集MA5以生成输出混合MDCT系数集MA5X。
原始MDCT系数集520与中间混合MDCT系数集560之差表示AC-3数据流220中与将非压缩辅助数字位流210与AC-3数据流220相混合对应的变化。因此，可以基于原始MDCT系数集520的格式并由此基于与原始MDCT系数集520相关联的压缩，生成输出混合MDCT系数集570，通过示例的方式将输出混合MDCT系数集570示出为MA0X、...、MA4X、MA5X、MB0X、...、以及MB5X(块MA1X、MA2X、MA3X、MB1X、MB2X、MB3X以及MB4X未示出)。例如，关于图6，修改单元430可采用与对应的原始MDCT系数集MA5相关联的指数以及基于对应的中间混合MDCT系数集MA5I的尾数，按照尾数及指数格式来表示混合MDCT系数集MA5X。此外，可采用与原始MDCT系数集520相对应的量化查找表(即，图6中的查找表600)来量化中间混合MDCT系数560的尾数值，以生成混合MDCT系数集570的MDCT系数的尾数值。本领域普通技术人员将认识到，由于在非压缩辅助数字位流210中的混合，故而得到的量化混合尾数值表示AC-3数据流220的变化或其增加。在该示例实施中，采用原始MDCT系数的指数来生成混合MDCT系数集570的对应混合MDCT系数。改变指数可能需要重新计算基本压缩信号表示，从而要求压缩信号经历真正的解压缩/压缩轮回。为了避免解压缩/压缩轮回，如果仅对尾数的修改不足以完全表示混合的与原始的MDCT系数之差，则适当地将受影响的MDCT尾数设置为最大或最小值。
转向图6，示例量化查找表600包括对-0.9333到+0.9333范围内的示例尾数Mk的十五级量化的尾数码和尾数值。尽管示例量化查找表600提供了与用四位表示的MDCT系数相关联的尾数信息，但是AC-3压缩标准提供了与每MDCT系数的其他适合位数相关联的量化查找表。为了例示修改单元430可生成特定混合MDCT系数的一个示例方式，考虑原始MDCT系数集MA5中包含的尾数为Mk的原始MDCT系数mk。假设原始尾数值Mk为-0.2666(即，-4/15)。采用量化查找表600，将与原始MDCT系数集MA5中的原始MDCT系数mk相对应的尾数码确定为0101。接着，假设混合MDCT系数集MA5X包括尾数值为XMk的混合MDCT系数xmk。此外，假设对应的中间混合MDCT系数集MA5I的中间尾数值为-0.4300，这处于尾数码0011与0100之间。换言之，在该示例中将非压缩辅助位流210与AC-3位流220相混合，得到原始尾数值-0.2666与混合尾数值-0.4300之间的差为-0.1667。
为了将非压缩辅助位流210与AC-3数据流220相混合，修改单元430可将混合MDCT系数集MA5X表示为对原始MDCT系数集MA5中的原始MDCT系数的修改。继续以上示例，因为与对应的混合MDCT系数xmk相关联的中间混合尾数处于尾数码0011与0100之间(因为与混合MDCT系数xmk相对应的中间尾数值为-0.4300)，所以尾数码0011或尾数码0100可替代与MDCT系数mk相关联的尾数码0101来表示混合MDCT系数xmk。与尾数码0011相对应的尾数值为-0.5333(即，-8/15)，与尾数码0100相对应的尾数值为-0.4(即，-6/15)。在该示例中，因为与尾数码0100相对应的尾数值-0.4最接近理想的中间混合尾数值-0.4300，所以修改单元430选择尾数码0100来表示混合MDCT系数xmk。结果，与混合MDCT系数xmk的混合尾数XMk相对应的新的尾数位模式0100代替原始尾数位模式0101。同样，可按照上述方式来修改原始MDCT系数集MA5中的各个原始MDCT系数，以生成混合MDCT系数集MA5X中的对应混合MDCI系数。此外，如果中间混合尾数值在尾数值的量化范围之外(即，大于0.9333或小于-0.9333)，适当地选择正限1110或负限0000作为输出混合尾数码。另外，如上所讨论的，尽管可如上所述地修改与原始MDCT系数集中的各原始MDCT系数相关联的尾数码，但是在生成对应的混合MDCT系数时仍保持与原始MDCT系数相关联的指数不变。
返回到图4和图5，再打包单元440被配置为对与AC-3数据流220中的各个帧相关联的混合MDCT系数集570进行再打包以生成压缩混合数字位流230。具体来说，再打包单元440识别各原始MDCT系数集520在AC-3数据流220的帧内的位置，从而可基于修改所识别的原始MDCT系数集520来生成对应的混合MDCT系数集570。为了重建混合版的帧A，例如，再打包单元440可识别原始MDCT系数集MA0到MA5的位置并对其进行修改，以在对应的识别位置处生成对应的混合MDCT系数集MA0X到MA5X。采用本文描述的解包、修改以及再打包处理，AC-3数据流220在辅助数字位流210与其相混合的同时保持为压缩数字位流。因此，混合装置200无需另外的解压缩/压缩轮回(这可能劣化AC-3数据流220中的媒体内容的质量)而将辅助数字位流210与AC-3数据流220相混合。
为简便起见，关于图5描述了包括单个声道的AC-3数据流220。然而，如下关于图7和图8所描述的，本文描述的方法和装置可应用于具有与多个声道相关联的音频块(例如，5.1声道音频(即，五个全带宽声道和一个低频效果声道))的压缩数字数据流。在图7的示例中，非压缩数字位流格式700可包括多个音频块集710。各个音频块集710可包括与多个声道(例如，包括左前声道、中央声道、右前声道、左后声道、右后声道以及低频效果(LFT)声道(例如，超重低音炮声道))相关联的音频块720和730。例如，音频块集AUD0包括与左前声道相关联的音频块A0L、与中央声道相关联的音频块A0C、与右前声道相关联的音频块A0R、与左后声道相关联的音频块A0RL、与右后声道相关联的音频块A0RR、以及与LFE声道相关联的音频块A0LFE。类似地，音频块集AUD1包括与左前声道相关联的音频块A1L、与中央声道相关联的音频块A1C、与右前声道相关联的音频块A1R、与左后声道相关联的音频块A1RL、与右后声道相关联的音频块A1RR、以及与LFE声道相关联的音频块A1LFE。
可按照与上面关于图3所述的方式类似的方式来压缩音频块集710中与特定声道相关联的各个音频块。例如，可对图8中的与中央声道相关联的音频块810(其与图7中的中央声道相对应，且通过示例的方式示出为A0C、A1C、A2C、以及A3C、...、A5C(A4C未示出))进行变换，以生成与压缩中央声道数字位流800相关联的MDCT系数集820。如上所述，各个MDCT系数集820可从通过连接先前(旧)256样本音频块和当前(新)256样本音频块而形成的512样本音频块中得出。MDCT算法然后可处理时域音频块810(例如，A0C到A5C)以生成MDCT系数集(例如，M0C到M5C)。
在包括将AAS与和5.1声道音频相对应的MAS相混合的应用中，可以优选地将AAS数字位流与MAS 5.1声道音频位流的中央声道相混合。在这种情况下，压缩的中央声道数字位流800对应于图2中的压缩主数字位流220，并可采用图4中的混合装置200来将辅助数字位流210与压缩中央声道数字位流800相混合。混合装置200可按照与以上关于图5和图6描述的处理类似的方式来执行混合操作。例如，基于压缩中央声道数字位流800的MDCT系数集820，获取单元410如上所述地获取多个帧(未示出)以及与各个帧相关联的头信息。头信息包括与压缩中央声道数字位流800相关联的压缩信息。对于各个帧，解包单元420对原始MDCT系数集820进行解包以确定与原始MDCT系数集820相关联的压缩信息。例如，解包单元420可识别原始压缩处理表示各个原始MDCT系数集820中的各个原始MDCT系数的尾数所用的位数。可采用这种压缩信息来如以上关于图5和图6描述地将辅助数字位流210与压缩中央声道数字位流800相混合。修改单元430然后生成经逆变换的时域音频块830，通过示例的方式将其示出为TA0C”、TA1C’、TA1C”、TA2C’、TA2C”以及TA3C’。时域音频块830包括先前(旧)时域音频块(其表示为上撇号块)集和当前(新)时域音频块(其表示为秒号块)集。通过例如基于Princen-Bradley TDAC技术来将对应上撇号块和秒号块相加，可对被压缩以形成压缩中央声道数字位流800的原始时域音频块进行重构以形成重构时域音频块840。例如，修改单元430可将时域音频块TA1C’和TA1C”相加来重构时域音频块A1C(即，TA1CR)。同样，修改单元430可将时域音频块TA2C’和TA2C”相加来重构时域音频块A2C(即，TA2CR)。
为了将辅助数字位流210与压缩中央声道数字位流800相混合，修改单元430将辅助数字位流210与重构时域音频块840相混合以生成混合时域音频块850。例如，修改单元430可将辅助数字位流210混合到重构时域音频块TA1CR中以生成混合时域音频块TA1CX。
基于混合时域音频块850，修改单元430可生成混合MDCT系数集860。例如，修改单元430可将混合时域音频块TA1CX和TA2CX连接起来以生成与混合MDCT系数M1CX相对应的中间混合MDCT系数集M1CI(未示出)。如以上关于图5和图6所讨论的，修改单元430基于中间混合MDCT系数(未示出)修改原始MDCT系数集820来生成对应的混合MDCT系数集860。例如，修改单元430可采用混合MDCT系数集M1CI的理想值来修改MDCT系数集M1C的原始尾数以生成混合MDCT系数集M1CX。再打包单元440然后可对混合MDCT系数集860再打包以生成对应于将辅助数字位流210与压缩中央声道数字位流800相混合的压缩混合数字位流230。
图9到图11示出了表示用于实现图4中的示例混合装置200的示例处理的流程图。在这些示例中，流程图所表示的处理可以由可机读指令集来实现，该可机读指令集可包括由处理器(例如在下面关于图15讨论的示例计算机2000中示出的处理器2020)执行的一个或更多个程序。一个或更多个处理可以用存储在诸如CD-ROM、软盘、硬盘驱动器、DVD或与处理器2020相关联的存储器2030的有形介质上的软件来实现，但是本领域普通技术人员将容易理解，所述一个或更多个程序以及/或者其部分另选地可由除处理器2020以外的装置来执行，并且/或者可以以广为公知的方式用固件或专用硬件来实现。例如，混合装置200、获取单元410、解包单元420、修改单元430和/或再打包单元440中的任一个或全部可由软件、硬件和/或固件的任意组合来实现。此外，尽管参照图9到图11中例示的流程图描述了示例处理，但是本领域普通技术人员将容易理解，可另选地采用实现本文描述的示例方法和装置的很多其他方法。例如，参照图9到图11中例示的流程图，可改变块的执行顺序，并且/或者可对所描述的块的一部分进行改变、删除、组合和/或将其细分为多个块。
图9中示出了例示用以实现图4中的示例混合装置200的示例处理900的流程图。在图9的示例中，示例处理900开始于块905，在块905处获取装置410获取与图2中的非压缩辅助数字位流210(其对应于AAS)相关联的帧(以下在对图9到图11的描述中将其称为“非压缩AAS帧”)。接着，控制进行到块910，在块910处获取单元410获取与压缩主数字位流220(其对应于MAS)相关联的帧(以下在对图9到图11的描述中将其称作“压缩MAS帧”)，例如图5中的帧A。获得的压缩MAS帧可包括通过交叠并连接多个音频块而形成的多个原始MDCT系数集。根据AC-3压缩标准，例如，压缩MAS帧可包括六个MDCT系数集(即，六个“音频块”，其中各MDCT系数集对应于一AC-S音频块)，例如图5中的原始MDCT系数集520。在块910处获得压缩MAS帧之后，控制进行到块920，在块920处获取单元410还识别与压缩MAS帧相关联的头信息。例如，获取单元410可确定与对应于所获得MAS帧的压缩主数字位流220相关联的声道数。
然后控制进行到块930，在块930处解包单元420对包括在获得的压缩MAS帧中的多个原始MDCT系数集520进行解包，以确定与用来生成压缩MAS帧的原始压缩处理相关联的压缩信息。具体来说，解包单元420识别各原始MDCT系数集520中的各原始MDCT系数mk的尾数Mk和指数Xk。然后按照依照AC-3压缩标准的方式将原始MDCT系数的指数集合起来。解包单元420还确定用来表示各原始MDCT系数的尾数的位数，从而可采用AC-3压缩标准规定的适合量化查找表来如以上关于图6所述地修改多个原始MDCT系数集。然后控制进行到块940以实现修改处理，下面将关于图10对其进行更详细的描述。
如在图10中所例示的，修改处理940开始于块1010，在块1010处修改单元430对原始MDCT系数集520执行逆变换以生成诸如时域音频块530的经逆变换的时域音频块。具体来说，修改单元430生成与用来生成对应原始MDCT系数集的各256样本原始时域音频块530相关联的先前(旧)时域音频块(其例如表示为图5中的上撇号块)和当前(新)时域音频块(其表示为图5中的秒号块)。如以上关于图5所描述的，例如，修改单元430可从MDCT系数集MA5生成TA4”和TA5’、从MDCT系数集MB0生成TA5”和TB0’、并且从MDCT系数集MB1生成TB0”和TB1’。然后控制进行到块1020，在块1020处修改单元430基于例如Princen-Bradley TDAC技术对相应的旧块和新块进行相加来重构时域音频块，以生成重构的时域音频块，例如图5中的重构时域音频块540。根据以上示例，可将旧块TA5’和新块TA5”相加来重构时域音频块A5(即，经重构时域音频块TA5R)，同时可将上撇号块TB0’和秒号块TB0”相加来重构时域音频块B0(即，经重构时域音频块TB0R)。
为了将在图9的块905处获得的非压缩AAS帧与在块910处获得的压缩MAS帧相混合，控制进行到块1040，在块1040处修改单元430将非压缩AAS帧与从压缩MAS帧得到的重构时域音频块相混合。例如，修改单元430可将来自非压缩AAS帧的样本加入到重构时域音频块TA5R中，以生成图5中的混合时域音频块TA5X。修改单元430还可在进行相加处理以生成混合时域音频块550之前，衰减与压缩MAS帧或非压缩AAS帧相对应的重构时域音频块中的任一个或两者。然后控制进行到块1050，在块1050处基于混合时域音频块550，修改单元430生成中间混合MDCT系数集，例如图5中的中间混合MDCT系数集560。如上所述，可采用两个混合时域音频块550(其中每一个块都包括256个样本)来生成中间混合MDCT系数集560。例如，可连接混合时域音频块TA5X和TB0X，然后用其来生成中间混合MDCT系数集MA5I。
接着，控制进行到块1060，在块1060处修改单元430基于修改与在图9的块910处获得的压缩MAS帧相对应的原始MDCT系数集520来确定输出混合MDCT系数集570。例如，基于在图9的块930处确定的并与和压缩MAS帧相对应的压缩数字数据流220相关联的压缩信息，修改单元430如以上关于图4至图6所描述地计算与混合MDCT系数集MA5X中的各混合MDCT系数相关联的尾数值。按照这种方式，修改单元430可修改原始MDCT系数集520，以确定表示对应于非压缩AAS帧的辅助数字位流210与对应于压缩MAS帧的压缩主数字位流220的混合的混合MDCT系数集570。根据以上示例，修改单元430可基于中间混合MDCT系数集MA5I来修改原始MDCT系数集MA5以确定混合MDCT系数集MA5X的表示。例如，修改单元430可用中间混合MDCT系数集MA5I中的对应中间混合MDCT系数的量化中间尾数来替代MDCT系数集MA5中的原始MDCT系数的尾数，以生成混合MDCT系数集MA5X中的混合MDCT系数。另选的是，修改单元430可计算与原始MDCT系数相关联的尾数码和与对应的中间混合MDCT系数相关联的尾数码之间的差，并基于该差修改原始MDCT系数以生成输出混合MDCT系数集。在另一情况下，在修改原始MDCT系数集以生成混合MDCT系数集之后，修改处理940结束并返回控制到图9中的块950。
返回到图9，在块950处再打包单元440对混合MDCT系数集570进行再打包以生成压缩混合数字位流230。再打包单元440识别MDCT系数集在帧内的位置，从而可在原始MDCT系数集的位置处代入混合MDCT系数集来重建该帧。然后控制进行到块955，在块955处再打包单元440输出所得再打包的帧以生成压缩混合数字位流230。然后，在块960处，如果混合装置200确定需要处理压缩主数字位流220的另外的帧，则控制返回到块910。然而如果已处理了压缩主数字位流220中的全部帧，则处理900结束。
如上所述，已知的混合技术通常将压缩主数字位流解压缩为非压缩时域样本、将辅助数字位流与非压缩主数字位流相混合、并且将混合时域样本再压缩为压缩混合数字位流。相对的是，在图9的示例处理900中，压缩主数字位流220在本文描述的示例解包、修改以及再打包处理期间保持为压缩。因此，无需另外的解压缩/压缩轮回(这可能劣化压缩混合数字位流230中的内容的质量)，就可将辅助数字位流210混合到压缩主数字位流220中。
为了进一步例示图9和图10中的示例修改处理940，图11描述了AC-3数据帧修改处理940的详细流程图，该AC-3数据帧修改处理940用来修改MAS压缩数字位流220的AC-3数据帧以反映MAS数字位流220与AAS数字位流210的混合。示例AC-3数据帧修改处理940开始于块1110，混合装置200的解包单元420读取例如在图9的块930处确定的所获AC-3帧的压缩信息。接着，控制进行到块1120，在块1120处修改单元430将MDCT系数集计数初始化为零。在正在处理AC-3帧的情况下，各AC-3帧包括具有压缩域数据的六个MDCT系数集(例如，图5中的MA0、MA1、MA2、MA3、MA4和MA5，在AC-3标准中它们还公知为“音频块”)。因此，在块1130处，混合装置200的修改单元430确定MDCT系数集计数是否等于六。
如果在块1130处MDCT系数集计数还未等于六，从而表示至少一个以上的MDCT系数集需要进行处理，则控制进行到块1140和1150，在块1140和1150处修改单元430分别提取与对应于MAS压缩数字位流220的AC-3数据帧的原始MDCT系数相关联的指数和尾数(例如，以上关于图6描述的原始尾数Mk)。然后控制进行到块1154，在块1154处修改单元430根据以上图5和图6的示例并基于所提取的尾数和指数，来重构与MAS压缩数字位流220的AC-3数据帧相对应的时域音频块。接着，在块1158处，修改单元430将重构MAS时域音频块与AAS数字位流210的对应音频块相混合。修改单元430可在将对应块相加起来以执行混合处理之前，衰减重构MAS时域音频块或AAS时域音频块中的任一个或两者。需要进行衰减例如来得到MAS的音频内容与AAS的音频内容之间的理想音频幅值关系。在典型的情形下，MAS可被衰减3到10dB的因数，以使得AAS中包括的画外音内容可在MAS的音频内容外被听到。
接着，控制进行到块1160，在块1160处修改单元430计算与在块1158处生成的所得混合时域音频块相关联的新(中间)混合尾数值。然后控制进行到块1170，在块1170处修改单元430通过修改与和MAS压缩数字位流220相对应的AC-3数据帧的原始MDCT系数相关联的原始尾数来生成最终的混合尾数。例如，可通过基于与MAS压缩数字位流220的原始MDCT系数相关联的压缩信息对新混合尾数进行量化来确定最终混合尾数(但是限于与原始尾数的位表示相关联的范围内)。然后控制进行到块1180，在块1180处修改单元430将MDCT系数集计数递增1，控制返回到块1130。
尽管以上描述的图11的示例处理包括六个MDCT系数集(例如，MDCT系数集计数的阈值为六)，但是相反可采用使用更多或更少MDCT系数集的处理。然而，在图11的示例中，如果在块1130处MDCT系数集计数等于六，则处理了全部MDCT系数集，使得完成了对当前帧的混合处理。然后控制进行到例如图9的块950以进行后续的处理。
图12描述了另选示例混合装置1200，该示例混合装置1200被配置为将压缩辅助数字位流1210与压缩主数字位流1220相混合以生成所得压缩混合数字位流1230。例如在将本地内容160格式化为压缩数字位流(例如，对应于压缩辅助数字位流1210)并且将广播网络供应商120提供的广播内容格式化为压缩数字位流(例如，对应于压缩主数字位流1220)的情况下，可采用图12中的示例混合装置1200来实现图1中的示例混合装置110。与对图2中的压缩主数字位流220一样，例如可根据诸如AC-3压缩标准和/或MPEG-AAC压缩标准(可采用其中的任一种来利用来自各块的预定数量的数字化样本对音频信号块进行处理)的音频压缩标准来对压缩主数字位流1220和压缩辅助位流1210进行压缩。可以以例如48千赫兹(kHz)的采样率来对压缩数字位流1210和1220的源(未示出)进行采样以形成如以上关于图3和图7的示例描述的音频块。
图13和图14A至图14B示出了表示用于实现图12的示例混合装置1200的示例处理的流程图。在这些示例中，流程图所表示的处理可以由可机读指令集来实现，该可机读指令集可包括由处理器(例如在下面关于图15讨论的示例计算机2000中示出的处理器2020)执行的一个或更多个程序。一个或更多个处理可以用存储在诸如CD-ROM、软盘、硬盘、DVD或与处理器2020相关联的存储器2030的有形介质上的软件来实现，但是本领域普通技术人员将容易理解，所述一个或更多个程序以及/或者其一部分另选地可由除处理器2020以外的装置来执行，并且/或者可以以广为人知的方式用固件或专用硬件来实现。例如，混合装置1200的全部或部分可由软件、硬件和/或固件的任意组合来实现。此外，尽管参照图13和图14A至图14B例示的流程图描述了示例处理，但是本领域普通技术人员将容易理解，可另选地采用实现本文描述的示例方法和装置的很多其他方法。例如，参照图13和图14A至图14B中例示的流程图，可改变块的执行顺序，并且/或者可对所描述的块的一部分进行改变、删除、组合和/或将其细分为多个块。
图13中示出了例示用以实现图12的示例混合装置1200的示例处理1300的流程图。如下面将更详细地描述的，为了在根据图13的示例的压缩域中将与压缩辅助数字位流1210相关联的AAS源和与压缩主数字位流1220相关联的MAS源相组合，在AAS有效期间，将与AAS相关联的压缩音频帧视为主要音频源。然后对MAS音频帧进行解包以获得其MDCT系数。在衰减(通常衰减10dB因数)之后，采用从包括在对应AAS帧中的压缩信息获得的步长对MAS MDCT系数进行重新量化。该量化得到AAS帧中的各MDCT系数的尾数变化值。实现对AAS帧中的AAS尾数的这些变化，得到将较低音量级处的MAS音频信号与AAS音频相混合。经修改的AAS帧然后成为输出压缩数字位流1230。在AAS具有相对窄频谱内容的情况下，通过如图14A至图14B所示在压缩之前将伪噪声信号加入到AAS音频信号中可容纳MAS音频信号的更宽频谱内容。伪噪声的加入使得编码处理(例如，其可通过AC-3编码器来执行)分配更多位来容纳伪噪声信号的更宽频谱内容，因而支持MAS音频信号的频谱内容。
尽管下面对图13的描述主要是针对AC-3压缩位流的，但是图13的示例以及本文描述的任何其他示例都可容易地应用于诸如MPEG-AAC的其他压缩技术。例如，图13总体地例示了包含在如下步骤中的操作(1)对MAS压缩位流进行解包以生成各MAS“音频块”的MDCT系数(将其表示为AMAS)；(2)对AAS压缩位流进行解包以生成各AAS“音频块”的MDCT系数(将其表示为BAAS)；(3)将AMAS衰减一因数α以获得MDCT系数αAMAS；(4)通过修改BAAS的尾数来将BAAS和αAMAS相组合；以及(5)对经修改的帧进行再打包并将其输出。
转向图13，示例处理1300使得图12中的示例混合装置1200并行处理来自AAS的AC-3帧和来自MAS的AC-3帧，其中AAS对应于压缩辅助数字位流1210，而MAS对应于压缩主数字位流1220。在AAS的情况下，示例处理1300开始于块1304，在块1304处混合装置1200从压缩辅助数字位流1210获取压缩AAS帧。然后，在块1308处，混合装置1200对包含在压缩AAS帧中的AAS头信息进行解包，来例如确定压缩AAS帧中存在的音频声道数。控制进行到块1312，在块1312处混合装置1200重置表示AAS帧中的AAS MDCT系数集的个数的计数器。接着，在块1316处，混合装置1200确定是否处理了帧中的所有MDCT系数集，这在AC-3编码的情况下对应于六个MDCT系数集。
如果在块1316处混合装置1200确定还没有对所有的MDCT系数集进行处理(例如，在AC-3编码的情况下计数器不等于六)，则控制进行到块1320和1324，在块1320和1324处，针对各AAS MDCT系数集(或者，等同地，针对各AAS“音频块”)，对相关联的尾数和指数进行解包，并根据对应的经解包的指数来确定系数量化步长。可将各AAS MDCT系数的尾数的量化步长例如存储在存储器(例如，图15中的存储器2030)内的数据结构中。该数据结构还可包含帧中从AAS帧的开始到特定尾数位置的实际位计数。另外或另选的是，可将关于AAS帧对应于长块还是对应于短块的信息存储在该数据结构中。在完成了块1320和1324处的处理之后，控制进行到块1328，在块1328处混合装置1200修改被处理的AAS帧中的各AAS尾数，以反映AAS帧与对应的MAS帧的混合。下面将更详细地描述块1328处执行的处理。在完成了块1328处的处理之后，控制接着进行到块1332，在块1332处混合装置1200递增与AAS帧中的AAS MDCT系数集的个数相对应的计数器。然后控制返回到块1316。
在图13的示例中与AAS并行地被处理的MAS的情况下，示例处理1300开始于块1354，在块1354处混合装置1200从压缩主数字位流1220中获取压缩MAS帧。接着，在块1358处，混合装置1200对包括在压缩MAS帧中的MAS头信息进行解包，以例如确定压缩MAS帧中存在的音频声道的个数。控制进行到块1362，在块1362处混合装置1200重置表示MAS帧中的MAS MDCT系数集的个数的计数器。接着，在块1366处混合装置1200确定是否处理了帧中的所有MDCT系数集，这在AC-3编码的情况下对应于六个MDCT系数集。
如果在块1366处混合装置1200确定还没有对所有的MAS MDCT系数集进行处理(例如，在AC-3编码的情况下计数器不等于六)，则控制进行到块1370，在块1370处对MAS帧进行解包以生成与各MASMDCT系数集(或者，等同地，各MAS“音频块”)相对应的MAS MDCT系数集。然后控制进行到块1374，在块1374处将MAS MDCT系数衰减一衰减因数(例如，3与10dB之间的因数)。控制进行到块1378，在块1378处通过将尾数值除以块1320处确定的并且与AAS帧中的对应频率指数相关联的适当量化步长，以确定各衰减MAS MDCT系数的尾数。在块1328处采用这些量化衰减MAS尾数来修改对应的AAS尾数，以反映MAS帧与AAS帧的混合。在完成了块1378处的处理之后，控制接着进行到块1382，在块1382处混合装置1200递增与MAS帧中的MAS MDCT系数集的个数相对应的计数器。然后控制返回到块1366。
然而如果在块1316和1366处混合装置1200分别确定处理了所获得的AAS和MAS帧的所有AAS MDCT系数和MAS MDCT系数，则控制随后进行到块1390，在块1390处混合装置120对经修改的AAS MDCT系数进行再打包以形成混合AC-3音频帧。然后控制进行到块1394，在块1394处混合装置1200输出要包含在压缩混合数字位流1230中的混合AC-3音频帧。
为了更好地理解图13中的示例处理1300执行的处理，考虑如下示例操作，其中以4位来表示在块1328处的AAS MDCT系数，这得到在-1.0到1.0范围内的15级量化的尾数。出于该示例的目的假设AAS MDCT系数的原始尾数值为-4.0/15＝-0.2666。然后，根据图6中示出的示例AC-3量化查找表600，与原始AAS尾数相对应的位模式为0101(十进制数5)。接着，出于该示例的目的假设在块1378处确定的经衰减MAS尾数值等于-0.1634。该衰减的MAS尾数值造成对AAS尾数的相应变化，使得在块1328处确定中间(新)修改AAS尾数值等于-0.4300，其在量化查找表600中位于量化值-8/15＝-0.5333与-6/15＝-0.4之间。值-6/15最接近于中间修改AAS尾数值-0.4300，因此在块1328处选择位模式0100(十进制数4)来替代用于表示原始AAS尾数的原始码，以生成所得混合MDCT系数。
在以上示例中，如果在块1328处确定的中间修改尾数值位于可选尾数值范围以外(例如，在量化表600中的±14/15范围之外)，则适当地由与可选尾数值的正限或负限相对应的位模式来表示由块1328输出的尾数。另选的是，可以改变指数来得到更小的所需尾数值，但是这种指数变化是所不希望的，因为这将需要重复包括掩蔽计算在内的整个编码/压缩算法。此外，由于将混合尾数值限于许可上限和下限范围内而造成的任何误差都可能对MAS的音频质量造成可以忽略的影响。具体来说，在画外音混合中，由于将MAS的音频级衰减到相对较低的值，所以由于对尾数值改变的强制限制导致的误差通常对音频质量具有相对可忽略的影响。
在一些情况下，AAS主要是频谱范围主要限于低频段的语音信号，由此可采用相对较少的位来表示更高频率分量。在这种情况下，例如主要是音乐并且较高频谱内容丰富的MAS可能由于AAS采用的量化处理而导致较高频谱能量的损失。图14A至图14B分别例示了改进处理1400和1450，它们可用来通过在压缩之前将已知的伪白噪声与时域AAS信号相混合来人工地提高AAS音频的频谱保真度。由于所加入的伪白噪声，AC-3编码器将在可用来表示MAS音频的较高频谱内容的较宽频谱范围上分配更多的尾数位，由此减少对音频质量的影响。在混合处理期间，可通过适当的减法处理来消除已知的伪白噪声的影响。
转向图14A，处理1400对时域AAS信号进行操作，并开始于块1404，在块1404处，处理1400确定要加入到时域AAS信号中的伪噪声时域样本。伪噪声样本可通过处理1400基于任何已知的伪噪声生成算法来生成，或者通过处理1400预先生成、存储在存储器(例如，图15中的存储器2030)中，并从该存储器中读取。可生成拥有频谱范围比由处理1400处理的时域AAS信号更宽的频谱特性的伪噪声样本。接着，在块1408处，处理1400将伪噪声时域样本加入到AAS时域样本中。最后，控制进行到块1412，在块1412处，处理1400对由将伪噪声时域样本加入到原始AAS时域信号中而得到的时域信号进行压缩。在处理了全部AAS时域样本后，处理1400结束。
转向图14B，将对图13中的示例处理1300的改进例示为要在处理1300的块1374和1378之间执行的块1450。块1450用来取消在图14A的示例处理1400的块1408处加入伪噪声时域样本的效果。在图14B中，在块1374处衰减了MAS MDCT系数之后，控制处理1300进行到块1450。在块1450处，作为由处理1300的块1378和1328执行的混合处理的一部分，从经衰减的MAS MDCT系数中减去伪噪声样本的影响以使得去除伪噪声。本领域普通技术人员将理解，可通过很多方式从经衰减的MASMDCT系数中减去伪噪声样本的影响。在一个示例中，可将已知的伪噪声时域样本存储在图12的混合装置1200中，使得混合装置可适当地对经时间对准的伪噪声样本进行MDCT变换，来生成要从经衰减的MASMDCT系数中减去的伪噪声MDCT系数。在另一示例中，混合装置1220可存储与伪噪声样本的平均频谱特性相对应的平均伪噪声MDCT系数集，由此缓解对实时计算伪噪声MDCT系数或实现时间对准以选择用于MDCT变换的适当伪噪声样本的需求。在任何情况下，在块1450处从MAS MDCT系数中减去伪噪声样本的影响之后，控制进行到块1378及其之后的块，以实现以上关于图13描述的混合处理。
图15是可用来实现本文所公开的方法和装置的示例处理器系统2000的框图。处理器系统2000可以是台式计算机、膝上型计算机、笔记本计算机、个人数字助理(PDA)、服务器、因特网设备或任何其他类型的计算设备。
图15中例示的处理器系统2000包括芯片组2010，芯片组2010包括存储器控制器2012和输入/输出(I/O)控制器2014。如广为公知的，芯片组通常提供存储器和I/O管理功能，以及可由处理器2020访问或使用的多个通用和/或专用寄存器、定时器等。采用一个或更多个处理器来实现处理器2020。在另选情况下，可采用其他处理技术来实现处理器2020。处理器2020包括缓冲存储器2022，该缓冲存储器2022可采用一级统一缓冲存储器(L1)、二级统一缓冲存储器(L2)、三级统一缓冲存储器(L3)、以及/或者任何其他适合存储数据的结构来实现。
常规上，存储器控制器2012执行如下功能使得处理器2020能够经由总线2040访问包括易失性存储器2032和非易失性存储器2034的主存储器2030，并与之通信。易失性存储器2032可通过同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS动态随机存取存储器(RDRAM)、和/或任何其他类型的随机存取存储器设备来实现。非易失性存储器2034可使用闪存、只读存储器(ROM)、电子可擦写可编程只读存储器(EEPROM)、和/或任何其他理想类型的存储器设备来实现。
处理器系统2000还包括连接到总线2040的接口电路2050。该接口电路2050可采用诸如以太网接口、通用串行总线(USB)、第三代输入/输出接口(3GIO)接口、和/或任何其他适合类型接口的任何类型的已知接口标准来实现。
一个或更多个输入设备2060连接到接口电路2050。输入设备2060允许用户输入数据和命令到处理器2020中。例如，输入设备2060可由键盘、鼠标、触敏显示器、跟踪板、跟踪球、isopoint、和/或语音识别系统来实现。
一个或更多个输出设备2070也连接到接口电路2050。例如，输出设备2070可由媒体呈现设备(例如，发光显示器(LED)、液晶显示器(LCD)、阴极射线管(CRT)显示器、打印机和/或扬声器)来实现。接口电路2050由此通常除其他事物之外还包括图形驱动器卡。
处理器系统2000还包括一个或更多个大容量存储设备2080来存储软件和数据。这种大容量存储设备2080的示例包括软盘和驱动器、硬盘驱动器、光盘和驱动器、以及数字多功能盘(DVD)和驱动器。
接口电路2050还包括诸如调制解调器或网络接口卡的通信设备，以便于经由网络与外部计算机交换数据。处理器系统2000与网络之间的通信链接可以是任意类型的网络连接，例如以太网连接、数字用户线(DSL)、电话线、蜂窝式电话系统、同轴线缆等。
对输入设备2060、输出设备2070、大容量存储设备2080和/或网络的访问通常是由I/O控制器2014按照传统方式控制的。具体来说，I/O控制器2014执行以下功能，即，使得处理器2020能够经由总线2040和接口电路2050与输入设备2060、输出设备2070、大容量存储设备2080和/或网络进行通信。
尽管在处理器系统2000内将图15中示出的组件描述为分立的块，但也可将由这些块中的一些执行的功能集成在单个半导体电路内，或者可采用两个或更多个分立的集成电路来实现。例如，尽管在芯片组2010内将存储器控制器2012和I/O控制器2014描述为分立的块，但也可将存储器控制器2012和I/O控制器2014集成在单个半导体电路内。
本文公开的方法和装置尤其适用于按照AC-3标准执行的数字位流。然而，本文公开的方法和装置可应用于其他数字音频编码技术。
另外，尽管本公开是针对示例电视和无线电广播系统而做出的，但是应当理解，所公开的系统可容易地应用于很多其他媒体系统。因此，尽管本公开描述了示例系统和处理，但是所公开的示例也并非实现这种系统的唯一方式。
尽管本文描述了特定示例方法、装置及制造品，但是本专利的覆盖范围并不限于此。相反，本专利覆盖字面上或在等同原则下完全落入所附权利要求
范围内的所有方法、装置及制造品。例如，尽管本公开描述了除了其他组件还包括在硬件上执行的软件的示例系统，但是应当注意，这种系统仅仅是例示性的，且不应被视为限制。具体来说，应当想到，所公开的硬件和软件组件中的任一个或全部可完全由专用硬件、完全由固件、完全由软件、或者由硬件、固件和/或软件的某种组合来实现。
本专利要求于2004年7月2提交的题为“压缩位流的混合系统及方法”且序列号为60/585115的美国临时申请和于2004年7月8日提交的题为“压缩位流的混合系统及方法”且序列号为60/586354的美国临时申请的优先权。本申请还涉及于2004年6月14日提交的题为“嵌入水印的方法及装置”的第PCT/US04/18953号国际专利申请。在此通过引用并入序列号为60/585115的美国临时申请、序列号为60/586354的美国临时申请和第PCT/US04/18953号国际专利申请的全部内容。
权利要求
1.一种用于将第一压缩数字位流与第二数字位流相混合的方法，该方法包括以下步骤获取与所述第一压缩数字位流相关联的帧；对所述帧进行解包以获得多个原始变换系数集；以及修改所述多个原始变换系数集以将所述第二数字位流与所述第一压缩数字位流相混合。
2.根据权利要求
1所述的方法，其中，所述修改所述多个原始变换系数集的步骤包括确定与多个混合变换系数集之一的混合变换系数相关联的第一尾数码；并且用与所述混合变换系数相关联的所述第一尾数码来代替与所述多个原始变换系数集之一的对应原始变换系数相关联的第二尾数码。
3.根据权利要求
2所述的方法，其中，所述确定与多个混合变换系数集之一的混合变换系数相关联的第一尾数码的步骤包括确定与所述多个原始变换系数集之一的对应原始变换系数相关联的量化步长；基于将和所述第一压缩数字位流相关联的元素与和所述第二数字位流相关联的元素相组合，来生成所述混合变换系数；基于所述量化步长来对所述混合变换系数进行量化以生成量化尾数；并且基于所述量化尾数来确定与所述混合变换系数相关联的所述第一尾数码。
4.根据权利要求
3所述的方法，其中，所述量化步长基于与所述对应原始变换系数相关联的指数。
5.根据权利要求
3所述的方法，其中，所述将和所述第一压缩数字位流相关联的元素与和所述第二数字位流相关联的元素相组合的步骤包括将和所述第一压缩数字位流相关联的所述元素与和所述第二数字位流相关联的所述元素相加。
6.根据权利要求
5所述的方法，该方法进一步包括以下步骤在将所述第一压缩数字位流的所述元素和所述第二数字位流的所述元素相加之前，对所述第一压缩数字位流的所述元素或所述第二数字位流的所述元素中的至少一个进行衰减。
7.根据权利要求
1所述的方法，其中，所述修改所述多个原始变换系数集的步骤包括基于所述多个原始变换系数集来生成多个时域音频块；基于所述多个时域音频块来生成多个重构音频块；并且基于所述多个重构音频块和所述第二数字位流来生成多个混合音频块。
8.根据权利要求
7所述的方法，其中，所述基于所述多个时域音频块来生成多个重构音频块的步骤包括基于第一时域音频块和第二时域音频块来生成重构时域音频块。
9.根据权利要求
8所述的方法，其中，所述基于第一时域音频块和第二时域音频块生成重构时域音频块的步骤包括将所述第一时域音频块与所述第二时域音频块相加。
10.根据权利要求
1所述的方法，其中，所述修改多个变换系数集的步骤包括基于多个混合变换系数集来修改所述多个原始变换系数集。
11.根据权利要求
10所述的方法，该方法进一步包括通过基于与所述第一压缩数字位流相关联的压缩信息确定与所述多个混合变换系数集中的每一个的混合变换系数相关联的尾数码，来生成多个混合系数集。
12.根据权利要求
1所述的方法，其中，所述多个原始变换系数集中的每一个都包括一个或更多个改进离散余弦变换系数。
13.根据权利要求
1所述的方法，其中，所述第一压缩数字位流是根据音频压缩标准进行压缩的。
14.根据权利要求
1所述的方法，其中，所述获取与所述第一压缩数字位流相关联的帧的步骤包括获取与多个音频声道中的至少一个相关联的音频块。
15.根据权利要求
1所述的方法，其中，所述对所述帧进行解包以获得多个原始变换系数集的步骤包括确定与所述第一压缩数字位流相关联的压缩信息。
16.根据权利要求
1所述的方法，该方法进一步包括基于多个混合变换系数集对所述帧进行再打包。
17.根据权利要求
1所述的方法，其中，所述第一压缩数字位流对应于主音频服务，所述第二数字位流对应于辅助音频服务。
18.根据权利要求
1所述的方法，其中，所述第二数字位流是经压缩的。
19.根据权利要求
18所述的方法，其中，在压缩之前将伪噪声信号加入到所述第二数字位流中。
20.根据权利要求
19所述的方法，其中，所述修改所述多个原始变换系数集的步骤包括确定与多个伪噪声变换系数集之一的伪噪声变换系数相关联的第一尾数码；并且基于所述第一尾数码修改与所述多个原始变换系数集之一的对应原始变换系数相关联的第二尾数码。
21.根据权利要求
20所述的方法，其中，所述多个伪噪声变换系数集是基于所述伪噪声信号的平均频谱特性来确定的。
22.一种数据流混合装置，该数据流混合装置包括获取单元，用于获取与第一压缩数字数据流相关联的帧；解包单元，用于对所述帧进行解包以获得多个原始变换系数集；以及修改单元，用于修改所述多个原始变换系数集以将第二数字数据流与所述第一压缩数字数据流相混合。
23.根据权利要求
22所述的数据流混合装置，其中，所述修改单元被配置为确定与多个混合变换系数集之一的混合变换系数相关联的第一尾数码；并且用与所述混合变换系数相关联的所述第一尾数码来代替与所述多个变换系数集之一的对应原始变换系数相关联的第二尾数码。
24.根据权利要求
23所述的数据流混合装置，其中，所述修改单元被配置为确定与所述多个原始变换系数集之一的对应原始变换系数相关联的量化步长；基于和所述第一压缩数字数据流相关联的元素与和所述第二数字数据流相关联的元素的组合，来生成所述混合变换系数；基于所述量化步长来对所述混合变换系数进行量化以生成量化尾数；并且基于所述量化尾数来确定与所述混合变换系数相关联的所述第一尾数码。
25.根据权利要求
24所述的数据流混合装置，其中，所述量化步长基于与所述对应原始变换系数相关联的指数。
26.根据权利要求
24所述的数据流混合装置，其中，和所述第一压缩数字数据流相关联的元素与和所述第二数字数据流相关联的元素的组合包括将和所述第一压缩数字数据流相关联的所述元素与和所述第二数字数据流相关联的所述元素相加。
27.根据权利要求
26所述的数据流混合装置，其中，和所述第一压缩数字数据流相关联的元素与和所述第二数字数据流相关联的元素的组合进一步包括在将和所述第一压缩数字数据流相关联的所述元素与和所述第二数字数据流相关联的所述元素相加之前，对和所述第一压缩数字数据流相关联的所述元素或和所述第二数字数据流相关联的所述元素中的至少一个进行衰减。
28.根据权利要求
22所述的数据流混合装置，其中，所述修改单元被配置为基于所述多个原始变换系数集来生成多个时域音频块；基于所述多个时域音频块来生成多个重构音频块；并且基于所述多个重构音频块和所述第二数字数据流来生成多个混合音频块。
29.根据权利要求
28所述的数据流混合装置，其中，所述修改单元被配置为基于所述多个时域音频块中的第一时域音频块和第二时域音频块来生成所述多个重构音频块中的一重构时域音频块。
30.根据权利要求
29所述的数据流混合装置，其中，所述修改单元被配置为将所述第一时域音频块和所述第二时域音频块相加以生成重构时域音频块。
31.根据权利要求
22所述的数据流混合装置，其中，所述修改单元被配置为基于多个混合变换系数集来修改所述多个原始变换系数集。
32.根据权利要求
31所述的数据流混合装置，其中，所述修改单元进一步被配置为基于所述第二数字数据流和与所述第一压缩数字数据流相关联的压缩信息，来生成所述多个混合变换系数集。
33.根据权利要求
22所述的数据流混合装置，其中，所述多个原始变换系数集中的每一个都包括一个或更多个改进离散余弦变换系数。
34.根据权利要求
22所述的数据流混合装置，其中，所述第一压缩数字数据流是根据音频压缩标准进行压缩的。
35.根据权利要求
22所述的数据流混合装置，其中，所述获取单元被配置为获取与多个音频声道相关联的音频块。
36.根据权利要求
22所述的数据流混合装置，其中，所述解包单元被配置为获得与所述第一压缩数字数据流相关联的压缩信息。
37.根据权利要求
22所述的数据流混合装置，其中，所述第一压缩数字数据流与主音频服务相关联，所述第二数字数据流与辅助音频服务相关联。
38.根据权利要求
22所述的数据流混合装置，该数据流混合装置进一步包括再打包单元，该再打包单元用于基于多个混合变换系数集对所述帧进行再打包。
39.一种存储有可机读指令的制造品，所述可机读指令在执行时使得机器进行以下操作获取与第一压缩数字位流相关联的帧；对所述帧进行解包以获得多个原始变换系数集；以及修改所述多个原始变换系数集以将第二数字位流与所述第一压缩数字位流相混合。
40.根据权利要求
39所述的制造品，其中，所述指令在执行时使得所述机器通过以下步骤来修改所述多个原始变换系数集确定与多个混合变换系数集之一的混合变换系数相关联的第一尾数码；并且用与所述混合变换系数相关联的所述第一尾数码来代替与所述多个原始变换系数集之一的对应原始变换系数相关联的第二尾数码。
41.根据权利要求
40所述的制造品，其中，所述指令在执行时使得所述机器通过以下步骤来确定与所述多个混合变换系数集之一的混合变换系数相关联的第一尾数码确定与所述多个原始变换系数集之一的对应原始变换系数相关联的量化步长；基于将和所述第一压缩数字位流相关联的元素与和所述第二数字位流相关联的元素相组合，来生成所述混合变换系数；基于所述量化步长来对所述混合变换系数进行量化以生成量化尾数；并且基于所述量化尾数来确定与所述混合变换系数相关联的第一尾数码。
42.根据权利要求
39所述的制造品，其中，所述指令在执行时使得所述机器通过以下步骤来修改所述多个原始变换系数集基于所述多个原始变换系数集来生成多个时域音频块；基于所述多个时域音频块来生成多个重构音频块；并且基于所述多个重构音频块和所述第二数字位流来生成多个混合音频块。
43.根据权利要求
39所述的制造品，其中，所述指令在执行时进一步使得所述机器执行以下操作通过基于与所述第一压缩数字位流相关联的压缩信息确定与多个混合系数集中的每一个的混合变换系数相关联的尾数码，来生成所述多个混合系数集。
44.根据权利要求
39所述的制造品，其中，所述指令在执行时进一步使得所述机器执行以下操作通过获取与多个音频声道中的至少一个相关联的音频块，来获取与所述第一压缩数字位流相关联的帧。
45.根据权利要求
39所述的制造品，其中，所述指令使得所述机器执行以下操作通过识别与所述第一压缩数字位流相关联的压缩信息，对所述帧进行解包以获得所述多个原始变换系数集。
46.根据权利要求
39所述的制造品，其中，所述指令在执行时进一步使得所述机器执行以下操作基于多个混合变换系数集对所述帧进行再打包。
47.根据权利要求
39所述的制造品，其中，所述第一压缩数字位流与主音频服务相关联，所述第二数字位流与辅助音频服务相关联。
48.一种用于混合数字数据流的系统，该系统包括第一源，用于提供第一压缩数字数据流；第二源，用于提供第二数字数据流；以及混合装置，用于无需对所述第一压缩数字数据流进行解压缩地将所述第二数字数据流与所述第一压缩数字数据流相混合。
49.根据权利要求
48所述的系统，其中，所述第一压缩数字数据流包括多个变换系数。
50.根据权利要求
49所述的系统，其中，所述混合装置被配置为基于所述第二数字数据流修改所述多个变换系数。
51.根据权利要求
50所述的系统，其中，所述多个变换系数包括相应的多个原始尾数和原始指数，所述混合装置被配置为仅修改所述多个原始尾数以修改所述多个变换系数。
52.根据权利要求
51所述的系统，其中，所述多个变换系数是多个原始变换系数，所述混合装置被配置为通过基于所述第二数字数据流和与所述第一压缩数字数据流相关联的压缩信息确定多个混合变换系数，来修改所述多个原始变换系数。
53.根据权利要求
52所述的系统，其中，所述压缩信息包括至少一个量化步长。
54.根据权利要求
52所述的系统，其中，确定所述多个混合变换系数包括对与所述多个混合变换系数相关联的多个混合尾数进行量化。
55.根据权利要求
54所述的系统，其中，所述混合装置被配置为基于所述多个量化混合尾数和所述压缩信息来修改所述多个原始尾数。
56.根据权利要求
48所述的系统，其中，所述第一压缩数字数据流是根据音频压缩标准来压缩的。
57.根据权利要求
48所述的系统，其中，所述第一压缩数字数据流与主音频服务相关联，所述第二数字数据流与辅助数据服务相关联。
58.根据权利要求
48所述的系统，其中，所述第二数字数据流是非压缩的。
59.一种用于将第一压缩数字数据流与第二数字数据流相组合的方法，该方法包括以下步骤获取与所述第一压缩数字数据流相关联的帧；对所述帧进行解包以获得多个原始变换系数集；以及修改所述多个原始变换系数集以将所述第二数字数据流与所述第一压缩数字数据流相组合。
60.根据权利要求
59所述的方法，其中，所述组合包括混合，并且其中，所述修改所述多个原始变换系数集以将所述第二数字数据流与所述第一压缩数字数据流相组合的步骤包括修改所述多个原始变换系数集以将所述第二数字数据流与所述第一压缩数字数据流相混合。
61.根据权利要求
59所述的方法，其中，所述修改所述多个原始变换系数集的步骤包括确定与多个混合变换系数集之一的混合变换系数相关联的第一尾数码；并且用与所述混合变换系数相关联的所述第一尾数码来代替与所述多个原始变换系数集之一的对应原始变换系数相关联的第二尾数码。
62.根据权利要求
59所述的方法，其中，所述多个原始变换系数集中的每一个都包括一个或更多个改进离散余弦变换系数。
专利摘要
本发明公开了用于混合(200)压缩数字位流(230)的方法、装置及制造品。本文公开的示例方法包括以下步骤获取与第一压缩数字位流(220)相关联的帧；对该帧进行解包以获得多个原始变换系数集；以及修改所述多个原始变换系数集来将第二数字位流(210)与所述第一压缩数字位流(220)相混合。
文档编号G06K9/46GK1993700SQ20058002610
公开日2007年7月4日申请日期2005年6月29日
发明者韦努戈帕尔·斯里尼瓦桑, 约翰·C·派弗申请人:尼尔逊媒介研究股份有限公司导出引文BiBTeX, EndNote, RefMan

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韦努戈帕尔.斯里尼瓦桑;约翰.C.派弗
技术所有人：尼尔逊媒介研究股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、霍老师：1. 木质纤维组分高效分离及高值化转化 2.(纳米)纤维素功能材料
2、杨老师：生物质资源利用与制浆技术
3、崔老师：1. 印刷电子 2. 仿生图案化功能结构
4、刘老师：1.生物质纤维及其功能材料 2.纸基功能材料
5、刘老师：1. 纳米基复合功能胶体油墨的设计制备 2. 可穿戴功能(光电、电子、传感、储能等)器件的设计构建 3. 基于3D打印的功能器件的构建及集成
如您是高校老师，可以点此联系我们加入专家库。