在多声道音频环境中提供互动式音频的系统和方法

文档序号:7958955阅读:231来源:国知局
专利名称:在多声道音频环境中提供互动式音频的系统和方法
技术领域
本发明涉及全互动式音频系统,特别是,涉及一个再现实时多声道互动式数字音频的系统和方法,以此来创建一个适用于三维游戏,虚拟真实感和其他互动式音频应用程序的富有临场感的环绕声频环境。
背景技术
近来,音频技术的发展主要集中于在环绕听众的三维空间的任何地方(“音场”)创建一个实时互动式声音定位。真正的互动式音频不但具有创建请求式声音的能力,还具有在音场中精确地决定声音位置的能力。我们可以在各式各样的产品中发现这些技术支持,但是,最常见的是在用于创建自然,临场感和互动式音频环境的视频游戏软件。视听形式的产品如DVD在娱乐世界中比游戏应用的更为广泛,它还应用于电视会议,模拟系统和其他互动式环境。
音频技术的优点在于朝听众产生“真实”的音频环境的方向进行。环绕声的发展如下,起初是HRTF、杜比环绕声模拟领域的发展,随后是让听众身临其境地处在杜比环绕声频环境中的AC-3、MPEG和DTS数字领域的发展。
为了扮演真实感的合成环境,虚拟声音系统使用双声道技术和音质评价暗示信号无需多个扬声器而创建环绕音频错觉。这些虚拟的三维音频技术主要基于HRTFs(颤顶效应)的概念。原始数字化声音实时围绕左耳和右耳的HRTFs以响应所需的空间位置,从而产生右耳和左耳的双声道信号,该信号听起来如同来自所需的定位。为了决定声音的位置,HRTFs被转变成用作所需的新定位且该过程重复。如果音频信号用听众自己的HRTFs过滤,那么听众能通过耳机体验到接近自由声场聆听的效果。但是,这一方法通常是不切实际的,而且试验者已经在寻找一套对大部分听众来说都有良好性能的通用HRTFs。由于存在前后混淆的特殊障碍,这很难实现,该混淆是指对于头前方的声音和头后方的声音而听觉却感到都是来自于一个方向。除了缺点以外,HRTF方法被成功地应用于压缩的MPEG音频和PCM音频并大量减少了计算负荷。虽然基于HRTFs的虚拟环绕声技术在大型家庭影剧院设备中举足轻重,但是由于它未提供任何互动式特殊声音定位的手段,所以对当前这些解决办法是不实用的。
杜比环绕声系统是另一种实现声频定位的方法。杜比环绕声是一种能使立体声(两声道)媒体传输四声道音频的矩阵处理。该系统获得四声道音频且产生两声道杜比环绕声编码素材,这些素材识别为全左(Lt)和全右(Rt)。编码素材通过杜比定向逻辑解码器解码产生一个四声道的输出;左声道,右声道,中央声道和环绕单声道。中央声道定音在银幕处。左右声道用于播放音乐和某些音响效果,环绕声道主要专用于播放音响效果。环绕声音轨是在杜比环绕声格式中预编码的,因此他们最适用于电影,但在诸如视频游戏的互动式应用程序中不特别有用。PCM音频可被覆盖在杜比环绕声音频上,提供一个较难控制的互动式音频体验。不幸的是,PCM和杜比环绕声的混频是视内容而定的,而且把PCM音频覆盖在杜比环绕声音频上往往会混淆杜比逻辑解码器,使它产生不希望的人造环绕声和串音。
为了改进声道分离的数字环绕声技术,诸如杜比数码和DTS,提供了左、中、右、前置扬声器和分离的左环绕声与右环绕声的后置扬声器以及超低音音箱的数码音响六个分立的声道。数字环绕声是预录音技术,因此它最适用于电影和家用A/V系统,在该系统中,解码等待时间可以调节且在其当前形式中不特别适用于诸如视频游戏的互动式应用程序。但是,由于杜比数字和DTS系统提供了高保真的音频定位,具有家庭影剧院解码器大型的安装基础,多声道5.1扬声器格式的分辨率以及产品投放市场,所以,如果它们可以被制成全互动式系统,那么,在用于个人计算机和基于游戏系统的特殊控制台中的多声道环境将出现高需求。但是,个人计算机结构通常不能向家庭娱乐系统传送多声道数字PCM音频,这主要是因为标准个人计算机的数字输出是通过基于立体声的S/PDIF数字输出连接器的。
剑桥SoundWorks公司提供了以DeskTop5.1声道的影剧院DTT2500形式的混频数码环绕声/PCM方法。该产品的特点是具有内置杜比数字解码器,该解码器将预编码杜比数字5.1背景节目与互动式四声道数字PCM音频相组合。该系统需要两个分离的连接器;一个连接器传送杜比数字信号,另一个连接器传送四声道数字音频。虽然技术领先,但是DeskTop影剧院与现存的杜比数字解码器的安装基础不兼容,并且要求声卡来支持多声道PCM的输出。从扬声器重放的声音定位在所知位置处,但互动式三维音场的目标是创建令人信服的环境,在该环境中,声音听起来就好象起源于听众周围的任何选定的方向。DeskTop影剧院互动式音频的普及还受到需要处理PCM数据计算要求的限制。侧向定位是定位音频环境临界分量,它对于提供时域数据计算复杂,好比滤波(筛选)操作和均衡操作。
游戏产业需要适用于三维游戏和其他互动式音频应用程序的低成本全互动式等待时间少的临场感数字环绕声环境,它允许游戏编程员将大量的音频源混频并决定它们在音场中的精确位置,且与家庭影剧院数字环绕声系统的现有基础结构相兼容。
发明的概述鉴于以上的问题,本发明提供了适用于三维游戏和其他高保真音频应用程序低成本全互动式临场感数字环绕声环境,它配置为保持与数字环绕声解码器现有的基础结构相兼容的形式。
这种配置实现是通过将每一个声频分量存储在压缩的格式中,以致牺牲编码和存储效率有利于计算简化,在子带域而不是在时域中混频这些分量,再压缩和将多声道混频的音频分组到压缩的格式,并将其传送到下游环绕声处理器来解码和分配。由于多声道数据是压缩的格式,它可以穿越基于立体声的S/PDIF数字输出连接器。该技术还提供了用于“循环”压缩的音频,该音频在操作PCM音频的游戏应用程序中具有重要和标准的特征。此外,通过“静寂”帧的传送确保解码器同步,此时,归因于处理等待时间或游戏应用程序的混频的音频不会出现。
特别是,这些分量更适于在子带表示法中编码、压缩以及分组到数据帧,其中仅有比例因子和子带数据从帧到帧变化。这个压缩格式对于存储器的需要显著要比标准PCM音频少,但是与诸如用于杜比AC-3或MPEG中使用的可变长度代码存储器要求相比则要多。更为显著的是,这一方法大大简化了拆包/分组、混频以及解压缩/压缩的操作,从而减少了处理器的利用。此外,固定长度代码(FLCs)帮助随机存取导航穿过编码的比特流。高级通过量可以通过使用单个预定比特分配表来实现对音频源和混频的输出声道进行编码。在当前的较佳实施例中,音频再现被硬编码用于固定的标题和比特分配表,所以,音频再现仅需要处理这些比例因子和子带数据。
混频是通过部分解码(解压缩)仅来自被认为可听到的这些音频分量的子带数据来实现的,且将它们混频在子带域中。子带表示法有助于简化音质评价掩蔽技术,使大量音源可被再现而无需增加处理的复杂性或减少混频信号的质量。此外,由于多声道信号先于传送而被编码到它们的压缩格式,富有高保真的统一环绕声信号可通过单个连接传送到解码器。
本发明的这些和其他特征和优点结合附图在以下的较佳实施例的详细描述中将技术中的精华表现出来,其中附图的简要说明

图1a~1c是根据本发明不同游戏配置的方框图;图2是用于全互动式环绕声环境应用程序层间结构的方框图;图3-1和图3-2(共同图3)是图2所示的音频再现层的流程图;图4是用于汇编和排队等候向环绕声解码器传输的输出数据帧分组过程方框图;图5是举例列示的压缩音频的循环的流程图;图6是描述编制数据帧的图;图7是描述在每一帧内所编制的量化子带数据、比例因子和比特分配的图;图8是子带域混频处理过程的方框图;图9是举例列示的音质评价掩蔽效应的图;图10a~10c是用于分组和拆包每个帧的比特提取处理过程的图;以及图11是举例列示的特殊子带数据混频的图。
发明的详细描述互动式DTS提供了适用于三维(3D)游戏和其他高保真音频应用程序的低成本的全互动式临场感的数字环绕声环境。互动式DTS把声频分量存储在压缩和分组的格式,在子带域中混频该音频源,将多声道混频音频的再压缩和分组到压缩格式中,然后将其传送到下游环绕声处理器来解码和分配。在多声道数据处在压缩的格式中时,它可以穿越基于立体声的S/PDIF数字输出连接器。互动式DTS大大地增加了音频源数量,使之能在不增加计算负荷或降低再现的音频的情况下身临其境地处在多声道环境中一起再现。互动式DTS简化了均衡和相位定位的操作。此外,这些技术提供为“循环”压缩音频技术和解码器同步所确保的并通过传送“静寂”的帧,此时,音频源不会出现在包括真静寂或低声级噪声的静寂处。互动式DTS设计成可与现有的DTS环绕声解码器的基础结构保持向后兼容性。然而,所述的格式化和混频技术可用于设计成专用的游戏控制台,它将不限于保持音频源和/或目的单元格与现有的解码器相兼容。
互动式DTSDTS交互系统通过多平台加以支持,它具有DTS5.1声道的多声道家庭影剧院系统10,该系统包括解码器和AV放大器,一块声卡12,该声卡装有带有AV放大器14的硬件的DTS解码器芯片组集,或者装有带有一块音频卡18和AV放大器20的软件执行的DTS解码器16,见图1a,1b和1c。所有这些系统均需要以左声道22,右声道24,左环绕声道26,右环绕声道28,中央声道30和超低频音箱32命名的一套扬声器以及多声道解码器和多声道放大器。解码器提供数字S/PDIF或其他用于供应压缩音频数据的输入。放大器供给六个分立的扬声器功率。视频映射在显示器或者投影装置34上,它们通常是电视机或其他监视器。用户通过人接口装置(HID),例如键盘36,鼠标38,位置传感器,轨迹球或游戏杆与AV环境进行人机对话。
应用程序编程接口(API)如图2和图3所示,DTS交互系统由三层组成应用程序40,应用程序编程接口(API)42和音频再现44。软件应用程序可以是游戏,或可以是音乐重放/合成程序,该程序接收音频分量文件46并指定每个某些系统设定定位字符48。应用程序还通过HID36/38接受来自用户的互动式数据。
对于每个游戏等级,常使用的音频分量被载入存储器(步骤50)。因为每个分量被视为是编程员所保存的无意识的音频格式和再现细节的对象,所以编程员只需考虑与听众的绝对位置和令人满意的处理效果。互动式DTS格式允许这些分量为单声道,立体声或者是带有或不带有低频效应(LFE)的多声道。由于互动式DTS将这些分量存储在压缩格式中(见图6),因此节约了有价值的系统存储器,这样,可另外使之用于更高的视频映射清晰度,更佳的彩色或更佳的纹理。由压缩格式生成的文件尺寸的减小也加快了从存储媒体的请求式装入的速度。这些声音分量提供参数使位置、均衡度、音量和必需的效应精细化。这些细节将影响再现处理的结果。
API层42为编程员创建和控制每个音响效果提供接口,还提供与处理混频音频数据的复杂的实时音频再现处理的隔离。面向对象类创建和控制音频的产生。归编程员支配的有数项,它们为如下载入,卸载,播放,暂停,停止,循环,延迟,音量,均衡,三维(3D)位置,环境中声音量纲的最大化和最小化,存储器分配,存储器锁定和同步。
API产生对所有创建和载入存储器的或由媒体存取的所有声音对象的记录(步骤52)。这一数据被存放在一个对象目录表中。对象目录不包含实际声频数据而是跟踪对产生音频起重要作用的信息,比如指示在压缩声频数据流内的数据指针位置的信息,指示声音的位置坐标系,到听众所处位置的距离和方向,声音产生的状况以及对混频数据的任何特殊处理要求等信息。当API被请求创建声音对象时,对象的参考指针自动进入对象目录。当删除对象时,进入对象目录中的相应指针设置为空值。如果对象目录已满,那么简单老化(时效)基高速缓冲系统可以选择重写老的实例。对象目录在异步应用程序、同步混频器和压缩声频发生器处理之间形成桥接。
每个对象所沿袭的分类允许有开始,停止,暂停,载入和卸载的功能,用以控制声音的发生。这些控制允许播放目录管理器检查对象目录并构成只有那些在同一时刻有效播放声音的播放目录53。如果是暂停,停止,已完全播放或为开始播放而未足够延迟,管理器可以判定在播放目录中省去声音。进入播放目录的每一条目是在声音内对各个帧的指针,它必须经过检查且在必要时在混频之前分段拆包。由于帧的大小是恒量,所以指针的操作允许定位重放,循环和延迟的输出声音。这个指针值表明在压缩声频流之内的当前解码位置。
声音位置的定位需要把声音分配到各个再现管线或者执行缓冲器,它们依次直接变换到布置的扬声器(步骤54)上。这就是变换功能的目的。检查进入帧目录的位置数据来确定应用哪些信号处理功能,为听众更新每个声音的方位和方向,变更每个依赖于环境的物理模式的声音,确定混频系数以及向可用的和最适当的扬声器分配音频流。所有参数和模式数据相组合来演绎与每一进入管线的压缩音频帧相关的比例因子的修改。如果需要侧向定位,来自相移表的数据被指示和索引。
声频再现如图2和图3所示,声频再现层44负担依照由对象类设定的三维参数57混频所需子带数据55。多音频分量的混频需要对每个分量进行选择性拆包和解压缩、相关样本的求和和对每个子带的新的比例因子进行计算。在再现层中的所有处理必需实时地操作以把平滑且连续的压缩音频数据流传送到解码系统。管线接收在播放中的声音对象的列表,且从每个对象之内修改声音的方向。每个管线设计成能根据混频系数和混合单个扬声器声道的输出流来处理声频分量。输出流被分组并多路转换成统一的输出比特流。
更具体地说,再现处理通过将每一分量的比例因子拆包和解压缩进入在帧到帧基中的存储器(步骤56),或每次变更多帧而开始(见图7)。在这个阶段中,如果那个分量或分量的一部分仅需评价每个子带的比例因子信息,将在再现流中听到。由于使用固定长度代码,故可仅需拆包和解压缩含有比例因子的部分帧,从而减少处理器应用。对单指令多数据流(SIMD)的性能原因而言,每个7比特比例因子值以字节的形式存储在存储空间中,且与32字节的地址界对齐以确保超高速缓存行读取将在一次高速缓存填充操作中获得所有的比例因子和不引起高速缓存存储器的污染。为了进一步加速此操作,比例因子可按字节存储在声源素材中并编制成可出现在32字节的地址界存储器中。
三维参数57由三维位置,音量,混频和均衡所提供并相组合以确定用于修改所提取的比例因子(步骤58)的每个子带的修改阵列。因为在子带域均衡中表示的每个分量是可通过比例因子如同需要地调节子带系数的普通的操作。
在步骤60中,管线中的所有单元索引的最大的比例因子被定位和存储到输出阵列,该阵列可适当定位在存储器空间内。这个信息被用于决定混频某些带分量的需要。
此时,在步骤62中,与另外的管线声音对象进行掩蔽比较以从扬声器管线(细节见图8和9)中除去听不见的子带。掩蔽比较更适于独立地处理每一子带来提高速度,且以目录所引用的对象的比例因子为基础的。管线仅包含来自单个扬声器的可听到的信息。如果输出的比例因子低于人类听觉的阀值,那么输出的比例因子可能被设置为零,并且此种做法除去了混频相应子带分量的需要。互动式DTS优于PCM时域音频操作之处在于允许游戏编程员利用更多的分量和依靠掩蔽例行程序来提取和混频只是任何给定时间的可听到的声音而无需额外的计算。
一旦识别了所需的子带,音频帧被进一步拆包和解压缩来提取仅为可听到的子带数据(步骤64),它以左移的DWORD的格式存储在存储器中(见图10a~10c)。在整个描述中,DWORD被假设为没有32字节的一般性丢失。在游戏环境中,对使用FLCs而丢失的压缩所付出的代价远大于通过减少所需子带数据拆包和解压缩的计算数量所作出补偿的代价。这一过程通过使用所有分量和声道的单个预定的比特分配表而进一步简化。FLCs使读取位置的随机定位到分量的任一子带处。
在步骤66中,相位定位滤波被应用于带1和带2的子带数据。滤波器具有特定的相位特性并且只需在200Hz~1200Hz的频率范围内应用,这一范围是人的耳朵对位置暗示信号最敏感的区域。由于相位位置计算仅应用于子带32起初的两个带,所以计算数量大约是所需的一个同等时域操作数量的十六分之一。如果无需侧向定位或视计算系统开销过度,那么就可以忽略相位的修改。
在步骤68中,子带数据由将其相乘以相应经修改比例因子数据,并将其与管线中(见图11)的另一些符合条件的子带分量的按比例的子带产品相加起来而混频的。按长步正规乘法由比特分配所支配,并且它借助预定的比特分配表来避免,对于所有分量是同样的。找出最大比例因子的索引并分成(或被乘以倒数)混频结果。逆运算的除法和乘法在算术上是相等的,但是乘法运算是一个更快的数量级。当混频的结果超过一个DWORD中的存储的值时会发生溢出。尝试将浮点字以整数存储而创建了一个俘获和用来纠正应用于受影响的子带的比例因子的异常。混频处理后,数据被存储在左移位形式中。
汇编和排列输出数据帧如图4所示,控制器70汇编输出帧72并将它们列队来向环绕声解码器传送。如果解码器可以与重复同步标记或植入在数据流中的同步码对齐,那么解码器将仅产生有效的输出。通过S/PDIF数据流传送编码数字音频只是传统IEC958标准的修改,且不准备等同的编码音频格式。多格式解码器必需先通过可靠检测并行同步字来确定数据格式,然后建立一个适合的解码方式。同步条件的丢失会导致音频重放中的间断,此时,解码器减低它的输出信号声音并寻求编码音频格式的重建。
控制器70预备了一个零输出模板74,该模板包括代表“静寂”的压缩音频。在当前较佳的实施例中,在从帧到帧的标题信息中不存在差异,只是比例因子和子带数据区需要更新。模板标题携带不改变有关比特流分配格式的信息和侧向信息,可用以对信息进行解码和拆包。
同时,声音再现产生声音对象目录,并使它们变换扬声器的位置。在变换数据中,可听到的子带数据由如上所述的管线82进行混频。由管线82所产生的多声道子带数据根据预定的比特分配表被压缩(步骤78)到FLCs。管线平行构成,且每个管线到特定的扬声器声道。
国际电信同盟(ITU)的推荐书BS.775-1中认为用于多声道声音传送,HDTV,DVD和其他数字音频应用程序中的双声道声音系统是有局限性的。该同盟建议同两个后置/侧向扬声器组合的三个前置扬声器与星群状恒定的距离布置在听众的周围。在采用改进的ITU扬声器排列的情况下,左环绕声道和右环绕声道可通过整个压缩音频帧的数量得以延迟84。
分组交换86分组比例因子和子带数据(步骤88)并将分组的数据递送到控制器70。当输出流中每个声道的比特分配表预定时,帧溢出的可能性被消除。互动式格式的DTS不受比特速率的限制且能够应用更为简单和快速的线性解码技术和块解码技术。
为了保持解码器同步,控制器70要确定是否准备输出包装数据的下一帧(步骤92)。如果回答为是的,控制器70将包装数据(比例因子和子带数据)写在先前的输出帧72上(步骤94)并将其列队(步骤96)。如果回答为否,控制器70输出零输出模板74。以这种方式传送压缩的静寂保证了无干扰地向解码器输出帧而保持同步。
换句话说,控制器70提供了一个数据泵处理,该处理的功能是通过输出装置和在输出流中不介入间断和缝隙来管理无缝隙产生的编码音频帧缓冲区。数据泵处理使最近完成的输出的音频缓冲区排队。当缓冲区完成输出,它回到输出缓冲区队列位置并标记为空。这一标记为空的阶段允许混频处理以识别数据和把数据复制到不使用的缓冲区中,同时,队列中的下一缓冲区是输出,而余下的缓冲区等待输出。为了准备好数据泵处理,队列目录必需首先设置有零音频缓冲事件。不管是否编码或初始化缓冲区内容应表示静寂或其他听不到或预期的信号。队列中缓冲区的数量和每个缓冲区的大小会影响用户输入的应答时间。为了保持等待时间少和提供更真实感的互动式体验,输出队列在深度上限于两个缓冲区,而每个缓冲区的大小由目的解码器和用户可接受的等待时间所允许的最大帧的大小所决定。
音频质量可相对用户等待时间折衷选择。小的帧长由标题信息的重复传送来加载,它减少了可用来编码音频数据的比特数,因而可降低音频再现而大帧长受家庭影剧院解码器中的本地数字信号处理器(DSP)存储器可用性限制,从而增加了用户等待时间。由于同取样率相结合,两个量确定了用于更新压缩音频输出缓冲区最大的刷新间隔。在DTS交互系统中,这是用于刷新声音定位和提供实时交互性幻想的时基。在此系统中,输出帧的大小设定为4096字节,以此提供最小化的标题大小,用于编辑和循环创建的良好的时间分辨率以及低的响应用户的等待时间。具代表性的是,帧大小为4096字节的等待时间为69ms~92ms,帧大小为2048字节的等待时间为34ms~46ms。在每一帧时间,计算相对于听众位置的有效的声音的距离和角度,且将这一信息用于再现个别声音。举例来说,基于样本率31Hz~47Hz之间的刷新率能适用于4096字节的帧大小。
循环压缩的音频循环是标准的游戏技术,该技术中,同样的声音比特不定地被循环以创建所需的音响效果。例如,可储存和循环少量直升机声音的帧,以便只要游戏需要就产生直升机的音响效果。在时域中,如果开始和结束的振幅是互补的话,那么在声音的结束和开始位置之间的转换区期间就听不到卡拉声和失真声。同样的技术在压缩音频域中不起作用。
压缩音频包含在数据的信息包中,数据则由固定的PCM样本的帧来编码,并进一步通过压缩音频帧对先前处理的音频的互相依赖关系而复杂化。在DTS环绕声解码器中重构的滤波器延迟了输出音频,使得第一音频样本因重建滤波器的特性而会呈现低级的瞬态特性。
如图5所示,在DTS交互系统中所执行的循环解决方法是脱机完成的以准备将音频分量存储到压缩格式中,该格式与在互动式游戏环境中的实时循环执行相兼容。循环解决方法的第一步要求循环序列的PCM数据是首先被紧缩或及时扩张以精确地配合由整个的压缩音频帧数量确定的边界内(步骤100)。编码数据是代表来自每个编码帧的固定量的音频样本。在DTS系统中,样本持续时间是1024样本的倍数。首先,至少N个未经压缩的“引出”音频的帧是从文件末端读出(步骤102),且临时地添加到循环段的开始(步骤104)。在本实施例中,N的值为1,但可以使用任何足够大的值来覆盖依赖于先前帧的重构滤波器。编码后(步骤106),从开始的编码比特流中删除N个压缩帧来产生压缩音频循环序列(步骤108)。这个处理保证了在关闭帧期间居于重构综合滤波器内的这些值是确保与起始帧无缝隙连接的必需值一致,这样做可防止听见卡拉声和失真声。在循环重放中,读取指针直接回到无误重放的循环序列的开始处。
DTS互动式帧格式DTS互动式帧72由按图6所示的数据排列组成。标题110描述了内容的格式,子带的数量,声道的格式,采样频率以及需要解码音频有效载荷的表(以DTS标准定义)。这一区域也包含同步字来识别标题的开始并提供用拆包的编码的流的对齐。
紧随标题,比特分配区112识别哪些子带出现在帧内,同时伴随着每个子带样本的显示分配多少比特。比特分配表中的零输入表示相关的子带没有出现在帧中。比特分配从分量到分量,声道到声道,帧到帧并对混频速度的每个子带都加以固定。固定的比特分配通过DTS交互系统采用并除掉所需的检查,存储和操作比特分配表以及在拆包阶段消除比特宽度的恒定检查。比如,以下的比特分配适于使用{15,10,9,8,8,8,7,7,7,6,6,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5}。
比例因子区114识别每个子带的比例因子,如32-子带。比例因子数据随相应的子带数据一起从帧到帧变化。
最后,子带数据区116包括所有的量化子带数据。如图7所示,子带数据的每个帧由每个子带32样本形成,组织成大小为8的四个向量118a-118d。子带样本可以用线性代码或块代码表示。线性代码首先是跟随样本数据的符号比特开始的,而块代码是含有符号的子带样本有效地编码组开始的。比特分配112和比例因子114以及子带数据116的排列成行也作了描述。
压缩音频子带域混频如前所述,DTS互动式地将音频分量混频到压缩格式中,比如,子带数据,这种格式胜于典型的PCM格式且有利于实现惊人的计算,灵活性以及保真度。这些好处通过丢弃那些在两个阶段中听众所听不到的子带而实现。首先,基于含有特殊音频分量频率内容的先验信息,游戏编程员可以丢弃含有微小或无用信息的较上(高频)子带。这是通过在存储音频分量前设置较上带比特分配为零来脱机完成的。
特别是,48.0kHz,44.1kHz和32.0kHz的样本率在音频中频繁出现,但提供高保真全带宽音频的较高样本率需要耗费存储器成本。如果素材包含具有诸如语音的极少高频,那么这么做会浪费资源。较低样本率可能更适于某些素材,但问题是出现了不同样本率的混频。游戏音频经常采用22.050kHz的取样率作为在音频质量与存储器要求之间的良好折衷。在DTS交互系统中,早期所提及的所有素材以最高支持的样本率处编码,而没有完全占用全音频频谱的素材以如下方式处理。试图将在所述11.025kHz编码所的素材在44.1kHz处取样且丢弃描述高频内容的子带较高的75%的内容。结果是,与其他较高保真信号保持兼容性和简化混频的编码文件仍然允许缩小的文件大小。很明显,这个原则可通过丢弃子带较高的50%而拓展实现22.050kHz的取样。
其次,DTS互动式地拆包比例因子(步骤120)并将它们用于简化音质评价分析(见图9),以此来决定由变换功能选择的音频分量(步骤54)是在各个子带中可以听到的(步骤124)。标准的音质评价分析要考虑到执行邻近子带来实现边缘更佳特性但是将会牺牲速度。此后,音频再现仅拆包和解压缩这些可听到的子带(步骤126)。再现将子带域中每个子带的子带数据混频(步骤128),且如图4(项84)所示将其再压缩和格式化以适于分组。
这个处理的计算优点的实现是来自拆包,解压缩,混频,再压缩和仅分组这些可听到的子带。类似地,由于混频处理自动丢弃所有听不到的数据,因而游戏编程员获得更大的灵活性来用更大量的音频分量创建更丰富的音响环境而不会提高噪音基底的量化。这些在实时互动式环境中都是非常重要的优点,在此环境中,起决定作用的是听众等待时间,而目标是富有高保真临场感的音频环境。
音质评价掩蔽效应音质评价测量用于决定可感知的不相关信息,这些信息被定义为那些人类无法听到的部分音频信号,且该信息可在时域、子带域、或其他某些基中测量到的。两个主要因子影响到音质评价的测量。一个是由人类可适用的绝对听觉阀值所决定的频率。另一个是一个声音同时播放或甚至在第一个声音播放后能够让人听到第二个声音的掩蔽效应。换句话说,在同一或邻近子带中的第一个声音阻止我们听到第二个声音,就被称为声音掩蔽。
在子带的编码器中,音质评价计算的最终结果是每个子带在按瞬间指定听不到的噪声级的一组数字。这个计算为人所共知且体现在MPEG1的压缩标准IS0/IEC DIS 11172“信息技术-电影图象编码和用于数字化存储媒体达到1.5Mbits/s的相关音频,”1992之中。这些数字随着声频信号而动态变化。编码器试图通过比特分配处理来调节子带中噪音基底的量化,所以,在这些子带中量化噪声是低于可听到的声级。
互动式DTS一般通过禁止子带之间相关性来简化正常的音质评价的掩蔽操作。在最终分析中,来自比例因子的子带内掩蔽效应的计算将识别在每个子带内的可听到的分量,从子带到子带可能相同,亦可能不同。全音质评价分析可在某些子带中提供更多的分量并完全丢弃其他的子带,最可能的是较高的子带。
如图9所示,音质评价掩蔽功能检查对象目录并提取供给分量流每个子带的最大化的修改比例因子(步骤130)。这个信息作为出现在对象目录中最响声信号的基准输入到掩蔽功能。最大化比例因子作为基础直接到量化器,用于将混频结果编码到DTS压缩音频格式中。
至于DTS域滤波,时域信号是无效的,所以掩蔽阀值估计是来自于DTS信号中的子带样本。来自最大化比例因子和人类听觉响应的每个子带所计算(步骤132)的掩蔽阀值。每个子带的比例因与那个带(步骤136)的掩蔽阀值相比较,如果发现低于那个带所设定的掩蔽阀值,那么认为该子带是听不到的并从混频处理中移除(步骤138),相反,那么认为该子带是可听到的并保留在混频处理中(步骤140)。当前的处理仅考虑在相同子带中的掩蔽效应而忽视了邻近子带的效应。虽然这样稍微减低了性能,但这种处理更为简便,且比在互动式实时环境中所要求的速度更快。
比特操作如上所述,互动式DTS设计成减少为音频信号混频和再现所需要的计算量。显著的成就表现在使数据量最少化,这些数据因此必需被拆包和重分组,因为这些被解压缩/再压缩的操作是计算上的强项。可听到的子带数据仍必需被拆包,解压缩,混频,压缩和再分组。因此,互动式DTS也提供了一个处理数据的不同的方法,该方法如图10a-10c所示减少了拆包和分组数据的计算量并且如图11所示混频子带数据。
数字环绕声系统利用可变长度位字段典型编码比特流为使压缩最佳化。拆包处理的一个重要因素是可变长度位字段的带符号提取。由于执行这个例行程序的频率,拆包过程是加强的。例如,要提取N位字段,32位(DWORD)数据起先左移而把符号位定位在最左侧的位字段内。接着,该数值用二的幂相除,或通过(32-N)比特位置右移来引入符号扩展。大量的移位操作占用有限的时间来执行,不幸的是在当前所生产的奔腾处理器中不能和其他的指令并行或管线地执行。
DTS利用比例因子涉及比特宽度大小的事实进行互动,并实现了提供忽略最终右移操作的可能性,该可能性实现的条件是a)因此比例因子在其位置被处理和b)代表子带数据比特数是充足的,由(32-N)最右位表现的“噪声”低于重建信号噪音层基底。虽然N可能只是少量比特,但是它仅典型发生在较高噪音基底的较上子带中。在提供超高压缩率的VLC系统中,噪音基底能够被超越。
如图10a所示,典型的帧包括子带数据区140,它包含N位子带数据142每个块,其中,允许N穿越子带变化而不是样本。如图10b所示,音频再现提取子带数据区并将其存储在本地存储器中,在如典型的32位字144中,第一位是符号位146而下一个的31位是数据位。
如图10c所示,音频再现把移位的子带数据142向左,因此使其符号位和符号位146对齐。由于所有的数据都是以FLCs存储而不是以VLCs存储,因而变成了一项烦琐的操作。音频再现不右移数据。而是,比例因子以2升为(32-N)的幂除它们来预比例和存储,并且,32-N最右位148是处理为听不到的噪音。换句话说,与比例因子一位右移相结合的子带数据一位左移不改变乘积值。解码器也能够利用同样的技术。
在总和所有混频乘积和量化之后,识别这些数值是简单的事情,由于固定存储限制而溢出。与不是由左移操作所处理的子带数据的系统相比,它提供了极优越的检测速度。
当重新分组数据时,再现的音频简单地从每个32位字抓住最左N位,因而避免了32-N左移操作。(32-N)右移和左移操作的避免可视作为有些无关紧要,但是执行拆包和分组例行程序的频率非常高,以致它在计算中代表重要的简化。
混频子带数据如图11所示,混频处理开始,且可听到的子带数据通过相应的比例因子成倍增加,它用于位置,均衡,相位定位等的调节(步骤150),并且将总和加到管线中其他符合条件的项目的相应子带乘积(步骤152)。在给定的子带中的每个分量的位数是相同的,可以忽略步长因子从而节约计算。查出索引最大化比例因子(步骤154)并倒数是通过混频结果成倍增加(步骤156)。
当混频结果超过了一个DWORD所存储的值时会发生溢出(步骤158)。试图将浮点字作为整数存储造成了例外,它被俘获和使用纠正用于所有受影响子带的比例因子。如果发生例外,最大化比例因子增加(步骤160),且子带数据重新计算(步骤156)。将最大化比例因子用作始点,这是最好的,在守恒侧差错和增加比例因子而不是降低信号的动态范围。混频处理之后,数据通过比例因子的修正存储在左移格式中,用于再压缩和分组。
当示出本发明几个说明性和描述性的实施例时,对本技术领域的技术人员可以作出大量修改和可变的实施例。例如,将两个5.1声道的信号混频和交错在一起产生一个10.2声道的信号用于真实感的三维临场感和增加高度维数。在另一个每次替换一个帧的处理组合中,音频再现可把帧的大小降低一半且每次处理两个帧。通过降低一半可以减少等待时间,但是在重复标题信息上所浪费的一些位是原先的两倍。但在专用的系统中,可以消除大量的标题信息。这些修改和可变的实施例是可预见的,而且其制定不违背本发明所附权利要求书所定义的精神和范围。
权利要求
1.一种多声道互动式音频系统,其特征在于,包含存储器,用于存储大量音频分量作为输入数据帧(72)的序列,所述每个输入数据帧包括标题(110),比特分配表(112),和已压缩和分组的音频数据(116);人工输入装置(HID)(36,38),用于接收来自用户的输入;应用程序编程接口(API)(42)产生与用户输入响应的音频分量目录;以及音频再现器(44),产生输出帧的无缝隙序列,它是通过a.将零输出模板(74)置于包括标题、比特分配表、以及代表听不到信号的子带数据和比例因子(114)的队列中,用于向解码器传送;b.同时拆包和解压缩每个声道的音频分量数据,并混频每个声道的音频分量数据,计算混频数据的比例因子,压缩每个声道的混频数据,并分组和多路传送声道的压缩数据;c.如果混频的子带数据的下一帧已准备好,那么将混频的数据写在先前的输出帧上并传送输出帧,以及d.如果下一帧没有准备好,则传送零输出模板。
2.如权利要求2所述的多声道互动式音频系统,其特征在于,解码器是能解码多声道音频的数字环绕声解码器(10,12,16)。
3.如权利要求2所述的多声道互动式音频系统,其特征在于,音频数据包含子带数据及它的比例因子,音频再现器仅混频被认为是用户可听到的子带数据。
4.如权利要求3所述的多声道互动式音频系统,其特征在于,音频再现器通过使用列表的音频分量比例因子来计算子带内掩蔽效应并丢弃每个子带听不到的音频分量以决定哪些子带是用户可听到的。
5.如权利要求4所述的多声道互动式音频系统,其特征在于,音频再现器首先拆包和解压缩音频分量的比例因子,决定可听到的子带,然后仅拆包和解压缩在可听到的子带中的子带数据。
6.一种准备PCM音频数据的方法,该音频数据以与循环相兼容的压缩格式存储,其特征在于,所述PCM音频数据是被存储在文件中,而且压缩格式包括压缩音频帧的序列,该方法包含以下步骤a.及时紧缩和扩大PCM音频数据,与压缩音频帧的整数所限定的边界配合,以形成循环段;b.附加从文件末端到循环段开始的N帧PCM音频数据;c.将循环段编码成比特流;d.从编码比特流的开始删除N压缩帧,以产生压缩的音频循环序列,其中循环序列的关闭帧中的压缩音频数据确保了与循环期间开始帧的无缝隙并置。
全文摘要
互动式数字影剧院系统(DTS)提供了适用于三维游戏和其他高保真音频应用程序的低成本、全互动式临场感数字化环绕声频环境,它配置为保持与数字环绕声解码器现有的基础结构相兼容的形式。音频分量通过压缩和简化的格式存储和混频以减少存储器的需求和处理器的利用,且在不降低音质的情况下增加可混频的分量数目。该技术还提供了用于“循环”压缩的音频,该压缩音频在操作脉码调制(PCM)音频的游戏应用程序中具有一个重要和标准的特征。此外,解码器同步通过“静寂”帧的传送加以确保,此时,归因于处理等待时间或游戏应用程序的混频的音频不会出现。
文档编号H04S3/00GK1964578SQ20061006731
公开日2007年5月16日 申请日期2000年11月2日 优先权日1999年11月2日
发明者S·K·马克多韦尔 申请人:数字剧场系统股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1