全频带可扩缩音频编解码器的制作方法

文档序号:2835874阅读:351来源:国知局
专利名称:全频带可扩缩音频编解码器的制作方法
全频带可扩缩音频编解码器
背景技术
很多类型的系统使用音频信号处理以产生音频信号或从这些信号再现声音。通常,信号处理将音频信号变换为数字数据并编码该数据以通过网络传输。然后,附加的信号处理解码所传输的数据并把它转换回模拟信号,以再现声波。存在各种用于编码或解码音频信号的技术。(编码和解码信号的处理器或处理模块通常被称为编解码器。)音频编解码器被用于会议以减少为呈现音频而必须从近端传输到远端的数据量。例如,用于音频和视频会议的音频编解码器压缩高保真度音频输入以使得到的用于传输的信号保持最好的质量但需要最小数量的比特。这样的话,具有音频编解码器的会议设备需要更少的存储容量,并且由设备使用以传输音频信号的通信信道需要更少的带宽。音频编解码器可以使用各种技术来编码和解码在会议中从一个端点传输到另一个端点的音频。一些通常使用的音频编解码器使用变换编码(transform coding)技术以编码和解码通过网络传输的音频数据。一种音频编解码器是Polycom的Siren编解码器。Polycom的Siren编解码器的一个版本是ITU_T(国际电信联盟电信标准化部门)建议G. 722. 1 (Polycom Siren 7)。Siren 7是编码高达7kHz的信号的宽带编解码器。另一个版本是 ITU-T G. 722. 1. C (Polycom Siren 14)。Siren 14 是编码高达 14kHz 的信号的超宽带编解码器。Siren编解码器是基于调制重叠变换(MLT)的音频编解码器。这样,Siren编解码器将音频信号从时域变换到调制重叠变换(MLT)域。众所周知的是,调制重叠变换(MLT) 是为各种类型信号的变换编码而使用的余弦调制滤波器组的一种形式。一般而言,重叠变换考虑长度为L的音频块并将该块变换为M个系数,满足条件L > M。为这样工作,在相继的块之间必须有L-M个采样的交叠,以使合成的信号能够使用相继的变换系数块而获得。图1A-1B简单表示出变换编码编解码器(诸如Siren编解码器)的特征。具体音频编解码器的实际细节依赖于实现和使用的编解码器的类型。例如,Siren 14的已知细节可在ITU-T建议G. 722. 1附录C中找到,Siren 7的已知细节可在ITU-T建议G. 722. 1中找到,其都通过引用结合于此。涉及音频信号的变换编码的附加细节还可在美国专利申请序号No. 11/550,629和11/550,682中找到,其通过引用结合于此。用于变换编码编解码器(例如,Siren编解码器)的编码器10在图IA中示出。 编码器10接收已经从模拟音频信号变换成的数字信号12。该模拟音频信号的幅度已经以某一频率被采样并且被变换为表示幅度的数字。典型的采样频率是大约8kHz (即,每秒采样8,000次),16kHz到196kHz,或在中间的某些值。在一个例子中,数字信号12可在大约 20ms的块或帧中以48kHz或其他速率被采样。变换20,其可以是离散余弦变换(DCT),将数字信号12从时域变换到具有变换系数的频域。例如,对于每个音频块或帧,变换20能够产生具有960个变换系数的频谱。编码器10在归一化处理22中找到系数的平均能量水平(基准)。然后,编码器10使用快速 Lattice矢量量化(FLVQ)算法M或类似算法量化所述系数来编码输出信号14以便打包(packetize)禾口传输。用于变换编码编解码器(例如,Siren编解码器)的解码器50在图IB中表示。解码器50得到从网络接收的输入信号52的进入比特流并从其中重新创建原始信号的最佳估计。为这样做,解码器50对输入信号52执行Lattice解码(反向FLVQ)60并且使用去量化处理62来去量化(de-quanfize)解码后的变换系数。另外,变换系数的能量水平则在各种频带中被校正。最后,逆变换64以反向DCT运行并将来自频域的信号变换回时域以作为输出信号讨传输。尽管这样的音频编解码器是有效的,在音频会议应用中增长的需求和复杂度需要更通用和增强的音频编码技术。例如,音频编解码器必须在网络上运行,并且各种条件(带宽、接收器的不同连接速度等)可能动态变化。无线网络是信道的比特率随时间变化的例子。因此,无线网络中的端点为适应网络条件必须以不同比特率发送比特流。MCU(多路控制单元)——诸如Polycom的RMX系列和MGC系列产品——的使用, 是其中更通用和增强的音频编码技术可能有用的另一个例子。例如,会议中的MCU首先接收来自第一端点A的比特流,然后需要发送不同长度的比特流到多个其他端点B,C,D,E, F...。要发送的不同比特流将取决于端点中的每一个具有多少网络带宽。例如,对于音频, 一个端点B可能以641cbpS (比特每秒)连接到网络,但另一个端点C可能仅以Slcbps连接。从而,MCU以641ibpS发送比特流到一个端点B,以Slcbps发送比特流到另一个端点 C,类似地对于端点中的每一个。当前,MCU解码来自第一端点A的比特流,即,把它变换回时域。然后,MCU对每个单一端点B,C,D,E,F...进行编码,从而比特流可被设定给它们。显然,该方法需要大量计算资源,引入信号延迟,并因为所执行的编码转换而降低信号质量。处理丢包是其中更通用和增强的音频编码技术可能有用的另一个领域。在视频会议或VoIP呼叫中,例如,已编码的音频信息被放在每包通常具有20ms音频的包内发送。在传输过程中,包可能会丢失,并且丢失的音频包导致接收的音频中出现间隙。一种克服网络中丢包的方法是传输包(即,比特流)多次,假定4次。丢失所有这4次包的机会将大大降低,因此具有间隙的机会也将减少。但是,多次传输包要求网络带宽增加为四倍。为减小成本,通常,同一个20ms时域信号以较高比特率(在正常模式下,例如481ApS)被编码并且以较低比特率(例如Slcbps) 被编码。较低(Slcbps)比特流是被多次传输的那个。这样的话,总的所需带宽是48+8女 3 = 72kbps,以替换原始信号被多次发送的情况下的48 * 4 = 1921cbpS。由于掩蔽效应 (masking effect),当网络具有丢包时,48+8女3方案在语音质量上表现得几乎与48 * 4 方案一样。然而,这种以不同比特率独立编码同一 20ms时域数据的传统方案需要计算资源。最后,一些端点可能没有足够的计算资源以完成全部解码。例如,端点可能具有较慢的信号处理器,或信号处理器可正忙于其他任务。如果这样的话,仅解码该端点接收的比特流的一部分可能不会产生有用的音频。众所周知的是,音频质量取决于解码器接收和解码了多少比特。因为这些原因,需要用在音频和视频会议中的可扩缩的(scalable)音频编解码器。

发明内容
如在背 景技术中所提到的,在音频会议应用中增长的需求和复杂度需要更通用和增强的音频编码技术。具体地,需要用在音频和视频会议中的可扩缩的音频编解码器。根据本公开,一种用于处理设备的可扩缩音频编解码器为输入音频的每一帧确定第一和第二比特分配。第一比特被分配给第一频带,而第二比特被分配给第二频带。该分配基于这两个频带间的能量比逐帧地进行。对于每一帧,编解码器把两个频带变换为两组变换系数,这两组变换系数基于所述比特分配被量化然后被打包。然后这些包使用处理设备被传输。另外,变换系数的频率区域能够以由功率水平和感知建模所确定的重要性的顺序被安排。一旦发生比特去除(bit stripping),考虑到已经在频带之间分配了比特并且变换系数的各区域已经根据重要性被排序,在接收设备处的解码器可以产生合适质量的音频。可扩缩音频编解码器为输入音频逐帧地执行动态比特分配。用于该帧的全部可用比特在低频带和高频带之间被分配。在一种配置中,低频带包括0到14kHz,而高频带包括 14kHz到22kHz。给定帧中的两个频带之间的能量水平之比确定为每个频带分配多少可用比特。一般而言,低频带将倾向于被分配更多的可用比特。这种逐帧的动态比特分配使音频编解码器能够编码和解码所传输的音频以获得一致的语音音调感知。换而言之,即使在处理过程中可能发生的极低比特率的情况下,音频也可被感知为全频带语音。这是因为至少14kHz的带宽总是被获取。可扩缩音频编解码器将频率带宽扩展到全频带,S卩,到22kHz。总的来说,音频编解码器从大约IOkbps到64kbps可扩缩。IOkbps的值可能不同,并且针对给定实现而被选择以获得可接受的编码质量。在任何情况下,所公开的音频编解码器的编码质量可以与被称为Siren 14的固定速率的22kHz版本的音频编解码器大致相同。在28kbps及以上,所公开的音频编解码比得上22kHz编解码器。另外,在28kHz以下,所公开的音频编解码器比得上14kHz编解码器,因为它在任何速率都有至少14kHz带宽。所公开的音频编解码器能够有区别地通过使用扫描音周、白噪声、以及真实语音信号的测试。还有,所公开的音频编解码器仅需要现有Siren 14音频编解码器当前所需的大约1. 5倍的计算资源和存储需求。除了比特分配,可扩缩音频编解码器还基于每一个频带中的每个区域的重要性执行比特重新排序。例如,一帧的低频带的变换系数被安排在多个区域中。音频编解码器确定这些区域中每一个的重要性,然后按重要性顺序用分配给该频带的比特来打包这些区域。 一种确定区域的重要性的方式是基于区域的功率水平,按重要性顺序从最高功率水平到最低功率水平来安排这些区域。这种确定可基于使用周围区域的加权来确定重要性的感知模型而被扩展。用可扩缩音频编解码器来解码包利用了比特分配和基于重要性被重新排序的频率区域。如果接收到的包的比特流的一部分因为任何原因被去除,音频编解码器至少能够首先解码比特流中的较低频带,而较高频带有可能被比特去除至一定程度。还有,由于频带的区域按重要性排序,具有较高功率水平的更重要的比特被先解码,并且它们被去除的可能性更小。如上所讨论的,本公开的可扩缩音频编解码器允许从编码器生成的比特流中去除比特,同时解码器仍能产生时域中可理解的音频。因为这个原因,可扩缩音频编解码器在许多应用中可以是有用的,其中的一些在下面被讨论。在 一个例子中,可扩缩音频编解码器在无线网络中可以是有用的,其中端点必须以不同比特率发送比特流以适应网络条件。当MCU被使用时,可扩缩音频编解码器能够通过去除比特而以不同比特率创建比特流以便发送到各个端点,而不是通过惯常的方式。因此,MCU能够使用可扩缩音频编解码器,通过从来自第一端点的64kbps比特流中去除比特来获得用于第二端点的8kbps比特流,同时仍保持有用的音频。当处理丢包时,可扩缩音频编解码器的使用还能够帮助节省计算资源。如前面提到的,应对丢包的传统方案是以高和低比特率(例如,48kbps和8kbps)独立地编码同一 20ms时域数据,因此低质量(8kbps)比特流可被多次发送。然而,当使用可扩缩音频编解码器时,编解码器仅需要编码一次,因为第二(低质量)比特流是通过从第一(高质量)比特流去除比特而获得的,同时仍能保持可用的音频。最后,可扩缩音频编解码器可在端点可能没有足够的计算资源来完成全部解码的情况下有帮助。例如,端点可能具有较慢的信号处理器,或者该信号处理器可能正忙于其他任务。在此情况下,使用可扩缩音频编解码器来解码端点所接收的比特流的一部分仍然可以产生有用的音频。前述的概述并非意图总结本公开的每个可能实施例或每个方面。


图IA示出变换编码编解码器的编码器。图IB示出变换编码编解码器的解码器。图2A图示出音频处理设备,诸如会议终端,其使用根据本公开的编码和解码技术。图2B图示出具有发送器和接收器的会议布置,其使用根据本公开的编码和解码技术。图3是根据本公开的音频编码技术的流程图。图4A是更详细地示出编码技术的流程图。图4B示出被采样为许多帧的模拟音频信号。图4C示出从时域中的采样帧变换而来的一组频域中的变换系数。图4D示出将用于编码变换系数的可用比特分配到两个频带中的8种模式。图5A-5C示出基于重要性对已编码音频中的区域进行排序的例子。图6A是示出用于确定已编码音频中的区域的重更性的功率谱技术的流程图。图6B是示出用于确定已编码音频中的区域的重要性的感知技术的流程图。图7是更详细地示出解码技术的流程图。图8示出使用所公开的可扩缩音频编解码器来处理音频包丢失的技术。
具体实施例方式基于本公开的音频编解码器是可扩缩的并且在频带间分配可用比特。另外,音频编解码器基于重要性对这些频带中每一个频带的频率区域进行排序。如果发生比特去除, 那么那些具有更高重要性的频率区域将已经在比特流中首先被打包。以这种方式,即使发生比特去除,更有用的音频将被保持。音频编解码器的这些和其他细节在这里被公开。本 公开的各种实施例可以在诸如音频会议、视频会议和流媒体(包括流式音乐或语音)等领域中找到有用的应用。因此,本公开的音频处理设备可包括音频会议端点、视频会议端点、音频回放设备、个人音乐播放器、计算机、服务器、电信设备、蜂窝电话、个人数字助理、VoIP电话设备、呼叫中心设备、录音设备、语音消息设备等。例如,专用的音频或视频会议端点可受益于所公开的技术。类似地,计算机或其他设备可被用于桌面会议或用于数字音频的发送和接收,并且这些设备也能受益于所公开的技术。A.会议端点如上所述,本公开的音频处理设备可以包括会议端点或终端。图2A示意性地示出了端点或终端100的例子。如所示的,会议终端100在网络125上既可以是发送器又可以是接收器。还如所示的,会议终端100可以具有视频会议能力以及音频能力。一般而言,终端100具有麦克风102和扬声器108,并且可以具有各种其他输入/输出设备,诸如摄像机 103、显示器109、键盘、鼠标等。另外,终端100具有处理器160、存储器162、转换器电子装置164、和适合于特定网络125的网络接口 122/124。音频编解码器110根据用于联网终端的合适协议提供基于标准的会议。这些标准可以完全以存储器162中所存储的软件实现, 以及在处理器160上、在专用硬件上、或使用以上的组合来执行。在传输路径中,麦克风102拾取的模拟输入信号被转换器电子装置164转换为数字信号,并且在终端的处理器160上运行的音频编解码器110具有编码器200,其编码数字音频信号以便在网络125(诸如因特网)上通过发送器接口 122传输。如果存在,具有视频编码器170的视频编解码器可以对视频信号执行类似功能。在接收路径中,终端100具有耦接到音频编解码器110的网络接收器接口 124。解码器250解码已接收的音频信号,并且转换器电子装置164将数字信号转换为模拟信号以输出到扬声器108。如果存在,具有视频解码器172的视频编解码器可以对视频信号执行类似功能。B.音频处理布置图2B示出一会议布置,其中第一音频处理设备100A(作为发送器)发送压缩的音频信号到第二音频处理设备100B (在该上下文中作为接收器)。发送器100A和接收器100B 都具有可扩缩音频编解码器110,其执行类似于用在ITUG. 722. 1 (Polycom Siren 7)或ITU G. 722. l.C(Polycom Siren 14)中的变换编码。对于当前讨论,发送器和接收器100A-B可以是音频或视频会议中的端点或终端,但是它们可以是其他类型的设备。在操作过程中,发送器100A中的麦克风102捕获源音频,并且电子装置采样该音频的块或帧。典型地,音频块或帧的跨度为20毫秒的输入音频。在这一点上,音频编解码器110的正向变换(forward transform)将每个音频帧转换为一组频域变换系数。使用本领域公知技术,这些变换系数然后使用量化器115被量化并且被编码。一旦被编码,发送器100A使用其网络接口 120通过网络125以包的形式将编码后的变换系数发送到接收器100B。任何适当的网络可被使用,包括但不限于IP(因特网协议) 网络、PSTN(公共交换电话网络)、ISDN(综合服务数字网络),等等。就它们而言,所发送的包可使用任何适当的协议或标准。例如,包中的音频数据可遵循一个表格的内容,并且构成一个音频帧的所有八比特组可作为一个单元被附加到净荷中。音频帧和包的附加细节在ITU-T建议G. 722. 1和G. 722. IC中有详细说明,这些建议都被结合于此。在接收器100B,网络接口 120接收包。在随后的反向处理中,接收器100B使用去量化器115和编解码器110的逆变换来对编码后的变换系数进行去量化和解码。该逆变换将变换系数转换回时域,以便为接收器的扬声器108产生输出音频。对于音频和视频会议, 接收器100B和发送器100A在会议过程中可互换角色。

C.音频编解码器操作在理解上面提供的音频编解码器110和音频处理设备100后,现在转到讨论根据本公开音频编解码器110如何编码和解码音频。如图3所示,发送器100A中的音频编解码器110接收时域的音频数据(块310)并得到音频数据的音频块或帧(块312)。使用正向变换,音频编解码器110将音频帧转换为频域中的变换系数(块314)。 如上所述,音频编解码器110可使用Polycom Siren技术来执行该变换。然而,音频编解码器可以是任何变换编解码器,包括但不限于MP3、MPEG、AAC等。当变换音频帧时,音频编解码器110还量化和编码该帧的谱包络(块316)。该包络描述了被编码的音频的幅度,但是它不提供任何相位细节。编码包络谱不需要大量比特, 因此它可以容易地完成。还有,如下面将看到的,如果比特在传输中被去除,谱包络可以在后面的音频解码过程中被使用。当通过网络(诸如因特网)通信时,带宽可能改变,包可能丢失,并且连接速率可能不同。为应对这些挑战,本公开的音频编解码器110是可扩缩的。以这种方式,音频编解码器110在稍后更详细描述的处理中在至少两个频带之间分配可用比特(块318)。编解码器的编码器200量化和编码每个已分配频带中的变换系数(块320),然后基于区域的重要性对每个频率区域的比特重新排序(块322)。总体上,整个编码处理可仅引入大约20ms 的延迟。如果比特因为许多原因被去除,确定比特重要性(其在下面更详细地描述)将提高可在远端再现的音频质量。在将比特重新排序后,比特被打包以用于发送到远端。最后, 包被发送到远端,从而下一帧能被处理(块324)。在远端,接收器100B接收包,根据已知技术处理它们。编解码器的解码器250然后解码和去量化谱包络(块352),并确定在频带间分配的比特(块354)。关于解码器250 如何确定频带间比特分配的细节在稍后提供。知道比特分配后,解码器250然后解码和去量化变换系数(块356),并对每个频带中的系数执行逆变换(块358)。最终,解码器250 将音频转换回时域以便为接收器的扬声器108产生输出音频(块360)。D.编码技术如上所述,所公开的音频编解码器110是可扩缩的并且使用变换编码将音频编码到为至少两个频带分配的比特中。由可扩缩音频编解码器100执行的编码技术的细节在图 4的流程图中示出。最开始,音频编解码器110获得输入音频帧(块402),并使用本领域公知的调制重叠变换将该帧转换为变换系数(块404)。如所知道的那样,这些变换系数中的每一个具有幅度并且可以是正的或者负的。音频编解码器110还如前面提到的那样量化和编码谱包络[OHz到22kHz](块406)。在这点上,音频编解码器110在两个频带之间分配用于该帧的比特(块408)。当音频编解码器110编码所接收的音频数据时,逐帧地动态确定该比特分配。在这两个频带间的划分频率被选择为使得第一数量的可用比特被分配给低于该划分频率的低频率区域, 而剩余比特被分配给高于该划分频率的较高频率区域。在确定了频带的比特分配后,音频编解码器110在低频带和高频带中使用它们各自分配的比特来编码归一化系数(块410)。然后,音频编解码器110确定这两个频带中的每个频率区域的重要性(块412),并基于所确定的重要性对频域区域进行排序(块414)。如前所述,音频编解码器110可类似于Siren编解码器并且可将音频信号从时域变换到具有MLT系数的频域。(为了简化,本公开提及的是MLT变换的变换系数,但是其他类型的变换也可被使用,诸如FFT(快速傅立叶变换)和DCT(离散余弦变换)等。)在采样率下,MLT变换产生大约960个MLT系数(S卩,每25Hz —个系数)。这些系数基于升序以索引0,1,2,...被安排在频率区域中。例如,第一区域0覆盖频率范围W到 500Hz],下一区域1覆盖[500到1000Hz],以此类推。不同于通常那样简单地以升序发送频率区域,可扩缩音频编解码器110在整个音频的上下文中确定区域的重要性,然后基于从更高重要性到更低重要性的顺序来重新排序这些区域。该基于重要性的重新排列在两个频带中都执行。确定每个频率区域的重要性可以以许多方式实现。在一个实施例中,编码器200 基于量化的信号功率谱来确定区域的重要性。在这种情况下,具有更高功率的区域具有更高重要性。在另一个实施例中,感知模型可被用于确定区域的重要性。该感知模型掩蔽 (mask)不被人们感知的无关音频、噪声等等。这些技术将分别在稍后更详细地讨论。在基于重要性进行排序后,最重要的区域被首先打包,跟随其后是稍微不那么重要的区域,再随其后是不那么重要的区域,以此类推(块416)。最后,已排序和打包的区域可通过网络被发送到远端(块420)。在发送包时,关于变换系数的区域排序的索引信息不需要被发送。而是,索引信息可基于从比特流解码的谱包络在解码器中被计算。如果发生比特去除,那么接近尾端的被打包的那些比特可被去除。因为区域已被排序,在更重要的区域中的系数已经被首先打包。因此,如果发生比特去除的话,被最后打包的不那么重要的区域更有可能被去除。在远端,解码器250解码并变换所接收到的数据,该数据已经反映了最初由发送器100A赋予的有次序的重要性。以这种方式,当接收器100B解码包并在时域产生音频时, 接收器的音频编解码器110实际上将接收和处理输入音频中的系数的更重要区域的机会得到增加。如所预期的,带宽、计算能力和其他资源的变化在会议过程中可能会改变,因此音频被丢失、不被编码,等等。如果音频在频带之间进行了比特分配并且按重要性进行了排序,音频编解码器 110可以增加更有用的音频将在远端被处理的机会。考虑所有这些,当音频质量由于不管什么原因而降低时,即使有比特从比特流中被去除(即,部分比特流),音频编解码器110仍能生成有用的音频信号。1.比特分配 如前面提到的,本公开的可扩缩音频编解码器110在频带间分配可用比特。如图 4B所示,音频编解码器(110)以特定采样频率(例如,48kHz)在每个约20ms的连续的帧 F1,F2,F3等中采样并数字化音频信号430。(实际上,这些帧可能会交叠。)因此,每个帧 Fl, F2,F3等具有大约960个采样(48kHzX0. 02s = 960)。音频编解码器(110)然后将每个帧F1,F2,F3等从时域变换到频域。对于给定帧,例如,变换得到如图4C所示的一组MLT 系数。对于该帧,大约有960个MLT系数(S卩,每25Hz—个MLT系数)。由于22kHz的编码带宽,代表高于大约22kHz的频率的MLT变换系数可能被忽略。在频域中从0到22kHz的该组变换系数必须被编码,因此编码后的信息能够被打包和通过网络传输。在一种布置中,音频编解码器(110)被配置为以最大速率编码全频带音频信号,该最大速率可以是64kbps。还有,如这里所述,音频编解码器(110)在两个频带间分配用于编码帧的可用比特。为分配这些比特,音频编解码器110可将总共可用比特在第一频带W到12kHz] 和第二频带[12kHz到22kHz]之间划分。在这两个频带间的12kHz的划分频率可主要基于语音音调变化和主观测试而被选择。其他划分频率可被用于给定的实施例。分割总共可用比特是基于两个频带间的能量比。在一个例子中,对于两个频带间的分割,可有四种可能的模式。例如,64kbps的总共可用比特可被如下划分 表 1四种模式的比特分配示例
模式为<12klfe的信号为>12kHz的信f 总共可用带宽麵____(kbps)
0__48__16__64_
1_44__20__64_
2_40__24__64_
336_28__64_为了在发送到远端的信息中表示出这四种可能性,要求编码器(200)在传输的比特流中使用2比特。当接收时,远端解码器(250)可使用来自这些发送的比特的信息来确定对于给定帧的比特分配。知道比特分配后,解码器(250)然后可基于该确定的比特分配
解码信号。在如图4C所示的另一布置中,音频编解码器(110)被配置为通过在第一频带 (LoBand)440
和第二频带(HiBand)450[14kHz到22kHz]之间划分总可用比特来分配比特。尽管取决于实施例可使用其他值,14kHz的划分频率可基于考虑语音/音乐、 嘈杂/干净、男性声音/女性声音等的主观听力质量而被优先选择。在14kHz处将信号划分为HiBand和LoBand也使可扩缩音频编解码器110比得上现有的SirenH音频编解码器。在该布置中,帧可以使用8种可能的划分模式而逐帧地彼划分。这8种模式(bit_ split_mode)是基于两个频带440/450间的能量比。这里,低频带(LoBand)的能量或功率值被标记为LoBandsPower,而高频带(HiBand)的能量或功率值被标记为HiBandsPower。给定帧的特定模式(bit_split_mode)被如下确定if (HiBandsPower) (LoBandsPower -k 4. 0))bit_split_mode = 7 ;else if (HiBandsPower) (LoBandsPower -k 3.0))
bit_split_mode = 6 ;else if (HiBandsPower) (LoBandsPower -k 2.0))bit_split_mode = 5 ;else if (HiBandsPower) (LoBandsPower -k 1.0))bit_split_mode = 4 ;else if (HiBandsPower) (LoBandsPower -k 0.5))bit_split_mode = 3 ;else if (HiBandsPower) (LoBandsPower -k 0.01))bit_split_mode = 2 ;else if (HiBandsPower) (LoBandsPower -k 0. 001))bit_split_mode = 1 ;else bit_split_mode = O ;这里,低频带的能量值(LoBandsPower)被计算为,^gMonfeei/ ——其中区域索弓I i = 0,1,2,· · ·,25。(因为每
i
个区域的带宽是500Hz,相应的频率范围是OHz到12500Hz)。可用于现有Siren编解码器的预定义表可被用于量化每个区域的功率以获得quantiZed_regi0n_p0Wer[i]的值。就它而言,高频带的功率值(HiBandsPower)被类似地计算,但使用的频率范围是从13kHz到 22kHz。因此,在该比特技术中的划分频率实际上是13kHz,尽管信号频谱是在14kHz处被划分。这样做是为了通过扫描正弦波测试。两个频带440/450的比特分配然后基于从如上所述的频带功率值的能量比所确定的bit_split_mode被计算。特别地,HiBand频带获得总共可用的64kbps中的(16+4 * bit_split_mode)kbps,而LoBand频带获得总共64kbps中的剩余比特。这分解为下列对于 8种模式的分配表 28种模式的比特分配示例
权利要求
1.一种用于处理设备的可扩缩音频处理方法,包括为输入音频的帧确定第一和第二比特分配,第一比特分配被分配给第一频带,第二比特分配被分配给第二频带;将所述帧的第一频带从时域变换编码为频域中的第一变换系数; 将所述帧的第二频带从时域变换编码为频域中的第二变换系数; 利用相应的第一和第二比特分配,将第一和第二变换系数打包到包中;以及使用所述处理设备发送所述包。
2.如权利要求1所述的方法,其中确定第一和第二比特分配是针对所述输入音频逐帧地进行的。
3.如权利要求1所述的方法,其中确定第一和第二比特分配包括 计算所述帧的第一和第二频带的能量比;以及基于所计算的能量比为所述帧进行第一和第二比特分配。
4.如权利要求1所述的方法,其中第一和第二变换系数中的每一个被安排在多个频率区域中,并且其中打包所述第一和第二变换系数中的每一个包括确定所述频率区域的重要性;基于所确定的重要性对所述频率区域进行排序;以及按照排序来打包所述频率区域。
5.如权利要求4所述的方法,其中确定所述频率区域的重要性和对所述频率区域进行排序包括为所述频率区域中的每一个确定功率水平;以及从最大功率水平到最小功率水平对所述频率区域进行排序。
6.如权利要求5所述的方法,其中确定能量水平进一步包括使用基于频率区域间的频谱距离的固定函数来加权频率区域的功率水平。
7.如权利要求1所述的方法,其中打包包括打包关于第一和第二比特分配的指示。
8.如权利要求1所述的方法,其中打包包括打包第一和第二频带二者的谱包络。
9.如权利要求1所述的方法,其中打包包括对于每个帧,在打包第一和第二频带中较高的频带之前先打包较低的频带。
10.如权利要求1所述的方法,其中变换编码和打包包括通过以第一比特率变换编码所述帧,来产生所述帧的第一版本; 通过将所述第一版本精简到低于第一比特率的第二比特率,来产生所述帧的第二版本;以及将所述帧的第一版本与前一个帧的第二版本一起打包到所述包中。
11.如权利要求1所述的方法,其中所述第一频带是大约O到大约12kHz,并且其中所述第二频带是大约12kHz到大约22kHz。
12.如权利要求1所述的方法,其中所述第一频带是大约0到大约12500Hz,并且其中所述第二频带是大约13kHz到大约22kHz。
13.如权利要求1所述的方法,其中所述第一和第二比特分配总共有大约641ApS的可用比特。
14.如权利要求1所述的方法,其中所述变换系数包括调制重叠变换的系数。
15.一种其上存储有程序指令的可编程存储设备,所述程序指令用于使可编程控制设备执行如权利要求1所述的可扩缩音频处理方法。
16.一种处理设备,包括 网络接口 ;通信地耦接到该网络接口并获得输入音频的处理器,所述处理器被配置为 为输入音频的帧确定第一和第二比特分配,第一比特分配被分配给第一频带,第二比特分配被分配给第二频带;针对所述帧的每一个,将时域中的第一频带变换编码为频域中的第一变换系数; 针对所述帧的每一个,将时域中的第二频带变换编码为频域中的第二变换系数; 针对所述帧的每一个,使用所述第一比特分配中相应的第一比特分配,将第一变换系数打包到包中;针对所述帧的每一个,使用所述第二比特中相应的第二比特分配,将第二变换系数打包到所述包中;以及使用所述网络接口发送所述包。
17.如权利要求16所述的设备,其中所述处理设备选自由音频会议端点、视频会议端点、音频回放设备、个人音乐播放器、计算机、服务器、电信设备、蜂窝电话和个人数字助理所构成的组。
18.一种用于处理设备的音频处理方法,包括接收用于输入音频的帧的包,每个包具有一个帧的第一频带的在频域中的第一变换系数和该帧的第二频带的在频域中的第二变换系数;为每个包中的帧确定第一和第二比特分配,第一比特分配中的每一个被分配给所述包中的所述帧的第一频带,第二比特分配中的每一个被分配给所述包中的所述帧的第二频带;针对所述包中的每个帧,将第一变换系数和第二变换系数逆变换编码为输出音频; 针对所述包中的每个帧,确定第一和第二比特分配中是否有比特缺失;以及填充音频到任何被确定为缺失的比特中。
19.如权利要求18所述的方法,其中接收所述包包括接收所述帧的第一和第二频带中的每一个的谱包络,并且其中填充音频包括利用谱包络缩放音频信号。
20.一种用于处理设备的音频处理方法,包括通过以第一比特率变换编码输入音频的连续的帧中的每个帧,来产生所述连续的帧的第一版本;通过将每个第一版本精简到低于第一比特率的第二比特率,来产生所述连续的帧中的每个帧的第二版本;将所述连续的帧的每个第一版本与所述连续的帧中的前一个帧的第二版本一起打包到包中;使用处理设备发送所述包。
21.一种用于处理设备的音频处理方法,包括接收用于输入音频的连续的帧的包,每个包具有所述连续的帧中的一个帧的第一版本和所述连续的帧中的前一个帧的第二版本,每个第一版本包括以第一比特率变换编码的所述一个帧,每个第二版本包括前一个帧的被精简到低于第一比特率的第二比特率的第一版本;解码每个包;对于接收的包中的一个包,检测包错误;再生所述一个包的缺失帧,这是通过使用来自接收到的包中的前一个包的、所述一个包的缺失帧的第二版本而实现的;以及使用帧的第一版本和再生的缺失帧产生输出音频。
全文摘要
本公开涉及全频带可扩缩音频编解码器。一种用于处理设备的可扩缩音频编解码器为输入音频的每一帧确定第一和第二比特分配。第一比特被分配给第一频带,第二比特被分配给第二频带。该分配基于这两个频带间的能量比逐帧地进行。对于每一帧,编解码器把两个频带变换编码为两组变换系数,然后这两组变换系数基于所述比特分配被打包。然后这些包使用处理设备被传输。另外,变换系数的频率区域能够以由功率水平和感知建模所确定的重要性的顺序被安排。一旦发生比特去除,考虑到已经在频带之间分配了比特并且变换系数的各区域已经根据重要性被排序,在接收设备处的解码器可以产生合适质量的音频。
文档编号G10L19/02GK102332267SQ20111025974
公开日2012年1月25日 申请日期2011年7月1日 优先权日2010年7月1日
发明者P·舒, 冯津伟 申请人:宝利通公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1