用于音频数据的冗余发射的位分配的系统、方法、设备及计算机可读媒体的制作方法

文档序号:2825863阅读:239来源:国知局
用于音频数据的冗余发射的位分配的系统、方法、设备及计算机可读媒体的制作方法
【专利摘要】本发明描述用于音频信号的帧的初始位分配的基于压缩性的重新分配。还描述了关键帧的基于冗余的重新发射的应用(例如,用于话音编解码器操作的固定位速率模式)。
【专利说明】用于音频数据的冗余发射的位分配的系统、方法、设备及计算机可读媒体
[0001]根据35U.S.C.§ 119丰张优先权
[0002]本专利申请案主张2012年I月12日申请的标题为“用于冗余发射的位分配的系统、方法、设备及计算机可读媒体(SYSTEMS,METHODS, APPARATUS, AND COMPUTER-READABLEMEDIA FOR BIT ALLOCAT1N FOR REDUNDANT TRANSMISS1N) ” 的第 61/586,007 号临时申请案的优先权,且所述申请案已让与其受让人。本专利申请案还主张2012年I月17日申请的标题为“用于关键性阈值控制的系统、方法、设备及计算机可读媒体(SYSTEMS,METHODS,APPARATUS, AND COMPUTER-READABLE MEDIA FOR CRITICALITY THRESHOLD CONTROL) ” 的第61/587,507号临时申请案的优先权,且所述申请案已让与其受让人。本专利申请案还主张2012年5月I日申请的标题为“用于冗余发射的位分配的系统、方法、设备及计算机可读媒体(SYSTEMS,METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR BIT ALLOCAT1N FORREDUNDANT TRANSMISS1N) ”的第61/641,093号临时申请案的优先权,且所述申请案已让与其受让人。
【技术领域】
[0003]本发明涉及音频通信。
【背景技术】
[0004]已通过电路交换网络执行数字音频电信。电路交换网络是在呼叫的持续时间内在两个终端之间建立物理路径的网络。在电路交换应用中,发射终端经由物理路径将含有音频(例如,语音)信息的包序列发送到接收终端。接收终端使用包中含有的音频信息(例如,语音信息)合成对应音频信号(例如,话音信号)。
[0005]已开始通过包交换网络执行数字音频电信。包交换网络是基于目的地地址经由网络投送包的网络。借助于包交换通信,路由器个别地确定每一包的路径,沿着任何可用路径向下发送所述包以到达其目的地。结果,包可不同时或按相同次序到达于接收终端处。去抖动缓冲器可用于接收终端中以重新按次序安置包且按连续顺序方式播放所述包。
[0006]在一些场合,在从发射终端到接收终端的运输中包丢失了。丢失的包可使合成音频信号的质量降级。因而,可通过提供系统及方法来处理帧内(例如,话音帧内)的信息的丢失而实现益处。

【发明内容】

[0007]—种根据一般配置处理音频信号的方法包含计算在所述音频信号中在所述音频信号的第一 帧(例如,关键帧)之后的所述音频信号的第二帧的决策量度的至少一个值。此方法还包含基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选。在此方法中,所述计算的至少一个值是基于所述第二帧的压缩性的测量,且所述选定的重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。还揭示了具有有形特征的计算机可读存储媒体(例如,非暂时性媒体),所述有形特征致使读取所述特征的机器执行此方法。
[0008]一种用于根据另一一般配置处理音频信号的设备包含用于计算在所述音频信号中在所述音频信号的第一帧(例如,关键帧)之后的所述音频信号的第二帧的决策量度的至少一个值的装置。此设备还包含用于基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选的装置。在此设备中,所述计算的至少一个值是基于所述第二帧的压缩性的测量,且所述选定的重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
[0009]一种用于根据另一一般配置处理音频信号的设备包含经配置以计算在所述音频信号中在所述音频信号的第一帧(例如,关键帧)之后的所述音频信号的第二帧的决策量度的至少一个值的计算器。此设备还包含经配置以基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选的选择器。在此设备中,所述计算的至少一个值是基于所述第二帧的压缩性的测量,且所述选定的重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
【专利附图】

【附图说明】
[0010]图1A是说明经由网络NWlO通信的发射终端102及接收终端104的实例的框图。
[0011]图1B展示音频编码器AElO的实施方案AE20的框图。
[0012]图2展示可经由网络NW20彼此通信的不同终端装置的实例。
[0013]图3展示帧编码器FElO的基本实施方案FE20的框图。
[0014]图4是说明发射终端102的实施方案112及接收终端104的实施方案114的实例的框图。
[0015]图5A展示根据一般配置的方法MlOO的流程图。
[0016]图5B展示方法MlOO的实施方案M200的流程图。
[0017]图5C展示方法M200的实施方案M210的流程图。
[0018]图6A展示音频信号的帧序列的实例。
[0019]图6B展示决策量度D的值的范围与多个重新分配候选之间的对应。
[0020]图6C展示方法M200的实施方案M220的流程图。
[0021]图7A展示方法MlOO的实施方案M300的流程图。
[0022]图7B展示用于方法M300的实施方案M310的流程图。
[0023]图8A展示用于方法MlOO的实施方案M400的流程图。
[0024]图8B展示用于方法M400的实施方案M410的流程图。
[0025]图9A展示用于方法M400的实施方案M420的流程图。
[0026]图9B展示用于方法M400的实施方案M430的流程图。
[0027]图1OA展示用于方法M400的实施方案M500的流程图。
[0028]图1OB展示用于方法M500的实施方案M510的流程图。
[0029]图1lA展示用于方法M500的实施方案M520的流程图。
[0030]图1lB展示用于方法M500的实施方案M530的流程图。
[0031]图12展示用于方法M500的实施方案M540的流程图。[0032]图13A展示方法MlOO的实施方案MllO的流程图。
[0033]图13B展示用于方法MllO的实施方案M120的流程图。
[0034]图13C展示用于方法Ml20的实施方案Ml30的流程图。
[0035]图14A及14B展示信道状态信息与如本文中所描述的其它系统参数之间的关系的实例。
[0036]图15A展示方法M120的实施方案M140的流程图。
[0037]图15B展示用于方法M130及M140的实施方案M150的流程图。
[0038]图16A展示用于方法MlOO的实施方案M600的流程图。
[0039]图16B展示用于方法M600的实施方案M610的流程图。
[0040]图16C展示用于方法M600的实施方案M620的流程图。
[0041]图17A展示用于方法M600的实施方案M630的流程图。
[0042]图17B展示用于方法M600的实施方案M640的流程图。
[0043]图17C展示用于方法M600的实施方案M650的流程图。
[0044]图18A展示用于方法M400及M610的实施方案M660的流程图。
[0045]图18B展示用于方法M400及M620的实施方案M670的流程图。
[0046]图18C展示用于方法M600的实施方案M700的流程图。
[0047]图19A展示用于方法M660及M700的实施方案M710的流程图。
[0048]图19B展示用于方法M670及M700的实施方案M720的流程图。
[0049]图20A是IPv4包的图。
[0050]图20B是IPv6包的图。
[0051]图20C展示通信装置DlO的框图。
[0052]图21展示载运关键帧的冗余副本及后续帧的副本的RTP包的有效负载的实例。
[0053]图22是音频解码器ADlO的实施方案AD20的框图。
[0054]图23A展示根据一般配置的设备MF100的框图。
[0055]图23B展示设备MF100的实施方案MF300的框图。
[0056]图23C展示设备MF100的实施方案MF500的框图。
[0057]图24A展示设备MF100的实施方案MF140的框图。
[0058]图24B展示设备MF140的实施方案MF150的框图。
[0059]图25A展示根据一般配置的设备AlOO的框图。
[0060]图25B展示设备AlOO的实施方案A300的框图。
[0061]图25C展示设备AlOO的实施方案A500的框图。
[0062]图2?展示无线装置1102的框图。
[0063]图26展示手持机HlOO的前视图、后视图及侧视图。
【具体实施方式】
[0064]可需要改进固定位速率方案对发射期间的信息丢失的强健性。如本文中所描述的系统、方法及设备可适用于音频信号的关键帧的自适应冗余编码。此自适应编码可包含测试多个共享速率(例如,共享位分配)及帧偏移。此自适应编码还可包含确定帧是关键帧。
[0065]除非其上下文明确地限制,否则术语“信号”在本文中用以指示其通常意义中的任一者,包含如电线、总线或其它发射媒体上表达的存储器位置(或存储器位置的集合)的状态。除非其上下文明确地限制,否则本文中使用术语“产生”来指示其通常意义中的任一者,例如运算或以另外方式产生。除非其上下文明确地限制,否则术语“计算”在本文中用以指示其通常意义中的任一者,例如运算、评估、平滑及/或从多个值中进行选择。除非其上下文明确地限制,否则使用术语“获得”来指示其通常意义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件阵列)。除非其上下文明确地限制,否则术语“选择”用以指示其通常意义中的任一者,例如识别、指示、应用及/或使用两者或两者以上的集合中的至少一者且不到全部。除非其上下文明确地限制,否则术语“确定”用以指示其通常意义中的任一者,例如决定、建立、推断、计算、选择及/或评估。在术语“包含”用于本描述及权利要求书中的情况下,其不排除其它元件或操作。术语“基于”(如“A基于B”中)用以指示其通常意义中的任一者,包含状况⑴“从……导出”(例如,“B是A的前驱”),(ii) “至少基于”(例如,“A至少基于B”)及在特定上下文中适当的情况下
(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其通常意义中的任一者,包含“至少响应于”。
[0066]除非另外指出,否则术语“系列”用以指示两个或两个以上项的序列。术语“对数”用以指示以10为底的对数,但将此运算扩展到其它基底在本发明的范围内。术语“频率分量”用以指示信号的频率或频带的集合当中的一者,例如信号(例如,如由快速傅立叶变换或MDCT产生)或信号的子带(例如,巴克刻度或梅尔刻度子带)的频域表示的样本。
[0067]除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考如由其特定上下文指示的方法、设备及/或系统来使用。通常且可互换地使用术语“方法”、“过程”、“程序”及“技术”,除非由特定上下文另外指出。具有多个子任务的“任务”也是一种方法。通常且可互换地使用术语“设备”及“装置”,除非由特定上下文另外指出。术语“元件”及“模块”通常用以指示较大配置的一部分。除非其上下文明确地限制,否则术语“系统”在本文中用以指示其通常意义中的任一者,包含“为共同目的互动的元件群组”。术语“多个”意谓“两个或两个以上”。参考文件的一部分的任何并入也应理解为并入有在所述部分内参考的术语或变量的定义,其中所述定义出现在文件别处,以及并入的部分中所参考的任何图。
[0068]术语“译码器”、“编解码器”及“译码系统”可互换地用以表示包含经配置以接收及编码音频信号的帧(可能在例如感知加权及/或其它滤波操作等一或多个预处理操作之后)的至少一个编码器及经配置以产生帧的经解码的表示的对应解码器的系统。此编码器及解码器通常部署于通信链路的相反终端处。为了支持全双工通信,编码器及解码器两者的例子通常部署于此链路的每一端处。
[0069]除非另外指出,否则术语“声码器”、“音频译码器”及“话音译码器”指示音频编码器及对应音频解码器的组合。除非另外指出,术语“译码”指示经由编解码器传送音频信号,包含编码及后续解码。除非另外指出,术语“发射”指示传播(例如,信号)到发射信道中。
[0070]如本文中所描述的译码方案可适用于对任何音频信号(例如,包含非话音音频)译码。或者,可需要仅针对话音使用此译码方案。在此状况下,译码方案可与分类方案一起使用以确定音频信号的每一帧的内容的类型且选择合适的译码方案。[0071]如本文中所描述的译码方案可用作主编解码器或用作多层或多级编解码器中的层或级。在一个此实例中,此译码方案用以对音频信号的频率内容的一部分(例如,低频带或高频带)译码,且另一译码方案用以对信号的频率内容的另一部分译码。在另一此实例中,此译码方案用以对为另一译码层的例如线性预测译码(LPC)分析操作的残余部分等残余部分(即,原始信号与经编码的信号之间的误差)的音频信号译码。
[0072]本文中所描述的方法、系统及设备可经配置以将音频信号处理为一系列区段。典型的区段长度的范围是从约5或10毫秒到约40或50毫秒,且区段可为重叠的(例如,其中邻近区段重叠25%或50%)或不重叠的。在一个特定实例中,将音频信号划分成各自具有10毫秒长度的一系列不重叠区段或“帧”。在另一特定实例中,每一帧具有20毫秒的长度。音频信号的取样速率的实例包含(而不限于)8、12、16、32、44.1、48及192千赫。
[0073]音频电信应用可实施于包交换网络中。举例来说,音频电信应用可实施于基于因特网协议的语音(VoIP)网络中。包可包含经编码的音频信号的一或多个帧,且具有音频(例如,语音)信息的包可在网络上从第一装置发射到第二装置。然而,一些包可在包的发射期间丢失。举例来说,多个包的丢失(有时被称作突发包丢失)可为接收装置处的感知的话音质量的降级的原因。
[0074]为了减轻由VoIP网络中的包丢失引起的感知的话音质量的降级,存在两种类型的解决方案。第一解决方案是基于接收者的包丢失隐藏(PLC)方法。PLC方法可用以掩饰VoIP通信中的包丢失的效果。举例来说,PLC方法可经实施以创建替换包来代替在发射期间丢失的包。此PLC方法可试图创建与丢失的包尽可能类似的包。为了创建替换包,基于接收者的PLC方法可不需要来自发送者的任何额外资源或帮助。然而,在重要话音帧丢失时,PLC方法掩饰包丢失的效果可能不起作用。
[0075]第二解决方案是基于发送者的抗包丢失方法。此方法包含前向纠错(FEC)方法,其可包含用每一包发送某一额外数据。额外数据可用以恢复由发射期间的数据丢失引起的误差。举例来说,FEC方案可发射冗余音频帧。换句话说,由发送者发射音频帧的一个以上副本(通常是两个)。这些两个帧可被称作主副本及冗余副本。
[0076]尽管基于发送者的抗包丢失方案可改进解码的话音的感知质量,但这些方案还可增加话音的发射期间使用的带宽。传统FEC方案还可增加端对端延迟,这对于实时对话来说可能是不可忍受的。举例来说,常规基于发送者的方案在两个不同的时间周期发送相同话音帧两次。此方法可至少使数据速率增倍。一些常规方案可针对冗余副本使用低位速率编解码器以便减少数据速率。然而,使用低位速率编解码器可增加编码器处的复杂性。另夕卜,一些常规方案可针对帧的主副本及帧的冗余副本两者使用相同低位速率编解码器。尽管此方法可减少编码器处的复杂性以及减少数据速率,但基线话音质量(即,在未丢失帧时的话音质量)可极大地降低。此外,常规基于发送者的方案在至少一个帧间隔的额外延迟的假设下操作。
[0077]如本文中所描述的系统、方法及设备可经实施以提供源受控(及可能信道受控)FEC方案以便获得话音质量、延迟及数据速率之间的最优折衷。FEC方案可经配置以使得不引入额外延迟。可实现在中等数据速率下的话音质量的高质量改进。如本文中所描述的FEC方案也可以任何目标数据速率操作。在一个实例中,FEC方案及目标数据速率可基于发射信道的条件以及外部控制自适应地调整。提出的FEC方案还可以与旧式通信装置(例如,旧式手持机)相容的方式实施。
[0078]对于用于音频(例如,语音)通信的一些编解码器,编码每一帧的位的总数是预定常数。此些编解码器的实例包含自适应多速率(AMR)话音编解码器(例如,如3GPP技术规范(TS) 26.071版本10.0.0中所描述,其在2011年4月5日可从欧洲电信标准协会(ETSI),www-dot-ets1-dot-org,索菲亚安提波利斯,FR得到)及AMR宽带话音编解码器(例如,如ITU-T推荐G.722.2,2003年7月国际电信联盟,www-dot-1tu-dot-1nt及/或可从ETSI得到的3GPP技术规范26.190vl0.0.0(2011年3月)中所描述),其中位的数目是由针对帧所选择的译码模式确定的。在此些状况下,发射过去帧的冗余副本可需要可用于对当前帧中的信号信息译码的位的数目的对应减少。此减少可对经解码的话音的感知质量具有负面影响。
[0079]可需要实施灵活方法,其中仅针对关键帧发射冗余副本。“关键帧”是预期丢失对经解码的信号的感知质量具有显著影响的帧。此外,可需要仅在捎带目前帧上的冗余副本的影响预期为最小的情况下发射此冗余副本。对于固定位速率系统,可需要确定待用于对当前帧译码的位的数目,以使得用于对当前帧译码的位的数目及用于对过去帧的冗余副本(例如,部分副本)译码的位的数目的总数满足目标固定位速率T。
[0080]图1A是说明经由网络NWlO经由发射信道TClO通信的发射终端102及接收终端104的实例的框图。终端102及104中的每一者可经实施以执行如本文中所描述的方法及/或包含如本文中所描述的设备。发射及接收终端102、104可为能够支持语音通信的任何装置,包含电话(例如,智能手机)、计算机、音频广播及接收设备、视频会议设备或其类似者。发射及接收终端102、104可经实施(例如)具有无线多址技术,例如码分多址(CDMA)能力。CDMA是基于扩频通信的调制及多址方案。
[0081]发射终端102包含音频编码器AE10,且接收终端104包含音频解码器AD10。音频编码器AElO可用以通过根据人类话音产生的模型提取参数的值来压缩来自第一用户接口UIlO (例如,麦克风及音频前端)的音频信息(例如,话音)。信道编码器CElO将参数值组装成包,且发射器TXlO经由网络NWlO (其可包含例如因特网或公司内部网等基于包的网络)经由发射信道TClO发射包含这些参数值的包。发射信道TClO可为有线及/或无线发射信道,且可被视为延伸到网络NWlO的入口点(例如,基站控制器),延伸到网络NWlO内的另一实体(例如,信道质量分析器)及/或延伸到接收终端104的接收器RX10,这取决于如何及在何处确定信道的质量。
[0082]接收终端104的接收器RXlO用以经由发射信道从网络NWlO接收包。信道解码器CDlO对包解码以获得参数值,且音频解码器ADlO使用来自包的参数值合成音频信息。将合成的音频(例如,话音)提供到接收终端104上的第二用户接口 UI20(例如,音频输出级及扬声器)。尽管未图示,但各种信号处理功能可在信道编码器CElO及信道解码器CDlO中执行(例如,包含循环冗余检查(CRC)功能的交错的卷积译码)且在发射器TXlO及接收器RXlO中执行(例如,数字调制及对应解调、扩频处理、模/数及数/模转换)。
[0083]图2展示包含经由无线电上行链路及下行链路发射信道与移动台通信的基站收发台BTSl到BTS3的网络NWlO的实施方案NW20的实例。网络NW20还包含连接到公用交换电话网络PSTN及因特网INT的核心网络CNWl及也连接到因特网INT的核心网络CNW2。网络NW20还包含将收发台与核心网络介接的基站控制器BSCl到BSC3。网络NW20可经实施以提供终端装置之间的包交换通信。核心网络CNWl还可提供终端装置MSl与MS2之间经由基站收发台BTSl、BTS2及/或在此终端装置与PSTN上的终端装置之间的电路交换通?目。
[0084]图2还展示可经由网络NW20(例如,经由包交换通信链路)彼此通信的不同终端装置的实例:移动台MSl到MS3 ;基于IP的语音(VoIP)电话VP ;及计算机CP,其经配置以执行电信程序(例如,来自微软Skype部门,LU的Skype软件)。终端装置MSl到MS3、VP及CP中的任一者可经实施以包含发射终端102的例子及接收终端104的例子。移动装置MSl到MS3经由无线无线电上行链路及下行链路发射信道与网络通信。终端VP及CP经由有线发射信道(例如,以太网电缆)及/或无线发射信道(例如,IEEE802.11或“WiFi”链路)。网络NW20还可包含中间实体,例如网关及/或TRAU(变码器及速率适配器单元)。
[0085]通信的每一方可发射以及接收,且每一终端可包含音频编码器AElO及解码器ADlO的例子。音频编码器及解码器可为单独装置或集成到被称作“语音译码器”或“声码器”的单个装置。如图1A中所示,终端102、104被描述成在网络NWlO的一个终端处具有音频编码器AElO且在另一终端处具有音频解码器AD10。
[0086]在发射终端102的至少一个配置中,音频信号(例如,话音)可按帧从第一用户接口 Π10输入到音频编码器AE10,其中每一帧进一步分割成子帧。可使用此任意帧边界,其中执行某一块处理。然而,如果实施连续处理而不是块处理,那么此将音频样本分割成帧(及子帧)可省略。在所描述的实例中,取决于特定应用及总设计约束,横跨网络NWlO发射的每一包可包含一或多个帧。
[0087]音频编码器AElO可为可变速率或单个固定速率编码器。可变速率编码器可逐帧地在多个编码器模式 (例如,不同固定速率)之间动态地切换,这取决于音频内容(例如,取决于是否存在话音及/或存在何种类型的话音)。音频解码器ADlO还可以对应方式逐帧地在对应解码器模式之间动态地切换。可针对每一帧选择特定模式以达成可用的最低位速率,同时维持接收终端104处的可接受的信号再生质量。
[0088]音频编码器AElO通常将输入信号处理为一系列时间上不重叠的区段或“帧”,其中针对每一帧计算新编码的帧。帧周期通常是信号可预期为局部平稳的周期;常见实例包含20毫秒(等效于在16kHz的取样速率处的320个样本、在12.8kHz的取样速率处的256个样本或在8kHz的取样速率处的160个样本)及10毫秒。还有可能实施音频编码器AElO以将输入信号处理为一系列重叠中贞。
[0089]图1B展示包含帧编码器FElO的音频编码器AElO的实施方案AE20的框图。帧编码器FElO经配置以对输入信号的核心音频帧CF的序列中的每一者编码以产生经编码的音频帧EF的序列中的对应者。音频编码器AElO还可经实施以执行额外任务,例如将输入信号划分成帧及选择用于帧编码器FElO的译码模式。选择译码模式(例如,速率控制)可包含执行语音活动检测(VAD)及/或以其它方式分类帧的音频内容。在此实例中,音频编码器AE20还包含语音活动检测器VAD10,其经配置以处理核心音频帧CF以产生语音活动检测信号VS(例如,如ETSI处可得到的3GPP TS26.104vl0.0.0(2011年3月)中所描述)。
[0090]帧编码器FElO通常根据源滤波器模型实施,所述源滤波器模型将输入音频信号的每一帧编码为(A)描述滤波器的参数集及(B)将用于解码器处以导出所描述的滤波器以产生音频帧的合成再生的激励信号。话音信号的频谱包络的特征通常是表示声道(例如,喉咙及嘴)的谐振且被称作共振峰的峰值。大多数话音译码器将至少此粗频谱结构编码为参数集,例如滤波器系数。剩余残余信号可模型化为驱动滤波器产生话音信号且特征通常是其强度及音调的源(例如,如由声带所产生)。
[0091]图3展示帧编码器FElO的基本实施方案FE20的框图,所述帧编码器包含预处理模块PP10、线性预测译码(LPC)分析模块LA10、开环音调搜索模块0L10、自适应码薄(ACB)搜索模块AS10、固定码薄(FCB)搜索模块FSlO及增益向量量化(VQ)模块GV10。举例来说,可如3GPP TS26.190vl0.0.0的章节5.1中所描述般实施预处理模块PP10。在一个此实例中,预处理模块PPlO经实施以执行核心音频帧的向下取样(例如,从16kHz到12.8kHz)、向下取样的帧的高通滤波(例如,具有50Hz的截止频率)及经滤波的帧的预加重(例如,使用一阶高通滤波器)。
[0092]线性预测译码(LPC)分析模块LAlO将每一核心音频帧的频谱包络编码为线性预测(LP)系数的集合(例如,全极滤波器的系数1/A(Z))。在一个实例中,LPC分析模块LAlO经配置以计算十六个LP滤波器系数的集合以表征每一 20毫秒帧的共振峰结构。举例来说,可如3GPP TS26.190vl0.0.0的章节5.2中所描述般实施分析模块LAlO。
[0093]分析模块LAlO可经配置以直接分析每一帧的样本,或首先可根据开窗函数(例如,汉明窗)加权样本。还可在大于帧的窗(例如,30-msec窗)内执行分析。此窗可为对称的(例如5-20-5,使得其包含紧接在20毫秒帧之前及之后的5毫秒)或非对称的(例如10-20,使得其包含前一帧的最后10毫秒)。LPC分析模块通常经配置以使用莱文逊-德宾递归或勒鲁-盖R算法计算LP滤波器系数。尽管LPC编码良好地适合于话音,但其还可用以对通用音频信号(例如,包含非话音,例如音乐)编码。在另一实施方案中,分析模块可经配置以计算每一帧的倒频谱系数的集合而不是LP滤波器系数的集合。
[0094]线性预测滤波器系数通常难以有效地量化且通常映射成另一表示(例如线频谱对(LSP)或线频谱频率(LSF),或导抗频谱对(ISP)或导抗频谱频率(ISF))以用于量化及/或熵编码。在一个实例中,分析模块LAlO将LP滤波器系数的集合变换成ISF的集合。LP滤波器系数的其它一对一表示包含部分相关系数及对数面积比。通常,LP滤波器系数的集合与LSF、LSP、ISF或ISP的对应集合之间的变换是可逆的,但实施例还包含变换在无错误的情况下不可逆的分析模块LAlO的实施方案。
[0095]分析模块LAlO经配置以量化ISF (或LSF或其它系数表示)的集合,且帧编码器FE20经配置以将此量化的结果输出为LPC索引XL。此量化器通常包含向量量化器,其将输入向量编码为到表或码薄中的对应向量入口的索引。
[0096]帧编码器FE20还包含可选开环音调搜索模块0L10,其可用以简化音调分析且减少自适应码薄搜索模块ASlO中的闭环音调搜索的范围。模块OLlO可经实施以经由基于未量化的LP滤波器系数的加权滤波器对输入信号滤波,以2为因子抽取加权信号,且每帧产生音调估计一次或两次(取决于当前速率)。举例来说,可如3GPP TS26.190vl0.0.0的章节5.4中所描述般实施模块OLlO。
[0097]自适应码薄(ACB)搜索模块ASlO经配置以搜索自适应码薄(基于过去激励及还被称作“音调码薄”)以产生音调滤波器的延迟及增益。模块ASlO可经实施以对目标信号(如例如通过经由加权合成滤波器基于量化及未量化的LP滤波器系数对LP残余部分滤波而获得)在子帧的基础上执行开环音调估计周围的闭环音调搜索,且接着通过在指示的分数音调滞后处内插过去激励并计算ACB增益计算自适应码向量。模块ASlO还可经实施以使用LP残余部分扩展过去激励缓冲器以简化闭环音调搜索(对于小于64个样本的子帧大小的延迟尤其如此)。模块ASlO可经实施以产生ACB增益(例如,对于每一子帧),及指示第一子帧的音调延迟(或第一及第三子帧的音调延迟,取决于当前速率)及其它子帧的相对音调延迟的量化的索引。举例来说,可如3GPP TS26.190vl0.0.0的章节5.7中所描述般实施模块ASlO。
[0098]固定码薄(FCB)搜索模块FSlO经配置以产生指示固定码薄(也被称作“创新码薄”、“创新的码薄”、“随机码薄”或“代数码薄”)的向量的索引,所述固定码薄表示不由自适应码向量模型化的激励的部分。模块FSlO可经实施以产生码薄索引作为含有再生FCB向量(例如,表示脉冲位置及符号)所需要的所有信息的码字,使得不需要码薄。举例来说,可如3GPP TS26.190vl0.0.0的章节5.8中所描述般实施模块FSlO。
[0099]增益向量量化模块GVlO经配置以量化可包含每一子帧的增益的FCB及ACB增益。举例来说,可如3GPP TS26.190vl0.0.0的章节5.9中所描述般实施模块GV10。
[0100]作为基于码薄的方法的替代,基于变换的方法可用以对LPC残余信号编码。举例来说,修改的离散余弦变换(MDCT)可用以将残余部分编码成包含MDCT系数的集合的参数,如在卡利俄佩超宽带编解码器(高通公司,圣地亚哥,CA)及AMR-WB+编解码器的TCX选项中。在另一实例中,基于变换的方法用以对音频信号编码而不执行LPC分析。
[0101]图5A展示包含任务T200及T300的根据一般配置的音频信号处理的方法MlOO的流程图。任务T200计算在音频信号中在音频信号的第一帧(例如,关键帧)之后的音频信号的第二帧(“后续帧”或“载波帧”)的决策量度的至少一个值。基于决策量度的至少一个计算的值,任务T300从多个重新分配候选当中选择一个候选,其中选定重新分配候选指示将后续帧的初始位分配T重新分配成第一部分及第二部分。在典型应用中,初始位分配T的第一部分接着用以载运后续帧的副本,且初始位分配的第二部分用以载运关键帧的冗余副本。
[0102]可需要减少载波帧也将是关键帧(S卩,对在其之后的另一帧是关键的)的可能性。通常,此可能性对于紧接在关键帧之后的帧来说是最高的,且接着对于后续帧来说快速地降低。对于浊音话音,典型的情况是通话突峰中的开始帧是关键的,且紧接在其之后的帧也是关键的(例如,涵盖开始帧丢失的状况)。然而,通话突峰中的另一帧也有可能是关键的(例如,对于音调滞后漂移的状况)。
[0103]帧偏移k可用以指示关键帧与载波帧之间的距离。在一个此实例中,帧偏移k的值是关键帧η与载波帧(n+k)之间的帧数的差(例如,比插入帧的数目大一)。图6A展示k的值是三的典型实例。在另一实例中,k的值是四。其它可能值包含一、二、三、五及大于五的整数。
[0104]方法MlOO可经实施使得偏移k固定(例如,在系统实施方案期间或在呼叫建立期间)。k的值可根据原始时域信号中的帧的长度(例如,以毫秒为单位)及最大容许延迟来选择。举例来说,k的值可由最大容许值约束(例如,限制帧延迟)。对于最大容许延迟来说可需要具有80或100毫秒的值。在此状况下,对于使用20毫秒帧的方案,k可具有4或5的最大值,或对于使用10毫秒帧的方案,k可具有8、9或10的最大值。
[0105]偏移k的值还可在呼叫期间根据信道条件来选择及/或更新(例如,如由来自接收器的反馈所指示)。举例来说,在造成连续帧的频繁丢失(例如,归因于长消退)的环境下可需要使用k的较高值。
[0106]接收终端104还可将信道状态信息120反馈到发射终端102。在一个此实例中,接收终端104经配置以从发射终端102收集关于载运包的发射信道的质量的信息。接收终端104可使用收集的信息来估计信道的质量。接着可将收集的信息及/或信道质量估计作为信道状态信息反馈到发射终端102。
[0107]图4是说明经由网络NWlO经由发射信道TClO及RClO通信的发射终端102的实施方案112及接收终端104的实施方案114的实例的框图。在此实例中,接收终端114包含可将收集的信息及/或质量估计(例如,来自音频解码器AD10)组装成包以供经由发射器TXlO的例子TX20及发射信道RClO发射回到发射终端112的信道编码器CElO的例子CE20,其中包是由接收器RXlO的例子RX20接收的及由信道解码器⑶10的例子⑶20拆装的,且将信息及/或估计 提供到音频编码器AE10。发射终端112(例如,音频编码器AE10)可使用此信道状态信息来调适与如本文中所描述的基于发送者的抗包丢失方案相关联的一或多个功能(例如,偏移及/或关键性阈值)。
[0108]偏移k指示帧的主副本的发射时间与帧的冗余副本的发射时间之间的间隔的长度。通常,包交换网络中的包丢失是突发的,且突发长度可在不同网络条件下不同。因此,使用动态调整的偏移可导致较佳误差防护性能。最优偏移可使用由接收器发送的信道状态信息来估计。举例来说,可基于信道条件自适应地调整偏移值(例如,在运行时间)。或者,偏移值可为预定的。
[0109]在一个实例中,任务T200计算基于来自帧的信息的开环决策量度D。图5B展示包含量度计算任务T200的此实施方案T210的方法MlOO的实施方案M200的流程图。任务T210可经实施以将开环量度D计算为例如后续帧的压缩性的测量。此测量可计算为后续帧的子帧彼此间的相关(例如,所有可能滞后值及所有对(或所有邻近对)子帧上的最大相关,或作为每一对(或每一邻近对)子帧的所有可能滞后值上的最大相关的平均值)。此测量可被视为帧的压缩性的静态测量。量度D的一个此实例是长度S的两个子帧Vi与Vj之间的滞后P处的相关的测量Rup,其可使用表达式来计算,例如:
【权利要求】
1.一种处理音频信号的方法,所述方法包括: 计算在所述音频信号中在所述音频信号的第一帧之后的所述音频信号的第二帧的决策量度的至少一个值 '及 基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选,其中所述计算的至少一个值是基于所述第二帧的压缩性的测量,且其中所述选定的重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
2.根据权利要求1所述的方法,其中所述方法包含确定所述第一帧是所述音频信号的关键中贞。
3.根据权利要求2所述的方法,其中所述确定所述第一帧是关键帧是基于来自在所述音频信号中在所述第一帧之后的所述音频信号的帧的经编码的版本的信息。
4.根据权利要求3所述的方法,其中所述经编码的版本是所述第二帧的经编码的版本。
5.根据权利要求2到4中任 一权利要求所述的方法,其中所述确定包含比较关键性测量与关键性阈值。
6.根据权利要求5所述的方法,其中所述确定包含基于关于发射信道的状态的信息计算所述关键性阈值。
7.根据权利要求6所述的方法,其中所述计算所述关键性阈值包含: 比较基于关于所述发射信道的所述状态的所述信息的计算的值与边界值;及 响应于与所述边界值的所述比较的结果,选择所述边界值作为所述关键性阈值。
8.根据权利要求1到7中任一权利要求所述的方法,其中压缩性的所述测量指示所述第二帧的子帧当中的相关。
9.根据权利要求1到8中任一权利要求所述的方法,其中所述从所述多个重新分配候选当中选择一个候选包含比较所述决策量度的计算的值与有序的多个决策阈值中的每一者,且 其中所述有序的多个决策阈值中的每一者对应于所述多个重新分配候选当中的不同重新分配候选。
10.根据权利要求1到9中任一权利要求所述的方法,其中所述方法包括计算所述决策量度的多个值,每一值对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同中贞,且 其中所述决策量度的所述多个值中的每一者是基于所述对应帧的压缩性的测量,且其中所述方法包括基于所述决策量度的所述多个值中的至少一些从所述不同帧当中选择所述第二帧。
11.根据权利要求1到7中任一权利要求所述的方法,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的集合,且其中计算的值的所述集合中的每一者对应于所述多个重新分配候选中的不同重新分配候选。
12.根据权利要求11所述的方法,其中计算的值的所述集合中的每一者是基于与所述多个重新分配候选中的对应重新分配候选相关联的感知质量的测量。
13.根据权利要求11及12中任一权利要求所述的方法,其中压缩性的所述测量是基于来自所述第二帧的经编码的版本的信息。
14.根据权利要求11到13中任一权利要求所述的方法,其中所述至少一个计算的值是基于用于不同编码速率的所述第二帧的感知质量的测量之间的关系。
15.根据权利要求11到14中任一权利要求所述的方法,其中所述至少一个计算的值是基于(A)用于所述初始位分配的所述第二帧的压缩性的测量与(B)用于所述多个重新分配候选中的所述对应重新分配候选的所述第二帧的压缩性的测量之间的关系。
16.根据权利要求1到7中任一权利要求所述的方法,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的多个集合,所述多个集合中的每一者对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同帧,且其中在每一集合内,每一值对应于所述多个重新分配候选中的不同重新分配候选。
17.根据权利要求16所述的方法,其中在每一集合内,每一值是基于与所述多个重新分配候选中的对应重新分配候选相关联的感知质量的测量。
18.根据权利要求16及17中任一权利要求所述的方法,其中在每一集合内,每一值是基于来自对应帧的经编码的版本的信息。
19.根据权利要求16到18中任一权利要求所述的方法,其中所述方法包括基于所述多个集合中的至少一些的计算的值从所述不同帧当中选择所述第二帧。
20.根据权利要求1到19中任一权利要求所述的方法,其中所述方法包括响应于所述从所述多个重新分配候选当中选择一个候选,产生包含所述第一帧的冗余副本及所述第二帧的副本的包, 其中将所述第二帧的所述副本编码成所述第一部分,且 其中将所述冗余副本编码成所述第二部分。
21.一种用于处理音频信号的设备,所述设备包括: 用于计算在所述音频信号中在所述音频信号的第一帧之后的所述音频信号的第二帧的决策量度的至少一个值的装置;及 用于基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选的装置, 其中所述计算的至少一个值是基于所述第二帧的压缩性的测量,且 其中所述选定的重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
22.根据权利要求21所述的设备,其中所述设备包含用于确定所述第一帧是所述音频信号的关键帧的装置。
23.根据权利要求22所述的设备,其中所述确定所述第一帧是关键帧是基于来自在所述音频信号中在所述第一帧之后的所述音频信号的帧的经编码的版本的信息。
24.根据权利要求23所述的设备,其中所述经编码的版本是所述第二帧的经编码的版本。
25.根据权利要求22到24中任一权利要求所述的设备,其中所述确定包含比较关键性测量与关键性阈值。
26.根据权利要求25所述的设备,其中所述确定包含基于关于发射信道的状态的信息计算所述关键性阈值。
27.根据权利要求26所述的设备,其中所述计算所述关键性阈值包含: 比较基于关于所述发射信道的所述状态的所述信息的计算的值与边界值;及 响应于与所述边界值的所述比较的结果,选择所述边界值作为所述关键性阈值。
28.根据权利要求21到27中任一权利要求所述的设备,其中压缩性的所述测量指示所述第二帧的子帧当中的相关。
29.根据权利要求21到28中任一权利要求所述的设备,其中所述从所述多个重新分配候选当中选择一个候选包含比较所述决策量度的计算的值与有序的多个决策阈值中的每一者,且 其中所述有序的多个决策阈值中的每一者对应于所述多个重新分配候选当中的不同重新分配候选。
30.根据权利要求21到29中任一权利要求所述的设备,其中所述用于计算所述决策量度的至少一个值的装置经配置以计算所述决策量度的多个值,每一值对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同帧,且 其中所述决策量度的所述多个值中的每一者是基于所述对应帧的压缩性的测量,且 其中所述设备包括用于基于所述决策量度的所述多个值中的至少一些从所述不同帧当中选择所述第二帧的装置。
31.根据权利要求21 到27中任一权利要求所述的设备,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的集合,且其中计算的值的所述集合中的每一者对应于所述多个重新分配候选中的不同重新分配候选。
32.根据权利要求31所述的设备,其中计算的值的所述集合中的每一者是基于与所述多个重新分配候选中的对应重新分配候选相关联的感知质量的测量。
33.根据权利要求31及32中任一权利要求所述的设备,其中压缩性的所述测量是基于来自所述第二帧的经编码的版本的信息。
34.根据权利要求31到33中任一权利要求所述的设备,其中所述至少一个计算的值是基于用于不同编码速率的所述第二帧的感知质量的测量之间的关系。
35.根据权利要求31到34中任一权利要求所述的设备,其中所述至少一个计算的值是基于(A)用于所述初始位分配的所述第二帧的压缩性的测量与(B)用于所述多个重新分配候选中的所述对应重新分配候选的所述第二帧的压缩性的测量之间的关系。
36.根据权利要求21到27中任一权利要求所述的设备,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的多个集合,所述多个集合中的每一者对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同帧,且其中在每一集合内,每一值对应于所述多个重新分配候选中的不同重新分配候选。
37.根据权利要求36所述的设备,其中在每一集合内,每一值是基于与所述多个重新分配候选中的对应重新分配候选相关联的感知质量的测量。
38.根据权利要求36及37中任一权利要求所述的设备,其中在每一集合内,每一值是基于来自对应帧的经编码的版本的信息。
39.根据权利要求36到38中任一权利要求所述的设备,其中所述设备包括用于基于所述多个集合中的至少一些的计算的值从所述不同帧当中选择所述第二帧的装置。
40.根据权利要求21到39中任一权利要求所述的设备,其中所述设备包括用于响应于所述从所述多个重新分配候选当中选择一个候选产生包含所述第一帧的冗余副本及所述第二帧的副本的包的装置, 其中将所述第二帧的所述副本编码成所述第一部分,且 其中将所述冗余副本编码成所述第二部分。
41.一种用于处理音频信号的设备,所述设备包括: 经配置以计算在所述音频信号中在所述音频信号的第一帧之后的所述音频信号的第二帧的决策量度的至少一个值的计算器;及 经配置以基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选的选择器, 其中所述计算的至少一个值是基于所述第二帧的压缩性的测量,且其中所述选定的重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
42.根据权利要求41所述的设备,其中所述设备包含经配置以确定所述第一帧是所述音频信号的关键帧的 关键帧指示器。
43.根据权利要求42所述的设备,其中所述确定所述第一帧是关键帧是基于来自在所述音频信号中在所述第一帧之后的所述音频信号的帧的经编码的版本的信息。
44.根据权利要求43所述的设备,其中所述经编码的版本是所述第二帧的经编码的版本。
45.根据权利要求42到44中任一权利要求所述的设备,其中所述确定包含比较关键性测量与关键性阈值。
46.根据权利要求45所述的设备,其中所述确定包含基于关于发射信道的状态的信息计算所述关键性阈值。
47.根据权利要求46所述的设备,其中所述计算所述关键性阈值包含: 比较基于关于所述发射信道的所述状态的所述信息的计算的值与边界值;及 响应于与所述边界值的所述比较的结果,选择所述边界值作为所述关键性阈值。
48.根据权利要求41到47中任一权利要求所述的设备,其中压缩性的所述测量指示所述第二帧的子帧当中的相关。
49.根据权利要求41到48中任一权利要求所述的设备,其中所述从所述多个重新分配候选当中选择一个候选包含比较所述决策量度的计算的值与有序的多个决策阈值中的每一者,且 其中所述有序的多个决策阈值中的每一者对应于所述多个重新分配候选当中的不同重新分配候选。
50.根据权利要求41到49中任一权利要求所述的设备,其中所述计算器经配置以计算所述决策量度的多个值,每一值对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同帧,且 其中所述决策量度的所述多个值中的每一者是基于所述对应帧的压缩性的测量,且其中所述选择器经配置以基于所述决策量度的所述多个值中的至少一些从所述不同帧当中选择所述第二帧。
51.根据权利要求41到47中任一权利要求所述的设备,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的集合,且其中计算的值的所述集合中的每一者对应于所述多个重新分配候选中的不同重新分配候选。
52.根据权利要求51所述的设备,其中计算的值的所述集合中的每一者是基于与所述多个重新分配候选中的对应重新分配候选相关联的感知质量的测量。
53.根据权利要求51及52中任一权利要求所述的设备,其中压缩性的所述测量是基于来自所述第二帧的经编码的版本的信息。
54.根据权利要求51到53中任一权利要求所述的设备,其中所述至少一个计算的值是基于用于不同编码速率的所述第二帧的感知质量的测量之间的关系。
55.根据权利要求51到54中任一权利要求所述的设备,其中所述至少一个计算的值是基于(A)用于所述初始位分配的所述第二帧的压缩性的测量与(B)用于所述多个重新分配候选中的所述对应重新分配候选的所述第二帧的压缩性的测量之间的关系。
56.根据权利要求41到47中任一权利要求所述的设备,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的多个集合,所述多个集合中的每一者对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同帧,且其中在每一集合内,每一值对应于所述多个重新分配候选中的不同重新分配候选。
57.根据权利要求56所述的设备,其中在每一集合内,每一值是基于与所述多个重新分配候选中的对应重新分配候选相关联的感知质量的测量。
58.根据权利要求56及57中任一权利要求所述的设备,其中在每一集合内,每一值是基于来自对应帧的经编码 的版本的信息。
59.根据权利要求56到58中任一权利要求所述的设备,其中所述选择器经配置以基于所述多个集合中的至少一些的计算的值从所述不同帧当中选择所述第二帧。
60.根据权利要求41到59中任一权利要求所述的设备,其中所述设备包括经配置以响应于所述从所述多个重新分配候选当中选择一个候选产生包含所述第一帧的冗余副本及所述第二帧的副本的包的包组装器, 其中将所述第二帧的所述副本编码成所述第一部分,且 其中将所述冗余副本编码成所述第二部分。
61.一种具有有形特征的非暂时性计算机可读数据存储媒体,所述有形特征致使读取所述特征的机器执行根据权利要求1到20中任一权利要求所述的方法。
【文档编号】G10L19/005GK104040621SQ201280066664
【公开日】2014年9月10日 申请日期:2012年12月20日 优先权日:2012年1月12日
【发明者】维韦克·拉金德朗, 文卡特什·克里希南, 丹尼尔·J·辛德尔 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1