用于控制平均编码率的系统和方法_2

文档序号:9278246阅读:来源:国知局
始语音信号202的所产生信号相关联的码本向量。
[0041] 在一些配置中,编码器204可实施为噪声激发线性预测性(NELP)编码器。NELP编 码器可用以对分类为清音语音的帧进行译码。NELP译码在语音信号202具有极少或不具有 音调结构的情况下在信号重现方面有效地操作。更具体地说,NELP可用以对在特性上类似 于噪声的语音(例如,清音语音或背景噪声)进行编码。NELP使用经滤波伪随机噪声信号 来对清音语音进行模型化。可通过在解码器208处产生随机信号且对其应用适当增益而重 构建此类语音区段的噪声样特性。NELP可使用简单模型用于经译码语音,由此达成较低位 速率。
[0042] 在一些配置中,编码器204可实施为原型音调周期(PPP)编码器。PPP编码器可用 以对分类为浊音语音的帧进行译码。浊音语音含有由PPP编码器利用的缓慢时变周期性分 量。PPP编码器对每一帧内的音调周期的子集进行译码。通过在这些原型周期之间内插而 重构建语音信号202的其余周期。通过利用浊音语音的周期性,PPP编码器能够以感知上 准确的方式重现语音信号202。
[0043] 解码器208可包含反量化器B230、反量化器C236、反系数变换B238和合成滤 波器234。反量化器C236对滤波参数228 (例如,LSF向量)进行解量化,且反系数变换B 238将LSF向量变换成一组系数(例如,如上文参考编码器204的反量化器A218和反系数 变换A220所描述)。反量化器B230对经编码激发信号226进行解量化以产生激发信号 232。基于所述系数和激发信号232,合成滤波器234合成经解码语音信号210。换句话说, 合成滤波器234经配置以根据经解量化的系数在光谱上对激发信号232进行塑形以产生经 解码语音信号210。在一些配置中,解码器208也可将激发信号232提供到另一解码器,所 述另一解码器可使用激发信号232来导出另一频带(例如,高频带)的激发信号。在一些 实施方案中,解码器208可经配置以将关于激发信号232的额外信息(例如频谱倾斜、音调 增益和滞后以及语音模式)提供到另一解码器。
[0044] 编码器204和解码器208的系统为合成式分析语音编解码器的基本实例。码本激 发线性预测译码为合成式分析译码的一个流行家族。此类译码器的实施方案可执行残余 的波形编码,包含例如从固定和自适应性码本选择输入项、错误最小化操作和/或感知加 权操作的操作。合成式分析译码的其它实施方案包含码激发线性预测(CELP)、混合激发线 性预测(MELP)、ACELP、宽松CELP(RCELP)、规则脉冲激发(RPE)、多脉冲激发(MPE)、多脉冲 CELP(MP-CELP),和向量总和激发线性预测(VSELP)译码。相关译码方法包含多频带激发 (MBE)和原型波形内插(PWI)译码。标准化合成式分析语音编解码器的实例包含ETSI(欧 洲电信标准协会)-GSM全速率编解码器(GSM06. 10)(其使用残余激发线性预测(RELP))、GSM增强型全速率编解码器(ETSI-GSM06. 60)、ITU(国际电信联盟)标准11. 8kbps G. 729AnnexE译码器、用于IS-136(时分多址方案)的IS(临时标准)-641编解码器、GSM 自适应性多速率(GSM-AMR)编解码器和4GV?(第四代Vocoder?)编解码器(QUALCOMM公 司,加利福尼亚州圣地牙哥)。可根据这些技术中的任一者或将语音信号表示为(A)描述滤 波器的一组参数和(B)用以驱动所述滤波器以重现所述语音信号202的激发信号的任何其 它语音译码技术(不管已知或是待开发)来实施编码器204和对应解码器208。
[0045] 甚至在分析滤波器222已从语音信号202去除粗糙的频谱包封之后,大量精细谐 波结构仍可保留,对于浊音语音尤其如此。周期性结构与音调有关,且由相同说话者说出的 不同浊音声音可具有不同共振峰结构但具有类似的音调结构。
[0046] 可通过使用一或多个参数值对音调结构的特性进行编码来提高译码效率和/或 语音质量。音调结构的一个重要特性为第一谐波的频率(也称为基本频率),其通常在60 赫兹(Hz)到400Hz的范围内。此特性通常编码为基本频率的倒数,也称为音调滞后。音调 滞后指示一个音调周期中的样本的数目,且可编码为一或多个码本索引。来自男性说话者 的语音信号倾向于比来自女性说话者的语音信号具有更大音调滞后。
[0047]与音调结构相关的另一信号特性为周期性,其指示谐波结构的强度,或换句话说, 信号为谐波或非谐波的程度。周期性的两个典型指示项为零交叉和正规化从相关函数 (NACF)。也可通过音调增益来指示周期性,音调增益通常编码为码本增益(例如,经量化自 适应性码本增益)。
[0048] 编码器204可包含经配置以对语音信号202的长期谐波结构进行编码的一或多个 模块。在CELP编码的一些方法中,编码器204包含开环LPC分析模块,其对短期特性或粗糙 的频谱包封进行编码,随后为闭环长期预测分析阶段,其对精细音调或谐波结构进行编码。 短期特性被编码为系数(例如,滤波参数228),且长期特性被编码为例如音调滞后和音调 增益的参数的值。例如,编码器204可经配置而以包含一或多个码本索引(例如,固定码本 索引和自适应性码本索引)和对应增益值的形式输出经编码激发信号226。残余信号的此 经量化表示的计算(例如,通过量化器B224)可包含选择这些索引和计算这些值。音调结 构的编码也可包含音调原型波形的内插,其操作可包含计算连续音调脉冲之间的差。对于 对应于清音语音的帧(其通常为噪声样且非结构化的)可停用长期结构的模型化。
[0049] 解码器208的一些实施方案可经配置以在已恢复长期结构(音调或谐波结构)之 后将激发信号232输出到另一解码器(例如,高频带解码器)。例如,此类解码器可经配置 以输出激发信号232作为经编码激发信号226的经解量化的版本。当然,也有可能实施解 码器208使得另一解码器执行经编码激发信号226的反量化以获得激发信号232。
[0050] 本文中所揭示的系统和方法提供用于控制平均编码率的方法。例如,本文中所揭 示的系统和方法的一些配置提供对基于原型音调周期(PPP)的语音编码系统的开环和/或 闭环平均编码率控制。为了清楚起见,对出现于已知可变速率编码系统中的一些问题的解 释给出如下。
[0051] 在可变速率语音编码系统中,利用对平均编码率(例如,平均位速率、平均数据速 率(ADR)等)的控制来维持所要能力。在基于PPP的语音编码系统中,可通过控制四分 之一速率帧(例如,PPP和/或NELP)帧来达成此操作。例如,增强型可变速率编解码器 B(EVRC-B)规范强加操作点,所述操作点的操作位速率比所要平均编码率低。四分之一速 率PPP帧中的一些可在全速率帧中发送,直到平均编码率基于最后N个语音帧增大到所要 速率。例如,在EVRC-B规范中,N= 600个帧。
[0052]可通过设定例如QFF、QQF(其中Q表示四分之一速率PPP帧,且F表示全速率帧) 的PPP和全速率帧型样而选择操作模式。在此设定中,最低速率取决于产生最高PPP帧率 的型样。然而,增加相连PPP帧可导致合成波形从原始波形漂移。此情形具有产生语音伪 声的可能性。
[0053] 在EVRC-B规范中,基于PPP的编码系统与称为"提高方案(bump-upscheme) "的 拒绝机制相关联。明确地说,即使开环决策作出过程将特定帧分类为PPP帧,提高机制仍可 能改变开环决策,其中将使用全速率对所述帧进行量化。例如,编码器进行一组检查以验证 给定帧是否适合PPP译码模式。编码器对照一组阈值检查在此过程中计算的一组参数。这 些阈值称为"提高"阈值。如果"提高"发生,那么使用较高速率对给定帧进行编码。此增 大平均数据速率。因此,增加PPP帧可能并不始终将速率减小到所要较低速率。
[0054]甚至当设定某一操作点时,最后N个帧(例如,600个帧)期间的平均速率仍可高 度可变。因此,基于过去的N个帧将Q帧改变为F帧可能并不导致所要平均编码率。因此, 在速率控制过程中可考虑测量长期平均速率。因此,从一个操作点改变到下一个最积极的 操作点以控制平均速率在一些情况下(例如,对于一些语言、在一些嘈杂环境中等)可能并 不将速率减小到所要等级。在实验中,发现使用Q和F帧型样QFF产生最佳质量语音,这是 因为两个F帧提供足够时间来自归因于四分之一速率编码的相位对准错误复原。
[0055] 与基于PPP的可变速率语音译码系统中的速率控制相关联的一些潜在问题给出 如下。甚至最积极的Q和F型样仍可能归因于语音特性和提高机制而不产生所要平均编码 率。强加最积极的速率控制型样可能引起语音伪声。过去N个帧的平均速率可能并不良好 地表示接下来的N个帧。相连N个帧期间的速率可高度可变。
[0056] 图3为说明电子装置340的一个配置的框图,在所述电子装置340中可实施用于 控制平均编码率的系统和方法。电子装置340的实例包含智能型手机、移动电话、固定电 话、耳机、桌上型计算机、膝上型计算机、电视、游戏系统、音频记录器、摄录影机、静态相机、 汽车控制台等。电子装置340可包含编码率控制器342、成帧和预处理模块350、选择器354a 到354b和/或一或多个编码器356a到356n。电子装置340的组件中的一或多者可以硬 件、软件或两者的组合加以实施。例如,编码率控制器342可以硬件(例如,电路)、软件或 两者的组合加以实施。应注意,本文中的框图中的线或箭头可表示组件或元件之间的耦合。 例如,编码率控制器342可耦合到成帧和预处理模块350。
[0057] 电子装置340获得语音信号348。例如,电子装置340可用一或多个麦克风捕获语 音信号348和/或可从另一装置(例如,蓝牙耳机)接收语音信号348。语音信号348可提 供到成帧和预处理模块350。
[0058]成帧和预处理模块350可将语音信号348划分成一系列帧。每一帧可为一特定时 段。例如,每一帧可对应于语音信号348的20ms。成帧和预处理模块350可对语音信号348 执行其它操作,例如噪声抑制和滤波(例如,低通、高通和带通滤波中的一或多者)。因此, 成帧和预处理模块350可产生经预处理的语音信号362。
[0059] 在一些配置中,成帧和预处理模块350包含度量确定模块360。度量确定模块360 可基于语音信号348确定度量352。例如,度量确定模块360可基于语音信号348的帧确定 信噪比(SNR)。度量352 (例如,SNR)可提供到编码率控制器342。
[0060] 编码率控制器342可控制平均编码率。平均编码率为基于数个帧上的平均值的经 编码语音信号364的位速率(例如,以千位/秒(kbps)计)。编码率控制器342可通过试 图使平均编码率匹配目标速率而控制平均编码率。目标速率可指定经编码语音信号364的 所要位速率。可从另一装置(例如,基站)接收或可预先确定目标速率。
[0061] 编码率控制器342可通过选择编码器356a到356n来对经预处理的语音信号362 的帧进行编码来控制平均编码率。例如,编码率控制器342可将编码率指示符366提供到 选择器354a到354b。编码率指示符366指定特定编码器356、速率和/或帧类型。选择器 354a到354b可针对如由编码率指示符366指示的每一帧将经预处理的语音信号362投送 到编码器356。
[0062] 编码器356a到356n中的每一者可基于经预处理的语音信号362产生经编码语音 信号364。可根据上文所述的编码器104、204中的一或多者实施编码器356a到356n中的 一或多者。编码器356a到356n的实例包含PPP编码器、NELP编码器、CELP编码器(例如, ACELP编码器)等。编码器356a到356n中的一或多者可将编码信息358提供到编码率控 制器342。编码信息358的实例包含经编码波形、错误度量(例如,振幅错误度量)、频带增 益改变度量(例如,低频带增益改变度量)和用以对帧(例如,第n帧)进行编码的帧编码 率。例如,编码率控制器342可利用速率信息来计算一或多个平均速率。
[0063] 每一编码器356a到356n可以特定编码率产生经编码语音信号364。如本文所使 用,术语"高速率编码器"和其变化可表示按比目标速率高的位速率产生经编码语音信号的 编码器。此外,术语"低速率编码器"和其变化可表示按比目标速率低的位速率产生经编码 语音信号的编码器。
[0064] 每一编码器356a到356n可用以对一或多个帧类型进行编码。例如,可基于对应 于每一帧的语音信号348来根据帧类型对帧进行分类。在一些配置中,编码率控制器342 可确定每一帧为"浊音帧"、"清音帧"或是其它帧(例如,静默帧、暂态帧、停机暂态帧(down transientframe)等)。池音帧可展现发声特性(例如,较多低频带能量、较高SNR等)。 清音帧可展现噪声特性(例如,较多高频带能量、较低SNR等)。暂态帧可为在清音或静默 帧与浊音帧之间出现的帧。因此,编码率控制器342可基于一或多个阈值和/或一或多个 因素(例如,SNR、零交叉率、频带能量比率等)来确定帧类型。可由一或多个编码器356a 到356n以一或多个编码率对每一帧类型进行编码。由高速率编码器356编码的帧可称为 "高速率帧",且由低速率编码器356编码的帧可称为"低速率帧"。例如,编码率高于目标速 率的帧可为"高速率帧",且编码率低于目标速率的帧可为"低速率帧"。
[0065] 在一个实例中,假定编码器356a到356n包含四分之一速率PPP(QPPP)编码 器、NELP编码器和两个ACELP编码器。进一步假定目标速率为5. 9kbps。QPPP编码器可 以2. 8kbps的编码率对一些浊音帧(例如,浊音低速率帧)进行编码。NELP编码器可以 2. 8kbps的编码率对清音帧进行编码。因此,在此实例中,QPPP编码器和NELP编码器为低 速率编码器。一个ACELP编码器(例如,"浊音"ACELP编码器)可以7. 2kbps的编码率对 一些浊音帧(例如,浊音高速率帧)进行编码。另一ACELP编码器(例如,"过渡"ACELP编 码器)可以8. 0kb
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1