用于减低潜在的帧不稳定性的系统和方法

文档序号：9278243阅读：244来源：国知局

用于减低潜在的帧不稳定性的系统和方法
【专利说明】
[0001] 相关申请案
[0002] 本申请案与2013年2月21日申请的美国临时专利申请案第61/767, 431号"用于校正潜在线谱频率不稳定性的系统和方法（SYSTEMSANDMETHODSFORCORRECTINGA POTENTIALLINESPECTRALFREQUENCYINSTABILITY)" 有关且主张其优先权。
技术领域
[0003] 本发明大体上涉及电子装置。更具体地说，本发明涉及用于减低潜在的帧不稳定性的系统和方法。
【背景技术】
[0004] 最近几十年中，电子装置的使用已变得普遍。明确地说，电子技术的进展已降低了愈加复杂且有用的电子装置的成本。成本降低和消费者需求已使电子装置的使用剧增，使得其在现代社会中几乎随处可见。由于电子装置的使用已推广开来，因此具有对电子装置的新的且改善的特征的需求。更具体地说，人们常常寻求执行新功能和/或更快、更高效且以更高质量执行功能的电子装置。
[0005] 一些电子装置（例如，移动电话、智能型手机、音频记录器、摄录影机、计算机等）利用音频信号。这些电子装置可编码、存储和/或发射音频信号。例如，智能型手机可获得、编码和发射用于电话呼叫的语音信号，同时另一智能型手机可接收所述语音信号并对其进行解码。
[0006] 然而，在音频信号的编码、发射和解码中存在特定挑战。例如，音频信号可经编码以便减小发射所述音频信号所需的频宽量。当音频信号的一部分在传输中丢失时，可能难以呈现准确地解码的音频信号。从此论述可了解，改善解码的系统和方法可为有益的。

【发明内容】

[0007] 描述一种用于通过一电子装置减低潜在的帧不稳定性的方法。所述方法包含获得在时间上在被抹除帧之后的帧。所述方法也包含确定所述帧是否潜在地不稳定。所述方法进一步包含在所述帧潜在地不稳定的情况下应用替代加权值以产生稳定帧参数。所述帧参数可为帧中间线谱频率向量。所述方法可包含应用所接收的加权向量来产生当前帧中间线谱频率向量。
[0008] 所述替代加权值可在0与1之间。产生所述稳定帧参数可包含将所述替代加权值应用于当前帧末端线谱频率向量和先前帧末端线谱频率向量。产生所述稳定帧参数可包含确定替代当前帧中间线谱频率向量，所述替代当前帧中间线谱频率向量等于当前帧末端线谱频率向量与所述替代加权值的乘积加上先前帧末端线谱频率向量与1减所述替代加权值的差的乘积。所述替代加权值可基于两个帧的分类和所述两个帧之间的线谱频率差中的至少一者加以选择。
[0009] 确定所述帧是否潜在地不稳定可基于当前帧中间线谱频率在任何重排序之前是否是根据规则进行排序。确定所述帧是否潜在地不稳定可基于所述帧是否在所述被抹除帧之后的阈值数目个帧内。确定所述帧是否潜在地不稳定可基于所述帧与所述被抹除帧之间的任何帧是否利用非预测性量化。
[0010] 也描述一种用于减低潜在的帧不稳定性的电子装置。所述电子装置包含帧参数确定电路，所述帧参数确定电路获得在时间上在被抹除帧之后的帧。所述电子装置也包含耦合到所述帧参数确定电路的稳定性确定电路。所述稳定性确定电路确定所述帧是否潜在地不稳定。所述电子装置进一步包含耦合到所述稳定性确定电路的加权值替代电路。所述加权值替代电路在所述帧潜在地不稳定的情况下应用替代加权值以产生稳定帧参数。
[0011] 也描述一种用于减低潜在的帧不稳定性的计算机程序产品。所述计算机程序产品包含具有指令的非暂时性有形计算机可读媒体。所述指令包含用于使电子装置获得在时间上在被抹除帧之后的帧的代码。所述指令也包含用于使所述电子装置确定所述帧是否潜在地不稳定的代码。所述指令进一步包含用于使所述电子装置在所述帧潜在地不稳定的情况下应用替代加权值以产生稳定帧参数的代码。
[0012] 也描述一种用于减低潜在的帧不稳定性的设备。所述设备包含用于获得在时间上在被抹除帧之后的帧的装置。所述设备也包含用于确定所述帧是否潜在地不稳定的装置。所述设备进一步包含用于在所述帧潜在地不稳定的情况下应用替代加权值以产生稳定帧参数的装置。
【附图说明】
[0013] 图1为说明编码器和解码器的通用实例的框图；
[0014] 图2为说明编码器和解码器的基本实施方案的实例的框图；
[0015] 图3为说明宽带语音编码器和宽带语音解码器的实例的框图；
[0016] 图4为说明编码器的更特定实例的框图；
[0017] 图5为说明随时间推移的帧的实例的图；
[0018] 图6为说明用于通过编码器对语音信号进行编码的方法的一个配置的流程图；
[0019] 图7为说明线谱频率（LSF)向量确定的实例的图；
[0020] 图8包含说明LSF内插和外插的实例的两个图；
[0021] 图9为说明用于通过解码器对经编码语音信号进行解码的方法的一个配置的流程图；
[0022] 图10为说明群集LSF维度的一个实例的图；
[0023] 图11为说明归因于群集LSF维度的伪声的实例的曲线图；
[0024] 图12为说明经配置以用于减低潜在的帧不稳定性的电子装置的一个配置的框图；
[0025] 图13为说明用于减低潜在的帧不稳定性的方法的一个配置的流程图；
[0026] 图14为说明用于减低潜在的帧不稳定性的方法的更特定配置的流程图；
[0027] 图15为说明用于减低潜在的帧不稳定性的方法的另一更特定配置的流程图；
[0028] 图16为说明用于减低潜在的帧不稳定性的方法的另一更特定配置的流程图；
[0029] 图17为说明合成语音信号的实例的曲线图；
[0030] 图18为说明无线通信装置的一个配置的框图，在所述无线通信装置中可实施用于减低潜在的帧不稳定性的系统和方法；和
[0031] 图19说明可用于电子装置中的各种组件。
【具体实施方式】
[0032] 现参考诸图描述各种配置，在诸图中，相似参考数字可指示功能上类似的元件。可以多种不同配置来布置和设计如诸图中所大体描述和说明的系统和方法。因此，对如诸图中所表示的若干配置的以下更详细描述并不希望限制如所主张的范围，而仅表示系统和方法。
[0033] 图1为说明编码器104和解码器108的通用实例的框图。编码器104接收语音信号102。语音信号102可为在任何频率范围中的语音信号。例如，语音信号102可为具有0千赫兹（kHz)到24kHz的大致频率范围的全频带信号、具有0kHz到16kHz的大致频率范围的超宽带信号、具有0kHz到8kHz的大致频率范围的宽带信号、具有0kHz到4kHz的大致频率范围的窄频信号、具有50赫兹（Hz)到300Hz的大致频率范围的低频信号或具有 4kHz到8kHz的大致频率范围的高频信号。语音信号102的其它可能频率范围包含300Hz 到3400Hz(例如，公众交换电话网络（PSTN)的频率范围）、14kHz到20kHz、16kHz到20kHz 和16kHz到32kHz。在一些配置中，语音信号102可以16kHz进行采样，且可具有0kHz到 8kHz的大致频率范围。
[0034] 编码器104对语音信号102进行编码以产生经编码语音信号106。大体来说，经编码语音信号106包含表示语音信号102的一或多个参数。所述参数中的一或多者可经量化。所述一或多个参数的实例包含滤波参数（例如，加权因数、线谱频率（LSF)、线谱对（LSP)、导抗谱频率（ISF)、导抗谱对（ISP)、部分相关（PARC0R)系数、反射系数和/或对数面积比率值（log-area-ratiovalue)等），和包含于经编码激发信号中的参数（例如，增益因数、自适应性码本索引、自适应性码本增益、固定码本索引和/或固定码本增益等）。所述参数可对应于一或多个频带。解码器108对经编码语音信号106进行解码以产生经解码语音信号110。例如，解码器108基于包含于经编码语音信号106中的一或多个参数而构建经解码语音信号110。经解码语音信号110可为原始语音信号102的大致重现。
[0035] 编码器104可以硬件（例如，电路）、软件或两者的组合加以实施。例如，编码器 104可实施为专用集成电路（ASIC)或具有指令的处理器。类似地，解码器108可以硬件（例如，电路）、软件或两者的组合加以实施。例如，解码器108可实施为专用集成电路（ASIC) 或具有指令的处理器。编码器104与解码器108可实施于单独电子装置上或相同电子装置上。
[0036] 图2为说明编码器204和解码器208的基本实施方案的实例的框图。编码器204 可为结合图1描述的编码器104的一个实例。编码器204可包含分析模块212、系数变换 214、量化器A216、反量化器A218、反系数变换A220、分析滤波器222和量化器B224。编码器204和/或解码器208的组件中的一或多者可以硬件（例如，电路）、软件或两者的组合加以实施。
[0037] 编码器204接收语音信号202。应注意，语音信号202可包含如上文结合图1所述的任何频率范围（例如，语音频率的整个频带或语音频率的子频带）。
[0038] 在此实例中，分析模块212将语音信号202的频谱包封编码为一组线性预测（LP) 系数（例如，分析滤波器系数A(z)、其可应用于产生全极滤波器1/A(z)，其中z为复数(complexnumber))。分析模块212通常将输入信号作为语音信号202的一系列非重叠帧处理，其中针对每一帧或子帧计算一组新系数。在一些配置中，帧周期可为可预期语音信号 202在其内在本地静止的周期。帧周期的一个常见实例为20毫秒（ms)(例如，在8kHz的采样率下等效于160个样本）。在一个实例中，分析模块212经配置以计算一组十个线性预测系数来表征每一 20ms帧的共振峰结构。也有可能实施分析模块212以将语音信号202作为一系列重叠帧处理。
[0039] 分析模块212可经配置以直接分析每一帧的样本，或可首先根据开窗函数（例如，汉明窗（Hammingwindow))来对样本进行加权。也可在大于帧的窗（例如30ms窗）内执行分析。此窗可为对称的（例如，5-20-5,使得其紧接20毫秒帧之前和之后包含5毫秒）或不对称的（例如，10-20,使得其包含前一帧之后10毫秒）。分析模块212通常经配置以使用列文逊-杜宾（Levinson-Durbin)递回或勒鲁-盖恩（Leroux-Gueguen)算法来计算线性预测系数。在另一实施方案中，分析模块可经配置以针对每一帧计算一组倒频谱系数而非一组线性预测系数。
[0040] 通过量化所述系数，编码器204的输出速率可显著减小，而对重现质量具有相对较小的影响。线性预测系数难以高效地量化，且通常映射到例如LSF的另一表示以用于量化和/或熵编码。在图2的实例中，系数变换214将系数的组变换成对应LSF向量（例如，一组LSF维度）。系数的其它一对一表示包含LSP、PARC0R系数、反射系数、对数面积比率值、ISP和ISF。例如，ISF可用于GSM(全球移动通信系统）、AMR-WB(自适应性多速率宽带）编解码器中。为方便起见，术语"线谱频率"、"LSF维度"、"LSF向量"和相关术语可用以指LSF、LSP、ISF、ISP、PARC0R系数、反射系数和对数面积比率值中的一或多者。通常，一组系数与对应LSF向量之间的变换是可逆的，但一些配置可包含其中变换不可逆而无错误的编码器204实施方案。
[0041] 量化器A216经配置以量化LSF向量（或其它系数表示）。编码器204可输出此量化的结果作为滤波参数228。量化器A216通常包含向量量化器，所述向量量化器将输入向量（例如，LSF向量）编码为对表或码本中的对应向量条目的索引。
[0042] 如图2中所见，编码器204也通过使语音信号202传递经过根据系数的集合加以配置的分析滤波器222 (也称为白化或预测错误滤波器）而产生残余信号。分析滤波器 222可实施为有限脉冲响应（FIR)滤波器或无限脉冲响应（IIR)滤波器。此残余信号将通常含有未表示于滤波参数228中的语音帧的对感知重要的信息，例如与音调相关的长期结构。量化器B224经配置以计算此残余信号的经量化表示用于作为经编码激发信号226而输出。在一些配置中，量化器B224包含向量量化器，所述向量量化器将输入向量编码为表或码本中的对应向量条目的索引。另外或替代地，量化器B224可经配置以发送一或多个参数，向量可在解码器处从所述一或多个参数动态地加以产生，而非如在稀疏码本方法中从存储装置检索。此类方法用于例如代数CELP(码激发线性预测）的译码方案和例如 3GPP2(第三代合作伙伴2)EVRC(增强型可变速率编解码器）的编解码器中。在一些配置中，经编码激发信号226和滤波参数228可包含于经编码语音信号106中。
[0043] 编码器204根据对应解码器208将可获得的相同滤波器参数值来产生经编码激发信号226可为有益的。以此方式，所得经编码激发信号226可在一定程度上解决那些参数值中的非理想性，例如，量化错误。因此，使用将在解码器208处可用的相同系数值来配置分析滤波器222可为有益的。在如图2中所说明的编码器204的基本实例中，反量化器A 218对滤波参数228进行解量化。反系数变换A220将所得值映射回到一组对应系数。此组系数用以配置分析滤波器222以产生通过量化器B224量化的残余信号。
[0044] 编码器204的一些实施方案经配置以通过识别在一组码本向量当中最佳地匹配残余信号的一个码本向量来计算经编码激发信号226。然而，应注意，编码器204也可经实施以计算残余信号的经量化表示而不实际上产生所述残余信号。例如，编码器204可经配置以使用数个码本向量产生对应合成信号（例如，根据一组当前滤波参数）且选择与最佳地匹配感知加权域中的原始语音信号202的所产生信号相关联的码本向量。
[0045] 解码器208可包含反量化器B230、反量化器C236、反系数变换B238和合成滤波器234。反量化器C236对滤波参数228 (例如，LSF向量）进行解量化，且反系数变换B 238将LSF向量变换成一组系数（例如，如上文参考编码器204的反量化器A218和反系数变换A220所描述）。反量化器B230对经编码激发信号226进行解量化以产生激发信号 232。基于所述系数和激发信号232,合成滤波器234合成经解码语音信号210。换句话说，合成滤波器234经配置以根据经解量化的系数在光谱上对激发信号232进行塑形以产生经解码语音信号210。在一些配置中，解码器208也可将激发信号232提供到另一解码器，所述另一解码器可使用激发信号232来导出另一频带（例如，高频带）的激发信号。在一些实施方案中，解码器208可经配置以将关于激发信号232的额外信息（例如频谱倾斜、音调增益和滞后以及语音模式）提供到另一解码器。
[0046] 编码器204和解码器208的系统为合成式分析语音编解码器的基本实例。码本激发线性预测译码为合成式分析译码的一个流行家族。此类译码器的实施方案可执行残余的波形编码，包含例如从固定和自适应性码本选择输入项、错误最小化操作和/或感知加权操作的操作。合成式分析译码的其它实施方案包含混合激发线性预测（MELP)、代数CELP(ACELP)、松弛CELP(RCELP)规则脉冲激发（RPE)、多脉冲激发（MPE)、多脉冲 CELP(MP-CELP)，和向量总和激发线性预测（VSELP)译码。相关译码方法包含多频带激发 (MBE)和原型波形内插（PWI)译码。标准化合成式分析语音编解码器的实例包含ETSI(欧洲电信标准协会）_GSM全速率编解码器（GSM06. 10)(其使用残余激发线性预测（RELP))、GSM 增强型全速率编解码器（ETSI-GSM06. 60)、ITU(国际电信联盟）标准11. 8千位/秒（kbps) G. 729AnnexE译码器、用于IS-136(时分多址方案）的IS(临时标准）-641编解码器、GSM 自适应性多速率（GSM-AMR)编解码器和4GV?(第四代Vocoder?)编解码器（QUALCOMM公司，加利福尼亚州圣地牙哥）。可根据这些技术中的任一者或将语音信号表示为（A)描述滤波器的一组参数和（B)用以驱动所述滤波器以重现所述语音信号的激发信号的任何

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏巴辛格哈·夏敏达·苏巴辛格哈;文卡特什·克里希南;维韦克·拉金德朗;
技术所有人：高通股份有限公司;
我是此专利的发明人