自适应编码浊音语音的基音周期的制作方法

文档序号：2825835阅读：224来源：国知局

自适应编码浊音语音的基音周期的制作方法
【专利摘要】本发明提供了用于双重模式基音周期编码的系统和方法实施例。所述系统和方法实施例用于根据基音周期长度、稳定性或两者使用一个或两个基音周期编码模式对浊音语音信号的基音周期进行自适应编码。所述两种基音周期编码模式包括具有相对较高的精确度和较小的动态范围的第一基音周期编码模式以及具有相对较大的基音周期动态范围和较低的精确度的第二基音周期编码模式。在确定所述浊音语音信号具有相对较短或相当稳定的基音周期之后，使用所述第一基音周期编码模式。在确定所述浊音语音信号具有相对较长或稳定性较差的基音周期或是相当嘈杂的信号之后，使用所述第二基音周期编码模式。
【专利说明】自适应编码浊音语音的基音周期
[0001] 本发明要求2012年12月21日递交的发明名称为"自适应编码浊音语音的基音周期（Adaptively Encoding Pitch Lag For Voiced Speech)" 的第 13/724700 号美国非临时专利申请案的在先申请优先权，该在先申请案要求2011年12月21日递交的发明名称为"自适应编码池音语音的基音周期（Adaptively Encoding Pitch Lag For Voiced Speech) "的第61/578391号美国临时专利申请案的在先申请优先权，以上在先申请的内容以引入的方式并入本文本中

【技术领域】
[0002] 本发明大体涉及信号编码领域，且在特定实施例中，涉及一种用于对浊音语音的基音周期进行编码的系统和方法。

【背景技术】
[0003] 传统来讲，参数化语音编码方法都是利用语音信号本身的冗余，来减少待发送的信息量，并估算一个信号的语音样本在短时段内的参数。这种冗余起因于语音波形周期性的重复和语音信号的频谱包络慢变过程。不同形式的语音波形的冗余对应于不同类型的语音信号，例如浊音和清音。就浊音语音而言，语音信号基本上是周期性的。然而，这种周期性在语音段中是变化的，而且周期波形在语音段之间缓慢变化。低比特率的语音编码可以很大地受益于这种周期性。浊音语音周期还称为基音周期，这种基音周期预测通常被命名为长期预测（LTP)。至于清音，其信号更像是一个随机噪声，可预测性也较小。

【发明内容】

[0004] 根据实施例，一种由语音/音频编码装置实施的双重模式基音周期编码方法包括，根据基音周期长度、稳定性或两者，使用两种基音周期编码模式中的一种对一个浊音语音信号中一帧的多个子帧的基音周期进行编码。所述两种基音周期编码模式包括第一种基音周期编码模式和第二种基音周期编码模式，其中第一种基音周期编码模式具有相对较高的基音周期编码精确度和较小的动态范围，而第二种基音周期编码模式具有相对较大的基音周期动态范围和较低的编码精确度。
[0005] 根据另一实施例，一种由语音/音频编码装置实施的双重模式基音周期编码的方法包括，确定一个浊音语音信号是否具有相对较短的基音周期和相当稳定的基音周期中的一个或者具有相对较长的基音周期和相对稳定性较差的基音周期中的一个或者是一个相当嘈杂的信号。所述方法进一步包括，在确定所述浊音语音信号具有相对较短的或相当稳定的基音周期之后，对所述具有相对较高的基音周期精确度和较小的动态范围的浊音语音信号的基音周期进行编码，或者在确定所述浊音语音信号具有相对较长的或稳定性较差的基音周期或者是一个相当嘈杂的信号之后，对所述具有相对较大的基音周期动态范围和较低的精确度的浊音语音信号的基音周期进行编码。
[0006] 在又一实施例中，一种支持双重模式基音周期编码的装置，包括一个处理器和一个存储由所述处理器执行的程序的计算机可读存储介质。所述程序包括多个指令，以确定浊音语音信号是否具有相对较短的基音周期和相当稳定的基音周期中的一个或者具有相对较长的基音周期和相对稳定性较差的基音周期中的一个或者是否是一个相对嘈杂的信号；以及在确定所述浊音语音信号具有相对较短的或相当稳定的基音周期之后，对具有相对较高的精确度和较小的动态范围的浊音语音信号的基音周期进行编码；或在确定所述浊音语音信号具有相对较长的或稳定性较差的基音周期或者是相对嘈杂的信号之后，对具有相对较大的动态范围和较低的精确度的浊音语音信号的基音周期进行编码。

【专利附图】

【附图说明】
[0007] 为了更完整地理解本发明及其优点，现在参考以下结合附图进行的描述，其中：
[0008] 图1是码激励线性预测技术（CELP)编码器的方框图。
[0009] 图2是对应于图1中的CELP编码器的解码器的方框图。
[0010] 图3是另一具有自适应分量的CELP编码器的方框图。
[0011] 图4是另一对应于图3中的CELP编码器的解码器的方框图。
[0012] 图5是基音周期小于子帧大小和半帧大小的浊音语音信号的示例。
[0013] 图6是基音周期大于子帧大小而小于半帧大小的浊音语音信号的示例。
[0014] 图7示出了浊音语音信号的频谱的示例。
[0015] 图8示出了图7中的经过双倍基音周期编码的相同信号的频谱的示例。
[0016] 图9示出了用于对浊音语音的基音周期进行双重模式的自适应编码的实施例方法。
[0017] 图10是可用于实施各种实施例的处理系统的方框图。

【具体实施方式】
[0018] 下文将详细论述当前优选实施例的制作和使用。然而，应了解，本发明提供可在各种具体上下文中体现的许多适用的发明性概念。所论述的具体实施例仅仅说明用以实施和使用本发明的具体方式，而不限制本发明的范围。
[0019] 针对浊音或清音，参数编码通过分割频谱包络分量和语音信号的激励分量来减少语音段的冗余。频谱包络慢变过程可以被描述成线性预测编码（LPC)，也称为短期预测 (STP)。低比特率的语音编码也同样受益于短期预测。这种编码的优点就来自于参数的慢速变化。进一步地，语音信号参数值可能不会在几毫秒内有很大不同。在8千赫兹（kHz)、 12. 8kHz或16kHz采样率时，语音编码算法将10毫秒至30毫秒范围内的语音段作为常用的帧长。而20毫秒是最常用的帧长。在G. 723. 1、G. 729、G. 718、EFR、SMV、AMR、VMR-WB或 AMR-WB等较近期的知名国际标准中已经采用了码激励线性预测技术（CELP)。CELP是一种编码激励、长期预测和短期预测技术的结合。尽管不同编解码器的CELP细节可能显著不同，但利用CELP的语音编码算法在语音压缩领域已经相当流行。
[0020] 图1示出了 CELP编码器100的示例，其中利用综合分析方法可以最小化合成语音信号102和原始语音信号101之间的加权误差109。CELP编码器100执行不同的操作或功能。对应的函数W(z)通过误差加权滤波器110实现。函数1/B(z)通过长期线性预测滤波器105实现。函数1/A(z)通过短期线性预测滤波器103实现。来自编码激励块108的编码激励107,也称为固化码本激励，在通过随后滤波器之前乘以增益GJ06调节。短期线性预测滤波器103通过分析原始信号101实施并由一组系数表示：
[0021]

【权利要求】
1. 一种由语音或音频编码装置实施的双重模式基音周期编码的方法，其特征在于，所述方法包括：根据基音周期长度、稳定性或两者，使用两种基音周期编码模式中的一种对一个浊音语音信号中一帧的多个子帧的基音周期进行编码，其中所述两种基音周期编码模式包括第一种基音周期编码模式和第二种基音周期编码模式，所述第一种基音周期编码模式具有相对较高的基音周期编码精确度和较小的动态范围，所述第二种基音周期编码模式具有相对较大的基音周期动态范围和较低的精确度。
2. 根据权利要求1所述的方法，其特征在于，所述第一基音周期编码模式用于对具有相对较短或相当稳定的基音周期进行编码，以及所述第二基音周期编码模式用于对具有相对较长或稳定性相对较差的或者是相当嘈杂的信号的基音周期进行编码。
3. 根据权利要求1所述的方法，其特征在于，相比于传统的码激励线性预测技术CELP 算法，以具有相对较高的精确度和较小的动态范围或具有相对较大的动态范围和较低的精确度对基音周期进行编码。
4. 根据权利要求1所述的方法，其特征在于，进一步包括，相比于传统的码激励线性预测技术CELP算法，使用较少的比特对基音周期进行编码。
5. 根据权利要求1所述的方法，其特征在于，所述浊音语音信号的编码具有相对较低的比特率，其小于或等于16千比特每秒kbps。
6. -种由语音或音频编码装置实施的双重模式基音周期编码的方法，其特征在于，所述方法包括：确定浊音语音信号是否具有相对较短的基音周期和相当稳定的基音周期中的一个或相对较长的基音周期和稳定性相对较差的基音周期中的一个或是相当嘈杂的信号；以及在确定所述浊音语音信号具有相对较短的或相当稳定的基音周期之后，对所述具有相对较高的基音周期精确度和较小的动态范围的浊音语音信号的基音周期进行编码，或者在确定所述浊音语音信号具有相对较长的或稳定性较差的基音周期或者是一个相当嘈杂的信号之后，对所述具有相对较大的基音周期动态范围和较低的精确度的浊音语音信号的基音周期进行编码。
7. 根据权利要求6所述的方法，其特征在于，进一步包括：在确定所述浊音语音信号具有相对较短的或相当稳定的基音周期之后，在对所述基音周期进行编码中指示第一基音周期编码模式具有相对较高的精确度和较小的动态范围，或者在确定所述浊音语音信号具有相对较长的或稳定性较差的基音周期或者是一个相当嘈杂的信号之后，指示第二基音周期编码模式具有相对较大的动态范围和较低的精确度。
8. 根据权利要求7所述的方法，其特征在于，所述第一基音周期编码模式或所述第二基音周期编码模式由在对所述基音周期进行编码中的一个比特指示。
9. 根据权利要求7所述的方法，其特征在于，所述浊音语音信号在12. 8千赫兹kHz取样频率下使用6800比特每秒进行编码并包括四个子帧，其包括使用9个比特进行编码的第一子帧，除此之外，一个指示所述第一基音周期编码模式或所述第二基音周期编码模式的比特，使用4个比特进行编码的第二子帧和第三子帧，以及使用5个比特进行编码的第四子帧。
10. 根据权利要求9所述的方法，其特征在于，所述具有相对较短或相当稳定的基音周期的浊音语音信号具有16到143之间的基音周期，浊音语音信号的帧的每个子帧使用四分之一的基音周期精确度进行编码，以及所述第一子帧和所述第四子帧使用±4的基音周期动态范围进行编码，所述第二子帧和所述第三子帧使用±2的基音周期动态范围进行编码。
11. 根据权利要求9所述的方法，其特征在于，所述具有相对较长或稳定性较差的基音周期的浊音语音信号具有34到128之间的基音周期，所述第一子帧和所述第四子帧使用四分之一的基音周期精确度进行编码，所述第二子帧和所述第三子帧使用二分之一的基音周期精确度进行编码，以及所述子帧中的每个子帧使用±4的基音周期动态范围进行编码。
12. 根据权利要求9所述的方法，其特征在于，所述具有相对较长或稳定性较差的基音周期的浊音语音信号具有128到160之间的基音周期，所述第一子帧、所述第二子帧和所述第三子帧使用二分之一的基音周期精确度进行编码，所述第四子帧使用四分之一的基音周期精确度进行编码，以及所述子帧中的每个子帧使用±4的基音周期动态范围进行编码。
13. 根据权利要求9所述的方法，其特征在于，所述具有相对较长或稳定性较差的基音周期的浊音语音信号具有160到231之间的基音周期，所述第一子帧使用1的基音周期精确度进行编码，所述第四子帧使用四分之一的基音周期精确度进行编码，以及所述子帧中的每个子帧使用±4的基音周期动态范围进行编码。
14. 根据权利要求7所述的方法，其特征在于，所述浊音语音信号在12. 8千赫兹kHz取样频率下使用7600比特每秒进行编码并包括四个子帧，其包括使用9个比特进行编码的第一子帧，除此之外，一个指示所述第一基音周期编码模式或所述第二基音周期编码模式的比特，使用3个比特进行编码的第二子帧和第三子帧，以及使用4个比特进行编码的第四子帧。
15. 根据权利要求14所述的方法，其特征在于，所述具有相对较短或相当稳定的基音周期的浊音语音信号具有16到143之间的基音周期，每个子帧使用四分之一的基音周期精确度进行编码，以及所述第一子帧使用四分之一的基音周期精确度进行编码，所述第二子帧和所述第三子帧使用±1的基音周期动态范围进行编码，以及所述第四子帧使用±2的基音周期动态范围进行编码。
16. 根据权利要求14所述的方法，其特征在于，所述具有相对较长或稳定性较差的基音周期的浊音语音信号具有34到128之间的基音周期，所述第一子帧使用四分之一的基音周期精确度进行编码，所述第二子帧、所述第三子帧和所述第四子帧使用二分之一的基音周期精确度进行编码，以及所述第一子帧和所述第四子帧使用±4的基音周期动态范围进行编码，第二子帧和第三子帧使用±2的基音周期动态范围进行编码。
17. 根据权利要求14所述的方法，其特征在于，所述具有相对较长或稳定性较差的基音周期的浊音语音信号具有128到160之间的基音周期，所述第一子帧和所述第四子帧使用二分之一的基音周期精确度进行编码，所述第二子帧和所述第三子帧使用1的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。
18. 根据权利要求14所述的方法，其特征在于，所述具有相对较长或稳定性较差的基音周期的浊音语音信号具有160到231之间的基音周期，所述第一子帧、所述第二子帧和所述第三子帧使用1的基音周期精确度进行编码，所述第四子帧使用二分之一的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。
19. 根据权利要求7所述的方法，其特征在于，所述浊音语音信号在12. 8千赫兹kHz取样频率下使用9200比特每秒或更大速率进行编码并包括四个子帧，其包括使用9个比特进行编码的第一子帧，除此之外，一个指示所述第一基音周期编码模式或所述第二基音周期编码模式的比特，使用4个比特进行编码的第二子帧，以及使用5个比特进行编码的第三子帧和第四子帧。
20. 根据权利要求19所述的方法，其特征在于，所述具有相对较短或相当稳定的基音周期的浊音语音信号具有16到143之间的基音周期，浊每个子帧使用四分之一的基音周期精确度进行编码，以及所述第一子帧、所述第三子帧和所述第四子帧使用±4的基音周期动态范围进行编码，所述第二子帧使用±2的基音周期动态范围进行编码。
21. 根据权利要求19所述的方法，其特征在于，所述具有相对较长或稳定性较差的基音周期的浊音语音信号具有34到128之间的基音周期，所述第一子帧、所述第二子帧和所述第三子帧使用四分之一的基音周期精确度进行编码，所述第四子帧使用二分之一的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。
22. 根据权利要求19所述的方法，其特征在于，所述具有相对较长或稳定性较差的基音周期的浊音语音信号具有128到160之间的基音周期，所述第一子帧和所述第二子帧使用二分之一的基音周期精确度进行编码，所述第二子帧和所述第三子帧使用四分之一的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。
23. 根据权利要求19所述的方法，其特征在于，所述具有相对较长或稳定性较差的基音周期的浊音语音信号具有160到231之间的基音周期，所述第一子帧使用1的基音周期精确度进行编码，所述第二子帧使用二分之一的基音周期精确度进行编码，所述第三子帧和所述第四子帧使用四分之一的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。
24. -种支持双重模式基音周期编码的装置，其特征在于，包括：一种处理器；以及一种计算机可读存储介质，所述计算机可读存储介质存储由所述处理器执行的程序，所述程序包括可进行如下操作的指令：确定浊音语音信号是否具有相对较短的基音周期和相当稳定的基音周期中的一个或相对较长的基音周期和稳定性相对较差的基音周期中的一个或是相当嘈杂的信号；以及在确定所述浊音语音信号具有相对较短的或相当稳定的基音周期之后，对所述具有相对较高的精确度和较小的动态范围的浊音语音信号的基音周期进行编码，或者在确定所述浊音语音信号具有相对较长的或稳定性较差的基音周期或者是一个相当嘈杂的信号之后，对所述具有相对较大的动态范围和较低的精确度的浊音语音信号的基音周期进行编码。
25. 根据权利要求24所述的装置，其特征在于，所述程序进一步包括进行如下操作的指令：在确定所述浊音语音信号具有相对较短的或相当稳定的基音周期之后，在对所述基音周期进行编码中指示第一基音周期编码模式具有相对较高的精确度和较小的动态范围，或者在确定所述浊音语音信号具有相对较长的或稳定性较差的基音周期或者是一个相当嘈杂的信号之后，指示第二基音周期编码模式具有相对较大的动态范围和较低的精确度，其中所述第一基音周期编码模式或所述第二基音周期编码模式由一个在对所述基音周期进行编码中的比特指示。
【文档编号】G10L19/18GK104254886SQ201280055505
【公开日】2014年12月31日申请日期:2012年12月21日优先权日:2011年12月21日
【发明者】高阳申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高阳
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：非常短的基音周期检测和编码的制作方法
上一篇：声学蜂窝中隔膜的锚定的制作方法