共振峰析取方法

文档序号：2821749阅读：458来源：国知局

专利名称：共振峰析取方法
技术领域：
本发明涉及按话音谐振频率识别共振峰，尤其涉及一种能够以较少计算复杂性精确地识别共振峰的共振峰析取方法。
背景技术：
一般地，为了按话音谐振频率识别共振峰，已广泛地使用了一种用于搜索线性预测谱或平稳倒谱(cepstrally smoothed spectrum)中的最大值点的谱峰值采集方法。然而，因为在多数情况下，两个共振峰彼此接近，所以它们在谱中显示为一个最大值。在谱峰值采集方法中，尽管已向FFT(快速傅立叶变换)给出了足够大的等级(degree)以获得谱，但难以在频率范围内精确地析取共振峰。
为了解决这个问题，已提出了通过使用线性预测系数在预测误差滤波器中计算根的方法。在这些方法之中，一种通过使用根析取方法及由R.C.Snell提出的柯西积分公式而获得根的方法是具有代表性的。
在根析取方法中，通过按时机需要(occasion demand)将汉明(Hamming)窗、凯瑟(Kaiser)窗等乘以适当的语音信号段(约20ms～40ms)获得短时信号，从该短时信号中获得线性预测系数及预测误差滤波器，从该预测误差滤波器中获得零点，并通过使用等式F=fs2πθ0]]>获得共振峰。其中，θ0是零点的相位，fs是信号的采样率，F是要获得的共振峰。在分析能力方面，根析取法优于谱峰值采集法；然而，不可能设置确定的基准以判断实际上获得的根是否直接与共振峰有关。另外，由于根析取法具有高计算复杂性和低精度，所以已不被广泛使用。
由R.C.Snell提出的方法用于通过使用柯西积分公式反复地搜索一个区域，在所述区域中零点存在于z域中。与根析取法相比，使用这种方法，计算复杂性及精度提高。然而，因为用于判断实际上获得的根是否直接与共振峰有关的基准没有给出，因此可靠性低。
因此，由于用于获得共振峰的传统方法具有低分析能力、可靠性、精度及/或较大的计算复杂性，所以难以精确地分析共振峰。

发明内容
为了解决上面提及的问题，本发明的目的是提供可以精确地、用较少计算复杂性识别共振峰的共振峰析取方法。
本发明的其它特征和优点将在随后的描述中阐明，并且从所述描述中部分是显而易见的，或可通过本发明的实践认识到。特别地，本发明的目的和优点将通过在后面的描述及附图中指出的结构实现。
为了实现这些和其它优点，并且根据本发明的目的，如实施例和广泛地描述那样，在共振峰析取方法中实施本发明，该方法包括获得谱中的最大值，判断对应于最大点处的零点的共振峰的数目是否为两个，以及当判断共振峰的数目为两个时，通过根精加工分析根。
在一方面，可以功过谱峰值采集法获得最大值。而且，可以通过应用柯西积分公式获得共振峰的数目。在详细的方面，可以将柯西积分公式应用于在特定区域内具有最大值的点的周围区域，其中特定区域为z域。
在进一步方面，根可以是对应于判断为两个的共振峰数目的零点。更进一步地，在根精加工中可以使用Bairstow算法或逼近方法。
在另一方面，可以使用析取的共振峰作为话音识别的特征向量或用于共振峰声码器。
在更详细的方面，在接收话音信号并分析该信号时，使用一种共振峰析取方法，该方法包括接收新的话音信号帧，预处理所述接收的话音信号，将预处理的话音信号的适当范围乘以一窗函数来析取短时信号，从析取的短时信号中获得线性预测系数并从中获得特定谱，在特定谱中搜索最大点并判断最大点是否可能与至少两个共振峰有关，鉴别最大点实际上与至少两个共振峰有关，并且当最大点实际上与至少两个共振峰有关时，通过根精加工分析相关根。
在一个方面，预处理接收的话音信号包括对接收的话音信号进行滤波，增强接收的话音信号或使接收的话音信号通过预增强滤波器。
在进一步方面，语音信号的适当范围为约20ms～40ms。
在另一个方面，窗函数可能为汉明窗函数、凯塞窗函数或布莱克曼窗函数。
在进一步方面，特定谱是线性预测谱或经倒谱均衡的谱。
在另一个方面，使用柯西积分公式以判断最大点是否实际上与至少两个共振峰有关，其中柯西积分公式应用于特定区域内的最大值的周围部分，其中特定区域为z域。
在更详细的方面，在根精加工中使用Bairstow算法或根逼近方法。
在一方面，根是对应于判断为两个的共振峰数目的零点。
在另一个方面，可以使用析取的共振峰作为话音识别的特征向量或用于共振峰声码器。
要理解到，本发明的上述一般的说明及下列详细的说明是示例性和说明性的，并且如所要求的那样，将要提供各方面的更进一步的解释。

所包含的用以提供对本发明的进一步理解、并接合在本说明书中以构成其一部分的附图，显示出本发明的实施例，并且连同说明书一起用以解释本发明的原理。不同的附图中以相同的参考标号表示的本发明的特征、要素及方面代表了一个或多个实施例中相同、相当、或类似的特征、要素或方面。
图1是说明根据本发明的一个实施例的共振峰析取方法的流程图。
图2是说明根据本发明的一个实施例的共振峰析取方法的更详细的流程图。
图3是说明根据本发明的一个实施例的z域的最大值的相位及其周围的共振峰的组合范围的图。
具体实施例方式
本发明涉及共振峰析取方法。在下文中，将参考附图描述本发明的较佳实施例。
图1是说明本发明的一个实施例的共振峰析取方法的流程图。如图1的步骤S10所示，共振峰析取方法包括搜索谱中的最大值及获得与共振峰有关的最大点。在步骤S20中，该方法判断在最大点处从零点获得的共振峰的数目是否为两个。在步骤S30中，当判断共振峰的数目为两个时，该方法通过根精加工(root polishing)来分析根。
较佳地使用谱峰值采集方法，在谱中搜索可能与至少两个共振峰有关的最大值和最大点，如步骤S10所示。
然后，较佳地通过使用柯西积分公式，检验最大点是否与一个共振峰或至少两个共振峰有关，如步骤S20所示。在此，不重复应用柯西积分公式；相反地，柯西积分公式应用于具有z域中的最大值的点的周围区域，其中，可以通过下列公式描述柯西积分公式。
n(Γ)=12πj&Integral;ΓA′(z)A(z)dz]]>在检验结果中，当判断到两个共振峰叠加为一个时，用根精加工方法分析相关的零点，如步骤S30所示。在此，可以使用诸如Bairstow算法之类的根精加工方法。
图2是说明本发明的一个实施例的共振峰析取方法的更详细的流程图。
参考图2，在如步骤S100所示接收到初始话音信号后，话音信号随后经过预处理步骤，其中接收的信号被滤波、增强，或通过预增强滤波器，如步骤S110所示。在话音信号经过预处理步骤后，将适当的信号段(约20ms～40ms)乘以一窗函数，以析取一短时信号，如步骤S120所示。
窗函数用于通过减少截短信号的尾部大小降低由不连续点产生的频率失真。一般地，使用汉明窗函数。然而，也可以使用汉宁(Hanning)窗函数、凯塞窗函数或布莱克曼(Blackmann)窗函数。
随后，如步骤S130所示，从析取的短时信号中获得线性预测系数，并且如步骤S140所示，从线性预测系数中获得线性预测谱或经倒谱均衡的谱。随后，如步骤S150所示，在获得的谱中搜索对应于最大值的点。在步骤S160，判断对应于最大值的最大点是否可能与至少两个重叠的共振峰有关。因为没有必要检验所有最大值，当在检查共振峰的可能分布后，在谱中两个共振峰不可能显示为一个共振峰时，省略后处理。
通过检查在“Discrete-Time Processing of Speech Signals”(《语音信号的离散时间处理》纽约Macmillan出版公司，1993，作者J.R Dellar Jr.，J.G.Proakis.以及J.H.L Hansen)中揭示的条件，计算用于判断是否具有与对应于最大值的重叠共振峰有关的可能性所要求的共振峰的可能分布。
与此同时，当存在最大点与至少两个共振峰有关的可能性时，使用柯西积分公式判断最大点与一个共振峰还是至少两个(重叠的)共振峰有关，如步骤S170所示。在此，参考图3，当仅一个预测误差滤波器的零点存在于图3中指明的区域中时，省略后处理。在图3的谱中，φPEAK指示对应于z域的最大值的点的相位。φ1和φ2指示一个范围，在该范围内，周围的两个共振峰可以结合。理论上，指定φ1和φ2为能够用一个最大值结合两个共振峰的近区(near region)。另外，通过图3中粗线内的部分的围线积分执行柯西积分公式。例如，指定常数r为0.8或1.0等等。也可能选择不同的值。
当在图3中的指定区域内包含至少两个零点时，不像传统方法计算具有高计算复杂性的等式那样，在本发明中，通过根精加工分析相关零点，如步骤S180所示。在此，可以使用诸如Bairstow算法或根逼近方法之类的方法。在根精加工情况中，通过把区域(图3中所示)内的看做起点，重复收敛。在这种情况下，因为两个根存在于复平面内的相对小的区域内，通过从起点处使用递归方法，可不使用求根方法而快速地获得相关零点的值。
如上所述，在本发明的共振峰析取方法中，不重复使用柯西积分公式，并且通过仅仅检验用线性预测谱判断的最大值，可以用较少计算复杂性精确地搜索共振峰。相应地，可能减少操作时间并提高分析能力方面的可靠性。另外，可以使用获得的共振峰作为话音识别的特征向量或用于诸如共振峰声码器或TTS(文本至语音)等等的应用。
因为可以若干种形式实施本发明而不背离本发明的精神或实质特征，所以应理解到，除非特别说明，上述实施例并不被上述说明的任何细节所限制。
权利要求
1.一种共振峰析取方法，其特征在于，包括获得谱中的最大值；判断对应于最大点处的零点的共振峰的数目是否为两个；以及当判断共振峰的数目为两个时，通过根精加工分析根。
2.根据权利要求1所述的方法，其特征在于，通过谱峰值采集方法获得最大值。
3.根据权利要求1所述的方法，其特征在于，通过应用柯西积分公式获得共振峰的数目。
4.根据权利要求3所示的方法，其特征在于，将柯西积分公式应用于在特定区域内具有最大值的点的周围区域。
5.根据权利要求4所述的方法，其特征在于，所述特定区域为z域。
6.根据权利要求1所述的方法，其特征在于，根是对应于判断为两个的共振峰数目的零点。
7.根据权利要求1所述的方法，其特征在于，在根精加工中使用Bairstow算法。
8.根据权利要求1所述的方法，其特征在于，在根精加工中使用逼近方法。
9.根据权利要求1所述的方法，其特征在于，使用析取的共振峰作为话音识别的特征向量。
10.根据权利要求1所述的方法，其特征在于，析取的共振峰用于共振峰声码器。
11.一种接收语音信号并分析该信号的共振峰析取方法，其特征在于，包括接收新的话音信号帧；预处理所述接收的话音信号；通过将预处理的话音信号的适当范围乘以一窗函数来析取短时信号；从析取的短时信号中获得线性预测系数，并从中获得特定谱；在特定谱中搜索最大点，并判断最大点是否可能与至少两个共振峰有关；鉴别最大点实际上与至少两个共振峰有关；以及当最大点实际上与至少两个共振峰有关时，通过根精加工分析相关根。
12.根据权利要求11所述的方法，其特征在于，预处理接收的话音信号包括对接收的话音信号进行滤波。
13.根据权利要求11所述的方法，其特征在于，预处理接收的话音信号包括增强接收的话音信号。
14.根据权利要求11所述的方法，其特征在于，预处理接收的话音信号包括使接收的话音信号通过预增强滤波器。
15.根据权利要求11所述的方法，其特征在于，语音信号的适当范围为约20ms～40ms。
16.根据权利要求11所述的方法，其特征在于，窗函数是汉明窗函数。
17.根据权利要求11所述的方法，其特征在于，窗函数是凯塞窗函数。
18.根据权利要求11所述的方法，其特征在于，窗函数是布莱克曼窗函数。
19.根据权利要求11所述的方法，其特征在于，特定谱是线性预测谱。
20.根据权利要求11所述的方法，其特征在于，特定谱是经倒谱均衡的谱。
21.根据权利要求11所述的方法，其特征在于，使用柯西积分公式判断最大点是否实际上与至少两个共振峰有关。
22.根据权利要求21所述的方法，其特征在于，柯西积分公式应用于特定区域内的最大值的周围部分。
23.根据权利要求22所述的方法，其特征在于，特定区域为z域。
24.根据权利要求11所述的方法，其特征在于，在根精加工中使用Bairstow算法。
25.根据权利要求11所述的方法，其特征在于，在根精加工中使用根逼近方法。
26.根据权利要求11所述的方法，其特征在于，根是对应于判断为两个的共振峰数目的零点。
27.根据权利要求11所述的方法，其特征在于，使用析取的共振峰作为话音识别的特征向量。
28.根据权利要求11所述的方法，其特征在于，析取的共振峰用于共振峰声码器。
全文摘要
在用较少计算复杂性、能够精确地按话音的谐振频率获得共振峰的共振峰析取法中，所述方法包括通过谱峰值采集法搜索最大值，判断符合获得的最大点处的零点的共振峰数目是否为两个，并且当共振峰数目判断为两个时，通过根精加工分析相关根。通过应用柯西积分公式判断共振峰的数目，其中不重复应用柯西积分公式，而仅在z域内的最大值的周围部分中应用。
文档编号G10L25/48GK1606062SQ20041008351
公开日2005年4月13日申请日期2004年10月8日优先权日2003年10月6日
发明者金燦佑申请人:Lg电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金燦佑
技术所有人：LG电子株式会社
我是此专利的发明人

上一篇：歌唱评分方法与系统的制作方法
上一篇：带有内置卡拉ok的图像显示设备及其控制方法