波形信号分析、基音探测以及句子探测的方法和设备的制作方法

文档序号:6116110阅读:240来源:国知局
专利名称:波形信号分析、基音探测以及句子探测的方法和设备的制作方法
技术领域
本发明的领域本发明涉及用于对波形信号进行分析的方法和设备及其在基音探测上的应用。另外,本发明还涉及用于探测语音中的基音的系统和方法。此方式,本发明还涉及用于探测声音信号中的句子的设备和方法。
本发明的背景所有的声音都可被分解成一系列的简单振荡。这些简单振荡具有一个频谱和时间分布。
最经常使用的波形分析方法是付里叶时频变换(FTT)。然而,FTT当被用于谐声分析和基音探测时具有其局限。
谐声对于人类的听觉是非常重要的。它包括了人的语音的元音声、人的唱歌音、鸟叫声、多数的动物叫声、以及多数的音乐声。谐声不仅悦耳,而且还携带有我们所需的信息。


图11以时间-能量曲线的形式显示了谐声的一个例子,它是从一个男人的元音“u”的声音中取中的。
与图11所示的采用时间-能量曲线的方式不同的一种分析和描述声音的一种方法,是采用其频率-能量频谱,如利用FTT从其时间-能量曲线所获得的频谱。谐声的频谱的特点,在于它包括有若干窄峰。这表明谐声的总能量的一个很大部分集中在与这些峰相对应的频率上。另外,谐声的频谱的峰的格局在短时间内比较稳定。换言之,其主要的频率分量在频率和能量上均保持稳定。如果一段声音的频谱的峰的格局迅速地改变,则该频谱所对应的不是谐声而是噪音爆破音。
由于谐声的频谱需要从一段声音(例如从一个FTT窗口)获得,它代表了该段声音的全局特征。这意味着一个频谱难于使我们检验该段声音的更为详细的特征,且探测和测量具有迅速的改变的声音(诸如爆破音)的能力因而受到了限制。
谐声的时间-能量曲线(波形)具有如下特征1)首先,谐声可被分成彼此几乎相等的部分,如图12所示。在此,“几乎”意味着不完整相等,因而我们说谐声具有“伪”周期性。这些部分中的最短者被称为“基音”,它是谐声的基本声调。所以谐声也被称为“基音声”。如果一段声音中的基音彼此严格相同(即在频谱中声音的所有能量都在峰频率上且所有的峰的宽度均为零),则该声音将变得不动听、不清晰且令人感觉枯燥。这显示出,基音之间的“伪周期性”或小的改变,虽然似乎是随机的,但却不是没有意义的,相反地,它对于我们的听觉是重要的,因为它使诸如人类语音中的元音的谐声能够与背景声或噪音相区分。
2)正常的人类语音的基音频率限于一定的范围,即在一个最小基音频率与一个最大基音频率之间的范围。
3)谐声应该具有足够的持续时间。例如,人类语音的一个元音应该具有例如至少五个基音的持续时间。
4)人类语音中的谐声应该具有高于其周围声音的能量。例如,人类语音的元音的声音能量高于其相邻的辅音(摩擦音、爆破音、鼻音等)。
这些特征中的某些被用于本发明的谐声探测和基音探测方法中。
人类语音中的基音的探测,对于语音识别是非常重要的。
为了探测谐声和基音,本发明的发明人对一种波形部分比较方法进行了测试,如以下所述的。波形部分比较(WSC)方法WSC方法采用了原始的波形流作为输入数据。首先,它借助例如零交点法把该波形流分成小的段。随后,它把当前的段与具有与当前段相同的宽度的一个相邻的段进行比较,如图13(a)和(b)所示。根据该比较的结果,利用相似性评分,而探测谐声,且具有最高的相似性评分的相似的段的宽度被确定为基音。
这种段比较是通过计算两个段之间的点与点的差而进行的。
然而,该WSC方法具有其问题,这些问题影响了从声音信号探测基音。这些问题包括1)低频干扰当一个元音声与一个比较强的低频振荡耦合时,段比较的结果将受到严重的影响,如图14(a)-14(c)中的例子所示。从图14(a)-(c)的例子可见,WSC方法未能探测出基音,因为具有W0宽度的段与具有宽度W1的其右侧相邻的段相差太大。显然,这种大的差别是由于加到原来的声音上的低频振荡造成的在实际中,交流电源经常造成这样的问题,因为它把50Hz的低频振荡加到探测或记录的声音上。2)双重基音宽度错误有时,两个基音段被探测为一个基音,因而探测到的基音的宽度被加倍。有时基音的宽度甚至被增大了两倍。
图14(c)显示的例子也是双倍基音宽度错误问题的一个例子,如图15所示。3)高而窄的小段移动错误当一个元音声由某些窄而高的小段组成,且在相邻的基音段中的这些窄而高的段的位置发生了移动,则比较的结果将受到严重的影响,如图16的例子所示。这是由于在峰附近的两个段中的曲线之间的差由于信号电平的急剧改变而变得很大,如图16中的Pi和Pi所示。峰越窄,误差越大。
本发明的概述本发明的第一个目的,是提供一种采用波-三角变换(WTT)来分析波形信号的方法。
本发明的第二个目的,是提供采用WTT来分析波形信号的一种设备。
本发明的第三个目的,是提供利用WTT来探测声音信号中的基音的一种方法。
本发明的第四个目的,是提供利用WTT来探测声音信号中的基音的一种设备。
本发明的第五个目的,是提供用于探测声音信号中的句子的一种方法。
本发明的第六个目的,是提供用于探测声音信号中的句子的一种设备。
在本发明的第一个方面,提供了一种用于分析波形信号的一种方法,包括一个顶点探测步骤,用于探测波形信号的波形的一组顶点;以及一个三角提取步骤,用于根据顶点探测步骤所探测到的一组顶点来提取一组三角。
在本发明的第二个方面,提供了一种用于分析波形信号的设备,包括一个顶点探测装置,用于探测该波形信号的波形的一组顶点;以及一个三角提取装置,用于根据该顶点探测装置所探测到的该组顶点来提取一组三角。
在本发明的第三个方面,提供了用于分析波形信号的一种系统,包括一个信号探测装置,用于探测作为模拟信号的该波形信号;一个模拟/数字转换装置,用于把该模拟波形信号转换成数字波形信号;一个顶点探测装置,用于探测该数字波形信号的波形中的一组顶点;以及一个三角提取装置,用于根据该顶点探测装置探测到的该组顶点来提取一组三角。
在本发明的第四个方面,提供了用于分析波形信号的一种系统,包括信号再现装置,用于从一个记录介质再现该波形信号;一个顶点探测装置,用于探测该波形信号的波形的一组顶点;以及一个三角提取装置,用于根据该顶点探测装置所探测到的该组顶点来提取一组三角。
在本发明的第五个方面,提供了用于探测声音信号中的基音的一种方法,包括一个波-三角变换(WTT)步骤,用于对该声音信号进行波-三角变换;一个能量-宽度谱计算步骤,用于计算该声音信号的一个能量-宽度谱;一个候选链合峰确定步骤,用于根据所述能量-宽度谱计算步骤所计算出的能量-宽度谱来确定一个候选链合峰;以及一个周期性确定和评价步骤,用于确定和评价所述候选链合峰中的这些三角的周期性。
在本发明的第六个方面,提供了用于探测声音信号中的基音的一种设备,包括一个波-三角变换(WTT)部分,用于对该声音信号进行波-三角变换;一个能量-宽度谱计算装置,用于计算该声音信号的一个能量-宽度谱;一个候选链合峰确定装置,用于根据所述能量-宽度谱计算装置计算出的能量-宽度谱来确定一个候选链合峰;以及一个周期性确定和评价装置,用于确定和评价所述候选链合峰中的三角的周期性。
在本发明的第七个方面,提供了用于探测声音信号中的句子的一种方法,包括一个基音-噪音探测步骤,用于探测该声音信号中的基音段、噪音段和高频噪音段;
一个段结合步骤,用于把该基音段、噪音段、和高频噪音段结合成一系列的词段和间隙;一个句子间隙确定步骤,用于确定一组句子间隙,从而在每对相邻的句子间隙之间限定一个候选句子区;一个句子评分步骤,用于为各个候选句子区计算一个得分;以及一个句子确定步骤,用于根据该句子评分步骤的结果确定该候选句子区是否是一个句子。
在本发明的第八个方面,提供了用于探测声音信号中的句子的一种设备,包括一个基音-噪音探测部分,用于探测该声音信号中包含的基音段、噪声段、以及高频噪音段;一个段结合装置,用于把这些基音段、噪音段和高频噪音段结合成一系列的词段和间隙;一个句子间隙确定装置,用于确定一组句子间隙,以在各对相邻的句子间隙之间限定一个候选句子区;一个句子评分装置,用于为每一个候选句子区计算一个得分;以及一个句子确定装置,用于根据该句子评分装置获得的得分来确定各个候选句子区是否是一个句子。
本发明的附图的简要描述从以下结合附图对本发明的最佳实施例所进行的详细描述,本发明的其他特征、优点和实施例将变得显而易见。在附图中图1用于说明三角及其表征参数;图2显示了一段波形信号及其顶点的例子;图3用于说明如何从波形信号提取三角;图4(a)-4(c)用于说明为波形信号产生平滑点的处理;图5显示了用于从波形信号提取三角的WTT处理的一个最佳实施例的流程图;图6显示了本发明的一种WTT设备的一个最佳实施例的设置;图7是一个能量-宽度-时间图,显示了利用本发明的WTT方法从一段声音信号提取的三角;图8显示了本发明的WTT设备的另一最佳实施例的设置;图9显示了本发明的一种WTT系统的一个最佳实施例的设置;图10用于说明分割波形信号的一种方法;图11显示了一个男人发出的元音“u”的语音信号的一段波形;图12用于显示图11所示的语音信号中的基音;图13(a)和13(b)用于说明用于探测语音信号中的基音的传统波形段比较(WSC)方法;图14(a)至14(c)用于说明在传统的WSC方法中出现的低频振荡错误;图15用于显示当采用传统的基音探测方法时出现的双基音错误;图16用于显示当采用传统的基音探测方法时出现的高而窄的小段偏移错误;图17在其上部显示了一个中国男人发出的元音“u”的波形,并在该波形的下方显示了对该波形的WTT分析的结果,该结果被表示为在与三角的宽度对应的不同高度处显示的三角;图18在其上部显示了一个日本女子发出的元音“ou”的波形,它是具有弱的基音频率的元音的一个例子;图18还显示了利用WTT处理从该波形提取的三角;图19显示了本发明的基音探测设备的一个最佳实施例;图20是显示图19所示的基音探测设备的实施例的操作的流程图;图21显示了图18的上部所示的语音信号的能量-宽度谱;图22显示了本发明的用于确定和评价候选链合峰的三角的周期性的处理的一个最佳实施例;图23显示了本发明的候选峰探测处理的一个实施例;图24显示了本发明的周期性确定和评价单元的一个实施例的设置;图25显示了对图18所示的语音信号进行本发明的基音探测的结果;图26显示了为图18所示的语音信号探测到的最高三角链(MHTC);图27a是显示本发明的用于构造一个候选MHTC的处理的一个最佳实施例的流程图;图27b详细显示了按照本发明的一个实施例如何构造一个候选MHTC;图28是显示本发明的用于构造一个候选MHTC的处理的另一最佳实施例的流程图;图29a显示了在图29b的上部显示的语音信号的能量-宽度谱;图29b在其上部显示了包含元音的语音信号的另一个例子的波形,并在该图的下部显示了利用WTT从该语音信号提取的三角;图30a显示了图30b的上部显示的语音信号的能量-宽度谱;图30b在其上部显示了具有强的基音频率的语音信号的一个例子的波形,并在该图的下部显示了利用WTT处理从该波形提取的三角;图31a在其上部显示了被探测为高频噪音段的语音信号的一个例子的波形,并在该图的下部显示了利用WTT处理从该波形提取的三角;图31b显示了图31a的上部显示的高频噪音语音信号的能量-宽度谱;图32a在其上部显示了被探测为噪音段的语音信号的一个例子的波形,并在该图的下部显示了利用WTT处理从该波形提取的三角;图32b显示了图32a的上部所示的噪音语音信号的能量-宽度谱;图33显示了本发明的一个实施例的基音探测设备的操作结果,其中声音信号被分成了基音段、高频噪音段、噪音段、以及静音段;图34是显示根据本发明的一个实施例的句子探测处理的流程图;图35是显示根据本发明的一个实施例的图34的步骤S3404的处理的流程图;图36是显示根据本发明的一个实施例的图34的步骤S3406的处理的流程图;图37是显示根据本发明的一个实施例的图34的步骤S3408的处理的流程图;图38是显示根据本发明的一个实施例的图35的步骤S3504的处理的流程图,用于判定当前的段是否是一个适当的切割段;
图39是框图,显示了根据本发明的一个实施例的句子探测设备的设置。
最佳实施例的详细描述波-三角变换(WTT)一个三角的定义如图1所示,如从图1可见,一个三角具有以下的参数-其起点或开始时刻(iTime),它代表了一个三角开始的时刻;-其顶点时刻(iCenterTime),它代表了一个三角的顶点(峰)的时刻;-其结束点或结束时刻,它代表了一个三角结束的时刻;-其高度(nSwing),它代表了从一个三角的顶点到其底边-即连接三角的开始点(iTime)至结束点的直线-的距离;一个三角的高度(nSwing)既可以是正的也可以是负的;-宽度(nWidth),它代表了从一个三角的开始时刻至结束时刻的时间。
为了确定一个三角,只需要确定这些参数中的某些参数。例如,对于一个三角,如果其开始时刻(iTime)、顶点时刻(iCenterTime)、高度(nSwing)和结束时刻已知,则该三角得到确定。同样地,一个三角可以由其开始时刻(iTime)、顶点时刻(iCenterTime)、高度(nSwing)和宽度(nWidth)确定,或由其高度、结束时刻、顶点时刻和宽度确定,等等。从一个波形提取三角的波-三角变换(WTT)图5显示了本发明的WTT处理的一个实施例,它包括以下的步骤步骤S51探测波形信号的所有顶点图2显示了一个示例性的波形,用于说明顶点探测的处理。有两种顶点正的顶点和负的顶点。一个曲线的一个正的顶点是该曲线上的这样一个点,即该点高于其两侧的该曲线上的所有邻近点;一个负的顶点是该曲线的这样的一个点,即该点低于其两侧的该曲线上的所有邻近点。“邻近点”指的是足够地接近目标点的那些点。同样地,我们也可以把正(负)的顶点定义为这样一个点,即该点是在一个包括该点的一个范围内的最高(低)的点。步骤S52提取三角图3显示了如何从一组顶点提取三角。如图3所示,为每一个顶点都提取一个三角。对于一个正的顶点,例如顶点k,提取出一个正的三角。首先,计算出一个投影高度,该投影高度是从顶点k至连接与其相邻的两个顶点的直线的投影线的长度。随后,顶点k的三角被确定为具有该投影高度的一半的高度(nSwing)、位于顶点k处的顶点时刻、位于其左邻近顶点(k’)处的开始时刻(iTime)、以及位于其右邻近顶点(k″)处的结束时刻。
对于一个负的顶点,例如顶点k’,其相应的三角能够通过探测顶点k’的投影高度而以类似的方式得到确定;但由于顶点k’是一个负顶点,其投影高度是一个负的投影高度,且顶点k’的三角的高度也是负的。步骤S53产生平滑点对于每一个顶点,都产生一个平滑点,它位于该顶点的投影线的中点,如图4(b)所示。所有顶点的平滑点对应于一个新的且平滑化的波形,如图4(c)所示。步骤S54判定这些平滑点是否对应于一个具有足够高的能量的波该判定可以以不同的方式进行。作为一个例子,这些方式中的一种是通过把所提取的三角的最小宽度与一个宽度阈值进行比较,并把所提取的三角中最高的三角的高度与一个高度阈值相比较,该宽度阈值被设定为接近普通的人耳所能够听见的最长的声音波长(最低的频率),且如果该最小三角宽度大于该阈值,且最高的三角的高度小于该高度阈值,则判定在提取该组三角后所生成的那一组平滑点所对应的波不具有足够的能量。该宽度阈值的优选取值范围为140-180个取样(在每秒11025个取样的取样速率下),在本实施例中的取值为160个取样。该高度阈值的优选取值范围在PCM格式的Wav文件中为10-100,且本实施例中取为20。
采用这种判定方式的理由,是谐波的能量与其频率的平方成正比,且普通的波可以被分解为多个谐波之和。
或者,所提取的三角的最短或平均宽度也可以与另一预定的值相比较以判定该最短或平均的三角宽度是否大于该预定的值。如果“是”,则判定这些平滑点所对应的波不具有足够高的能量。
在判定这些平滑点不对应于具有足够高能量的波时,WTT处理终结;提取的三角可以被保存,以进行随后的处理(步骤S56)。
另一方面,如果判定平滑点对应于具有足够高能量的波,WTT处理进行到步骤S55,在那里这些平滑点将受到下一级的三角提取,如以下所述的。步骤S55探测平滑点中的顶点对于平滑点,探测出正和负的顶点,其中一个正的顶点是高于其相邻的平滑点的一个点;而一个负的顶点是低于其相邻的平滑点的一个点。如果一个平滑点高于(低于)其相邻的平滑点之一而低于(高于)其相邻的平滑点中的另一个,则它既不是正顶点也不是负顶点。
随后,对于如此确定的平滑点中的顶点,重复步骤S52至S54,从而完成第二级三角的提取。
图6显示了本发明的波-三角变换系统(以下也称为“WTT系统”)的第一实施例,它适合于对声频/声音信号进行三角提取。本发明的波-三角变换系统的工作将在以下结合图6进行描述。
如图6所示,本发明的波-三角变换系统包括一个波-三角变换部分100(以下也称为“WTT部分”)100。诸如人类语音(包括元音和辅音)、歌唱声、鸟叫声、动物叫声、音乐声、自然界中的声音、噪音等的声音,被一个麦克风108转换成模拟电信号。一个A/D转换器107把来自麦克风108的模拟电信号转换成数字信号。来自A/D转换器107的数字信号被送到顶点探测单元101或通过一个读取/写入单元109而被存储在存储器单元106中。
存储器单元106可以用一个硬盘、软盘、ROM、磁带、或任何其他适当的存储设备来实现。
波-三角变换部分100的顶点探测单元101接收来自A/D转换器107的数字信号或通过读取/写入单元109接收来自存储器单元106的数字信号, 并探测所接收的数字信号中的顶点,如以上结合图2所描述的。
在实际的应用中,可以在该顶点探测单元之前设置一个输入信号分割单元和一个区段选择单元。该输入信号分割单元把输入的声音信号分成区段。区段选择单元选择适当的区段并把它们送到该WTT部分。例如,该区段选择单元可选择具有足够的能量的区段,如以下更为详细描述的。
根据顶点探测单元101所探测到的顶点,本发明的WTT部分100的一个三角提取单元102进行三角提取,如结合图3所描述的。三角提取单元102提取的三角可以被存储在一个三角存储单元(未显示)中,或作为WTT部分100的输出而被输出以进行进一步的处理,诸如下文所述的基音探测。这些从数字信号直接提取的三角被称为“第一级三角”。
提取的三角可以作为WTT部分100的输出而送出,也可以存到一个存储装置中(如图8所示的三角存储单元105)。
如上所述,一个三角由其开始时刻(iTime)、顶点时刻(iCenterTime)、结束时刻、宽度(nWidth)等所表征。一个三角具有从其开始时刻延伸至其结束时刻的底边,且该底边与时间轴平行。换言之,一个三角可以用其开始时刻(iTime)、高度(nSwing)、顶点时刻(iCenterTime)、以及宽度(nWidth)确定(或同样地用其开始时刻(iTime)、高度(nSwing)、顶点时刻(iCenterTime)、以及结束时刻确定;等等)。因而,作为一个具体的实施例,三角的存储/再现可以通过存储/再现三角的开始时刻(iTime)、高度(nSwing)、顶点时刻(iCenterTime)、以及宽度(nWidth)(或开始时刻、高度、顶点、以及结束时刻)等等而得到实现。
回到图6,根据三角提取单元102提取的三角,一个平滑点生成单元103为顶点探测单元101所探测到的每一个顶点确定一个平滑点,如以上结合图4(a)至4(c)所描述的。对于每一个顶点,一个平滑点得到确定-它是该顶点投影线的中点,如图4(b)所示。所有的顶点的平滑点对应于一个新的且被平滑化的波,如图4(c)所示。
因此,对于该数字信号的所有顶点,产生了一组平滑点。该组平滑点对应于一个新的波形,该新的波形与顶点探测单元101从A/D转换器107或读取/写入单元109接收到的数字信号相比得到了平滑。
随后,一个能量水平确定单元104判定与该组平滑点对应的波形的能量水平是否低于一个预定的值。
能量水平的判定可以用各种方式实现。例如,它可以用上述的结合步骤54描述的方式实现,且能量水平确定单元104能够以各种方式进行这样的判定。
作为一个例子,且作为这些方式中的一种,能量水平确定单元104可计算这些三角中的最短或平均宽度,并把该最短或平均三角宽度与一个预定的阈值相比较。
例如,对于人类语音的处理,该预定的阈值可以近似对应于人类语音中最长波长(最低频率)的声音分量的周期。
如果能量水平确定单元104判定最短或平均三角宽度大于该预定值,则判定这些平滑点所对应的波不具有足够高的能量。
当能量水平确定单元104判定这些平滑点所对应的波不具有足够高的能量时,WTT部分100终止WTT提取处理。
另一方面,如果能量水平确定单元104判定这些平滑点对应的波具有足够高的能量时,顶点探测单元101对所有这些平滑点进行顶点探测并从这些平滑点获得了第二组顶点,且三角提取单元102根据顶点探测单元101从这些平滑点探测的这些第二组顶点进行三角提取。即,WTT部分100对这些平滑点进行了第二级的三角提取,且一组第二级的三角得到提取并作为WTT部分的输出而得到输出。
三角提取单元102所提取的第二级的三角,象第一级的三角一样,可以被存储在一个三角存储单元(如图8所示的三角存储单元105)中,或作为WTT部分100的输出而被输出,以进行进一步的处理,如以下所要描述的。
在第二级的三角提取之后,平滑点生成单元103为这些顶点(第二组顶点)产生新的一组(第二组)平滑点,且能量水平确定单元104判定与该第二组平滑点对应的波的能量是否大于该预定的阈值。如果该判定的结果是“是”,则由顶点探测单元101、三角提取单元102和平滑点生成单元103进行的WTT处理将得到重复;如果该判定的结果是“否”,则WTT处理结束。
以此方式,第一、第二、第三、……级的三角得到提取,直到能量水平确定单元104判定一组平滑点所对应的波不具有足够高的能量。
图7显示了WTT处理的结果的一个例子,其中WTT被施加于一个日本女子发出的“Wu”声的声音波形。
在图7的上部,显示了原始的声波,其中水平轴表示了时间且纵轴表示了能量。
在图7的下部,从该声波提取的三角得到了显示。注意对于图7的下部,纵轴既表示了能量又表示了三角的宽度,即一个三角的底边沿着纵向方向所在的位置表示了三角的宽度,而三角的高对应于该三角的能量,因而具有相同的宽度的三角的底边位于图7的下部中沿着纵向方向的相同位置处。
图8显示了本发明的WTT系统的第二实施例。如图8所示,WTT系统的第二实施例包括一个WTT部分100’,它与图6所示的第一实施例中的WTT部分100相同,只是WTT部分100’的能量水平确定单元104被设置在平滑点生成单元103之前。另外,图8中显示了一个三角存储单元105,用于存储所提取的三角。
在WTT部分100’的WTT处理期间,在三角提取单元102进行了三角提取之后,能量水平确定单元104估计由平滑点生成单元103产生的平滑点所代表的能量水平。作为一个具体的实施例,能量水平确定单元104计算这些三角的最短或平均宽度,并把该最短或平均宽度与一个预定的阈值相比较。对于人类声音处理,该阈值可以对应于例如普通的人耳所能够听见的最长的声音波长(最低频率)的周期。
如果能量水平确定单元104判定这些三角的最短或平均宽度等于或大于该预定阈值,则判定将要由平滑点生成单元103产生的平滑点所代表的能量水平不够高,且WTT处理结束。
另一方面,如果能量水平确定单元104判定这些三角的最短或平均宽度小于该预定阈值,则WTT处理继续进行,以提取下一级的三角;平滑点生成单元103为三角提取单元102从其提取了一个三角的每一个顶点产生一个平滑点,从而获得一组平滑点;且顶点探测单元101对该组平滑点进行顶点探测。在此之后,三角提取单元102为该组平滑点提取下一级的三角。所提取的三角可以作为WTT部分100′的输出而输出,也可被存到三角存储单元105。
图9显示了本发明的WTT系统的另一实施例,其中一个输入信号分割单元111和一个区段选择单元112被设置在A/D转换器107与WTT部分100之间。
输入信号分割单元111把输入信号分割成区段。区段选择单元112选择适当的区段并把选定的区段送到WTT部分100。
图10显示了根据本发明的一个实施例的输入信号分割单元111的处理。根据一个实施例,输入信号分割单元111首先获得一个范围(例如在本发明的一个实施例中为147个取样的一个范围)内的平均能量,从而获得如图10所示的一个积分能量曲线。随后,该输入信号分割单元把该能量曲线与一个静音阈值相比较,并确定能量低于该阈值的区段为静音段且能量高于该阈值的区段为用于随后的处理的信号区段。
随后,区段选择单元112只选择信号区段以进行随后的处理。
当然,用于把输入信号分割成静音段和用于随后的处理的信号区段的其他方法也可以被用于实施本发明。
在人类语音识别的场合,通常的人类语音包含元音、辅音、停顿、和停止,因而其能量曲线或多或少地与图10所示的情况类似,其中元音和辅音对应于具有较高能量的区段,且停顿和停止对应于具有较低能量的区段。作为元音的主要分量,基音(pitch)只存在于具有较高能量的区段中。因而通过把输入信号分成区段且只把具有足够高能量的区段提供给WTT部分以进行基音探测-如在本发明的一个实施例中所设置的,基音探测的效率能够得到提高。
应该理解的是,虽然结合用于声波WTT处理的实施例对本发明的WTT系统进行了描述,本发明的WTT系统也可应用于其他任何波形信号的处理,诸如压力/力信号、光信号、等等,且图6、8和9中显示的麦克风108可被一个压力/力传感器、一个光电转换器等所取代。当然,本发明的WTT系统也可被用于电信号的WTT处理,其中麦克风108可被适当的电探测单元(例如电压计或电流计)所取代。
所以,一般地说,本发明的WTT系统可对所有波形物理量进行WTT处理。它包括了用于把一种原始物理量(声音、力、光等)转换成模拟电信号的一个转换器单元(例如麦克风108等)或用于产生模拟电信号的电学量(电压或电流)的电检测器,这些模拟量将要受到WTT处理;以及,一个A/D转换器107,用于把该模拟信号转换成数字信号。本发明的基音探测方法和设备考虑到以上在背景描述部分中所述的WSC方法的问题,本发明人测试了所谓的“基音宽度三角链”(PWTC)方法,用于利用WTT来探测基音,如以下所述。
图17在其上部显示了一个中国男人发出的元音“u”的波形,并在其下部以在与三角的宽度相应的不同的纵向位置处显示的三角的形式,显示了对该波形的WTT分析的结果。
通过深入的研究,本发明人发现,在从汉语以及很多其他语言的很多元音(诸如“a”、“e”、“i”、“u”等)提取的三角的分布中,一种三角分布的特征,即所谓的“基音宽度三角链”(PWTC),对于从声音信号探测基音来说是具有意义的。
图17显示了所示的原始声波的PWTC。
本发明人已经发现,PWTC具有以下的特性1)PWTC中的每一个三角的宽度彼此近似;2)PWTC中的三角表征了基音频率的振荡,因而PWTC的三角的宽度就近似于基音的宽度;3)PWTC中的三角具有足够大的高度,且它们的高度接近于PWTC中与它们相邻的三角的高度;4)PWTC中的三角具有正/负交错性和级联的特性。交错的意思是一个正三角(诸如图17中的三角Ti)的高度的绝对值近似等于其最接近的负三角(诸如图17中所示的三角Ti+1)的高度的绝对值。级联的意思是三角Ti的顶点时刻(iCenterTime)近似等于三角Ti+1的起始时刻(Ti和Ti+1具有相反的极性,即如果Ti是正三角,则Ti+1是负三角,且反之亦然),且三角Ti的开始时刻加上其宽度近似等于三角Ti+1的顶点时刻,即Ti.iTime+Ti.nWidth≈Ti+1.iCenterTime。
借助这些特征,可以判定一个三角是否属于PWTC。因此,对于很多元音,很容易探测它们的基音。通过实验,本发明人已经发现,这种PWTC法对于本发明人测试过的几乎所有的汉语元音都非常成功,其正确基音探测率几乎达100%。
PWTC法改善了基音探测的效率,然而,它在很多情况下却失败了。例如,当从具有背景噪音的语音中探测基音(这是日常生活中的语音基音探测中通常遇到的情况)时,以及从汉语以外的某些语言(例如英语或日语)的语音探测基音的场合等,PWTC法都未能给出令人满意的结果。
通常的汉语元音倾向于比英语和日语的元音长。换言之,英语和日语的元音的基音频率的分量倾向于比汉语语音的基音频率的分量弱,因而难于甚至不可能探测到英语或日语中的PWTC。本发明人相信这是PWTC法在上述场合下未能探测出基音的主要原因之一。
图18在其上部显示了一个日本女子发出的元音“ou”的波形,它是具有弱的基音频率的元音的一个例子;图18还在该图的下部显示了用WTT从该波形提取的三角。
如图18所示,基音宽度三角链(PWTC)在某些区域变弱甚至断开。通过对不同语言的各种元音的WTT结果的深入研究,本发明人发现,具有弱基音的元音具有如下特征1)在弱基音部分中,能量主要分布在某些窄的三角上,这些三角的宽度小于PWTC中的三角的宽度,因而这些窄的三角都具有较大的高度;2)在这些具有弱的基音频率分量的元音中,基音宽度的周期性仍然存在-即使是在其中PWTC很弱或断开的区域中也仍然存在,但这种周期性由这些窄的三角的高的变化的周期性所反映,而不是由基音频率分量本身所反映。由于三角的高度对应于能量,所以窄的三角的高度的变化的这种周期性被称为“能量周期性”;3)具有这种能量周期性的基音多出现在具有较大的高频分量的元音中,诸如“a”、“e”中。
借助这些研究和考虑,本发明人设计了本发明的基音探测方法和设备。
图19显示了本发明的基音探测设备的一个最佳实施例。
如图19所示,如上所述的一个输入信号分割单元111把输入的声音信号分割成区段;如上所述的一个区段选择单元112为本发明的基音探测设备1900选择适当的区段。输入信号分割单元111可以采用如上所述的静音段/信号区段方法或其他适当的方法来对输入的所要探测的声音信号进行分割。区段选择单元112根据例如区段的能量水平来选择区段。
本发明的基音探测设备1900包括如上所述的本发明的WTT部分100,用于对区段选择单元112选择的声音信号的区段进行WTT变换;一个能量-宽度谱计算单元1901,用于根据WTT部分100的WTT变换的结果获得一个能量-宽度谱;一个候选链合峰确定单元1902,用于在能量-宽度谱计算单元1901获得的能量-宽度谱中确定一个候选链合峰;一个周期性确定和评价单元1903,用于确定和评价该候选链合峰的周期性;以及,一个基音确定单元1905,用于根据该周期性确定和评价单元1903的确定和评价结果来确定声音信号的基音。图19所示的基音探测设备的实施例的操作将在以下描述。
图20是显示图19所示的基音探测设备的实施例的操作的流程图。
如图20所示,在步骤S2001,区段选择单元112选定的声音信号的一个区段被WTT部分100进行WTT变换。
随后,在步骤S2003,能量-宽度谱计算单元1901计算当前的信号区段的一个能量-宽度谱。
具体地,作为一种实际的措施,能量-宽度谱计算单元1901把一个区段的信号进一步分割成子区段,并为每一个子区段计算能量-宽度谱。这些子区段可具有相同的长度,也可以具有不同的长度。
图21显示了图18的上部所示的语音信号的一个能量-宽度谱。在图21中,纵坐标表示了三角的宽度(注意纵坐标的标度不是线性的),且横坐标表示了具有相同的宽度的三角的总能量。在图21中,纵坐标的单位是取样周期。对于图21的例子,取样频率是11025/秒,因而纵坐标的单位是1/11025秒。因此,在如图18所示的能量-宽度谱中位于宽度14的线代表了具有14个取样周期的宽度的所有三角的能量之和。
一个子区段的长度也可以被设定为比人类语音中最长的基音长的一个值。例如,子区段的长度的下限可以是11025取样/秒的速率下的640个取样,或640/11025=0.0580秒。该子区段的上限可以是不同的。但优选的是子区段的长度的上限在0.0580至0.2900秒的范围内,即为下限的一至五倍。更长的子区段长度将使处理减慢。
通常,取样频率就是A/D转换器107的取样速率。然而,本发明不限于1/11025秒的取样周期。进一步地,本发明可采用任何其他的宽度单位来构造能量-宽度谱,如本领域的技术人员所能够理解的。更高的取样速率,即在给定的时间中更多的取样,将使处理速度减慢并将使谱中的峰的分离变得精细。另一方面,可以采用一种峰结合处理来减小需要进一步处理的峰的数目,如以下所要描述的。
在图21中所示的用于计算当前的子区段的能量-宽度谱的处理的例子中,谱中的各个峰的长度(高度)是通过对该峰的所有三角的高度求和而计算出来的。对于在当前子区段的边界处的三角,只有它在当前的子区段内的宽度的部分对求和有贡献。因而谱中各峰的能量可用以下公式计算E=∑(Ti的高度的绝对值)×(Ti在当前子区段内的宽度)/(Ti的宽度)其中Ti表示当前子区段内具有该峰的宽度的三角,且求和是对Ti(i=1,2,……)进行的。对于在该子区段内的不在该子区段的边界上的三角,Ti在该子区段内的宽度=Ti的宽度。但对于在边界上的三角,Ti在该子区段内的宽度是该三角的底边在当前子区段内的部分的长度。
回到图20,在步骤S2005,候选链合峰确定单元1902确定能量-宽度谱计算单元1901所获得的能量-宽度谱中的一个候选链合峰。该候选链合峰是这样的一个峰,即1)该峰具有大于Wcpmin的宽度,其中Wcpmin的值优选地是在5-9的范围内;且2)该峰的能量在具有大于Wcpmin的宽度的所有峰中是最大的。
在一个实施例中,取Wcpmin=7。
随后,在步骤S2007,周期性确定和评价单元1903确定候选链合峰确定单元1902是否确定了一个候选链合峰。如果在该子区段中未能确定候选链合峰,则判定在该子区段中不存在基音(步骤S2011),且处理进行到步骤S2019,以判定当前的子区段是否是该区段中的最后一个子区段。
如果在步骤S2007判定在该子区段中存在有一个候选链合峰,处理进行到步骤S2009,在那里周期性确定和评价单元1903对该候选链合峰中的三角的周期性进行评价,如以下所述的。
在此之后,在步骤S2013,基音确定单元1905判定该候选链合峰是否呈现出足够好的周期性,如以下所要描述的。如果步骤S2013的结果是“是”,基音确定单元1905判定当前子区段包含一个基音(步骤S2015),且其基音是候选链合峰中的三角的周期性的步长;随后处理进行到步骤S2019。如果步骤S2013的结果是“否”,则基音确定单元1905判定当前子区段不包含基音(步骤S2017),且处理进行到步骤S2019。
在步骤S2019,能量-宽度谱计算单元1901判定当前子区段是否当前的区段中的最后一个子区段。如果步骤S2019的结果是“是”,该区段的基音探测处理结束。如果步骤S2019为“否”,处理进行到步骤S2021,在那里能量-宽度谱计算单元1901开始处理下一个子区段。
图24显示了周期性确定和评价单元1903一个实施例的构成,且图22更为详细地显示了图20的步骤S2009中的用于评价和确定候选链合峰的三角的周期性的处理的一个实施例。
在图24所示的实施例中,周期性确定和评价单元1903包括一个候选峰探测单元1910,用于探测能量-宽度谱计算单元1901获得的能量-宽度谱中的候选峰;以及,一个最大高度三角链(MHTC)确定和评分单元1911,用于为每一个候选峰从候选链合峰中的三角确定一个候选最大高度三角链(候选MHTC),并用于对各个候选MHTC和对候选链合峰进行评分处理。
MHTC是候选链合峰中的三角的一个子集。MHTC具有以下的特征1)如果在当前子区段中存在有基音,则MHTC中的三角的宽度应该小于或等于基音宽度。在MHTC中的三角的宽度等于基音宽度的情况下,候选链合峰本身就是MHTC。
2)MHTC中的三角的高度(对于MHTC中的负三角则为其高度的绝对值)一般应该大于在一个基音宽度范围内的候选链合峰内的邻近三角的高度。
3)MHTC内的两个相邻的三角之间的高度差应该足够地小。
4)MHTC内的三角之间的间隔应该稳定,即Ti.iTime-Ti-1.iTime≈Ti+1iTime-Ti.iTime其中Ti(i=1,2,……)代表了MHTC中的三角,且iTime是Ti的起始时刻。
MHTC的确定和评分将在以下作更为详细的步骤。
图22显示了图24的周期性确定和评价单元1903的用于评价和确定候选链合峰的三角的周期性的处理的一个最佳实施例。
如图22所示,在步骤S2202,候选峰探测单元1910探测能量-宽度谱计算单元1901所获得的能量-宽度谱中的候选峰。
图23显示了步骤S2202中的候选峰探测处理的一个实施例。
如图23所示,在步骤S2302,候选峰探测单元1910选择谱中的一个峰。随后,在步骤S2304,判定当前峰中的三角的宽度是否在以下范围Wpmin≤峰的三角的宽度≤Wpmax其中Wpmin优选地在15-30(单位为1/11025秒,如上所述)的范围内,且在本实施例中被选择为20;Wpmax优选地在150-180(单位为1/11025秒,如上所述)的范围内,且在本实施例中被选择为160。
如果判定该峰的三角的宽度W不在Wpmin<W<Wpmax的范围内,则当前峰不被当作候选峰(步骤S2308),且处理进行到步骤S2312以判定当前峰是否是谱中的最后一个峰。
如果判定该峰的三角的宽度W处于范围Wpmin<W<Wpmax内,处理进行到步骤S2306,在那里判定当前峰的能量(该峰的高度)是否大于在图20的步骤S2005探测到的候选链合峰的能量的一个预定的百分比。该预定百分比的一个优选取值范围是1%-5%,且在本实施例中的取值为2%。如果步骤S2306的结果是“是”,则该峰被作为一个候选峰(步骤S2310),且处理进行到步骤S2312;如果步骤S2306的结果是“否”,则当前峰不被当作一个候选峰(步骤S2308),且处理进行到步骤S2312。
在步骤S2312,判定当前峰是否谱中的最后一个峰。如果步骤S2312的结果是“否”,谱中的下一个峰得到选择(步骤S2314),且处理随后返回到步骤S2304。如果步骤S2312的结果是“是”,探测候选峰的处理结束。
回到图22,在步骤S2202的候选峰探测之后,候选峰探测单元1910在步骤S2204判定在步骤S2202是否确定了至少一个候选峰。如果步骤S2204的结果是“否”,则处理进行到步骤S2216,在那里对该候选链合峰进行评分处理。
如果步骤S2204的结果是“是”,处理进行到步骤S2206,在那里MHTC确定和评分单元1911取一个候选峰。随后MHTC确定和评分单元1911为当前候选峰构造一个候选MHTC并为给当前候选峰构造的该候选MHTC计算一个得分(步骤S2208)。构造一个候选MHTC的处理将在以下进行详细描述。
随后,在步骤S2212,判定当前候选峰是否是能量-宽度谱中的最后一个候选峰。如果步骤S2212的结果是“否”,处理进行到步骤S2214,在那里候选峰探测单元1910取下一个候选峰并为其计算评分,且随后处理进行到步骤S2208,以为该下一个候选峰构造一个候选MHTC。如果步骤S2212的结果是“是”,处理进行到步骤S2216。
在步骤S2216,MHTC确定和评分单元1911为该候选链合峰计算一个得分。在此之后,处理进行到步骤S2218,在那里基音确定单元1905判定在步骤S2208为所有候选峰计算的所有得分和在步骤S2216为候选链合峰计算的得分中的最高得分是否等于或大于一个预定的阈值Pt。Pt的一个优选取值范围为150-500,且在本实施例中取Pt=200。如果步骤S2218的结果是“否”,处理进行到步骤S2220,在那里基音确定单元1905确定在当前子区段中没有基音,且用于当前子区段的基音探测处理结束。另一方面,如果步骤S2218的结果是“是”,处理进行到步骤S2222,在那里基音确定单元1905判定具有最高得分的峰是基音峰,且用于当前子区段的基音探测处理结束。
然而,应该理解的是,候选链合峰的三角的周期性可以利用图22中具体说明的处理以外的处理来进行评价。另外,周期性确定和评价单元1903能够以如图21所示的方式以外的方式实施。适合于评价和确定候选链合峰中的三角的周期性的所有方法和设置都处于本发明的精神和范围。
如上所述,在一个最佳实施例中,进行了一种峰结合处理以把两个或更多的相邻峰结合成一个单个的峰。
由于取样周期的存在,能量-宽度谱是一个分立的谱,且两个相邻的峰之间的最小间隔是一个取样周期。
通过把彼此相距足够近的峰结合成一个单个的峰,候选峰的数目得到减小,且基音探测处理的效率能够得到提高。
在一个最佳实施例中,对于其所对应的宽度为nPeak的一个峰,宽度在nPeak/6+2的范围内的所有峰都被结合到该峰中。即,其中的峰被结合的宽度范围随着被结合至的峰的高度而变。
如上所述,MHTC具有以下特征1)如果在当前子区段中存在有基音,则MHTC中的三角的宽度应该小于或等于基音宽度。在MHTC中的三角的宽度等于基音宽度的情况下,候选链合峰本身就是MHTC。
2)MHTC中的三角的高度(对于MHTC中的负三角则为其高度的绝对值)一般应该大于在一个基音宽度范围内的候选链合峰内的邻近三角的高度。
3)MHTC内的两个相邻的三角之间的高度差应该足够地小。
4)MHTC内的三角之间的间隔应该稳定,即Ti.iTime-Ti-1.iTime≈Ti+1iTime-Ti.iTime其中Ti(i=1,2,……)代表了MHTC中的三角,且iTime是Ti的起始时刻。
这些特征被用于对所构造的一个候选MHTC进行评分。
图27a显示了图22的步骤S2208中的用于为当前候选峰构造一个候选MHTC并为该候选MHTC计算一个得分的处理的一个最佳实施例。
如图27a所示,在步骤S2704,MHTC确定和评分单元1911选择候选链合峰中的、在从起始位置起一个候选峰的步长(即该峰内的三角的宽度)的范围内的、具有最大高度的三角并用它作为构造候选MHTC的起始三角。
在步骤S2706,MHTC确定和评分单元1911确定候选链合峰中的这样一些三角-即这些三角中的每一个距该起始三角的距离大致为当前候选峰中的三角的宽度的一个整数倍,且MHTC确定和评分单元1911用所有所确定的这些三角来构造一个候选MHTC。由于候选链合峰中的三角是级联的,如果一个以上的三角包含了距该起始三角(诸如距该起始三角的起始时刻)的距离为当前候选峰中的三角的宽度的一个整数倍的同一位置,则这些三角中其起始时刻最接近该位置的一个三角被选择作为候选MHTC的三角。或者,也可以选择这些三角中具有最大高度的一个三角来作为候选MHTC的三角。
在此,如以上为PWTC所说明的,级联的意思是三角Ti的顶点(iCenterTime)等于三角Ti+1的起始时刻(iTime)(Ti和Ti+1具有相反的极性,即如果Ti是正三角,则Ti+1是负三角,反之亦然)且三角Ti的起始时刻加上其宽度等于三角Ti+1的顶点时刻,即Ti.iTime+Ti.nWidth==Ti+1.iCenterTime。
如果在离起始三角当前候选峰的三角的宽度的一个整数倍的位置没有找到候选链合峰中的一个三角,则为该位置记录一个“缺陷”。缺陷对候选MHTC的得分没有正的贡献。
图27b显示了如何根据本发明的一个实施例来构造一个候选MHTC。
如图27b所示,根据本发明的一个实施例,对于具有宽度26的一个示例性候选峰,为了找到用于构造一个候选MHTC的一个起始三角,找到了一个第一三角(三角1),它的起始点(iTime1)在从当前子区段的起始时刻(iStar)至iStar+26(候选峰的步长)+5的区域内,且它具有该范围内的所有三角中最大的(正)高度,且它具有wp0-(wp0/6+2)与wp0+(wp0/6+2)之间的范围内的宽度,其中wp0是候选链合峰的宽度。
在找到了满足上述要求的第一三角之后,寻找一个第二三角(三角2),该第二三角的起始点在第一三角的起始点(iTime1)与iTime1+26之间的范围内,该第二三角具有在第一三角的起始点(iTime1)与iTime1+26之间的区域内的所有三角中的正的最大高度,且该第二三角具有在wp1-(wp1/6+2)与wp1+(wp1/6+2)之间的宽度,其中wp1是第一三角的宽度。
随后,在找到了满足上述要求的第二三角之后,寻找一个第三三角,该第三三角具有在第二三角的起始点(iTime2)与iTime2+26之间的起始点,具有在第二三角的起始点(iTime2)与iTime2+26之间的区域内的所有三角中的正的最大高度,并具有在wp2-(wp2/6+2)与wp2+(wp2/6+2)之间的宽度,其中wp2是第二三角的宽度。
因而通过重复该步骤,获得了一系列的三角,它们各自在26的范围内具有正的最大的高度。随后该一系列的三角被作为一个候选MHTC并对其进行评分(如以下所述)。
作为一个替换实施例,利用上述处理,找到各自在候选峰的宽度中具有最大绝对高度的负三角,且这些负三角被用来构造一个候选MHTC。且该候选MHTC得到评分。
作为一个进一步的替换实施例,利用上述处理,找到各自具有在其附近候选峰的宽度的范围内的最大高度的正的三角,并找到各自具有在其附近候选峰的宽度的范围内的最大绝对高度的负三角,且这些正三角和这些负三角分别构成一个候选MHTC。且这两个候选MHTC的每一个都得到评分。在这两个候选MHTC中,具有较高得分的一个得到选择,以进行随后的处理。
在候选MHTC的所有三角都被确定且候选MHTC已经利用找到的三角而得到构成之后,在步骤S2708,MHTC确定和评分单元1911对该候选MHTC的周期性进行评分,从而评价该候选MHTC是否可作为MHTC而被接受。
有各种方法可被用来对候选MHTC进行评分。以下描述本发明人采用的一种示例性的评分处理。
在该示例性处理中,首先,对于候选MHTC中的各个三角Ti,计算出一个第一得分1000×Min(Ti.nSwing,Ti-1.nSwing)/Max(Ti.nSwing,Ti-1.nSwing)其中Ti.nSwing是候选MHTC中的三角Ti的高度,且Ti-1.nSwing是候选MHTC中Ti的左(或右)相邻三角(Ti-1)的高度。Min(Ti.nSwing,Ti-1.nSwing)是Ti.nSwing与Ti-1.nSwing中的较小者,且Max(Ti.nSwing,Ti-1.nSwing)是Ti.nSwing与Ti-1.nSwing中的较大者。如果应该出现在MHTC中的一个三角未出现,即出现了一个缺陷,则上述得分被置为0。
随后对候选MHTC中的所有三角Ti计算平均得分s=∑1000×Min(Ti.nSwing,Ti-1.nSwing)/Max(Ti.nSwing,Ti-1.nSwing)/nChainStep其中nChainStep是MHTC中包含的步数(一步=候选峰中的一个三角的宽度)。
最后,计算一个得分Score=s×(nChainStep-nStepFlaw)/nChainStep)×(nChainLen/nSSegLen)其中nStepFlaw是当前子区段中的缺陷的总数,nChainLen是该候选MHTC的长度(从该候选MHTC的最左边的三角至该候选MHTC的最右边的三角的距离),且nSSegLen是当前子区段的长度。
在对当前候选峰的候选MHTC进行了评分之后,处理进行到图22所示的步骤S2212。
在另一最佳实施例中,在图22的步骤S2208中的MHTC构造和评分处理中,MHTC确定和评分单元1911不是只选择候选链合峰中的在从起始位置起一个步长范围内具有最大高度的三角并用其作为构造候选MHTC的起始三角,而是在候选链合峰中在从起始位置起一个候选峰步长(宽度)的范围内选择具有足够的高度的多个三角,通过利用每一个选定的三角作为起始三角,而为每一个起始三角构造一个候选MHTC,为构造的每一个候选MHTC进行评分,并选择具有最大得分的候选MHTC作为该当前候选峰的候选MHTC。
图28显示了这样一个最佳实施例的流程图。如图28所示,步骤S2804、S2806和S2808分别与步骤S2704、S2706和S2708相对应。在步骤S2810,该处理判定选择过的起始三角的数目是否达到了一个预定的数目N,在该数目N优选地在1-3的范围内。如果步骤S2810的结果是“否”,则处理进行到步骤S2814,在那里具有下一个高度的三角被选作起始三角。随后,处理返回到步骤S2806以为当前候选峰构造一个新的候选MHTC。另一方面,如果步骤S2810的结果是“是”,则处理进行到步骤S2816,在那里具有最高得分的候选MHTC被选择为当前候选峰的候选MHTC。
在此实施例中,步骤S2216的用于对候选链合峰进行评分的处理与上述的相同,即步骤S2216的处理与步骤S2208的得分处理相同,但评分是对候选链合峰的三角而不是对一个构造的候选MHTC的三角进行的。换言之,候选链合峰中的所有三角组成的序列被作为步骤S2216的评分处理的候选MHTC。
图25显示了对图18所示的声音信号进行的本发明的基音探测的结果,且图26显示了探测到的MHTC。
在图18和25所示的例子中,候选链合峰被确定为具有宽度为10的三角的峰,且探测到了三个候选峰,它们分别具有19、26和38的宽度。
在一个最佳实施例中,对于确定候选链合峰和候选峰,彼此足够接近的峰被结合成一个单个的峰,如上所述。在一个最佳实施例中,对于具有高nPeak的一个峰,在其周围nPeak/6+2的范围内的所有峰都被结合到该峰中。在这样的峰结合处理之后,在宽度19附近的两个峰被结合成了在宽度19处的一个单个的峰,且在宽度38附近的两个峰被结合成了在38处的一个单个的峰,且在10处的几个峰被结合成了在宽度10处的一个峰。
这样的峰结合处理显著地减小了所要测试的峰的数目并大大地改善了基音探测的效率。对于图19和25所示的例子,候选峰的数目被限制在3个。
随后,周期性确定和评价单元1903为每一个候选峰构造一个候选MHTC,并为每一个候选峰计算一个得分,如以上在步骤S2208中描述的。作为一种替换最佳实施例,周期性确定和评价单元1903包括一个候选峰预筛选单元,该单元进行一种预筛选处理,其中具有太小而不能成为基音宽度的三角宽度的候选峰(即该候选峰的宽度与候选链合峰的宽度过于接近)被放弃。然而,应该注意的是,候选峰的宽度太短而不能成为基音宽度,并不意味着候选链合峰的宽度(它比候选峰的宽度更短)不能成为基音宽度。其原因在于如果一个候选峰要成为基音峰,其宽度必需比候选链合峰的宽度大得多。
所以,如图25所示,在宽度19处的候选峰在预筛选处理中被判定为太短而不能成为基音宽度,并被从MHTC构造和评分处理放弃。这进一步改善了基音探测的效率。
图29b在其上部显示了具有强的基音频率的一个语音信号例子的波形,并在其下部显示了用WTT从该波形提取出的三角;且图29a显示了图29b的上部所示的该声音信号的能量-宽度谱。如图29a所示,该候选链合峰被确定为处于宽度38,且通过用该候选链合峰中的三角构造候选MHTC,对于候选链合峰本身获得了669的最大得分。该得分高于基音探测的阈值。
因而该候选链合峰本身被探测为基音峰。
图30b在其上部显示了包含元音的一个语音信号的另一个例子,并在其下部显示了用WTT从该语音信号提取的三角;且图30a显示了图30b的上部所示的语音信号的能量-宽度谱。如图30a所示,在宽度10处找到了候选链合峰,且通过用候选链合峰中的三角构造候选MHTC,为宽度为大约27的峰获得了一个最大得分641。该得分高于基音探测的阈值。所以宽度27处的候选峰被探测为基音峰。
图31a在其上部显示了一个声音信号段的例子的波形,该语音信号被探测为高频噪音段,图31a还在其下部显示了用WTT从该波形提取的三角。图31b显示了图31a的上部所示的高频噪音声音信号的能量-宽度谱。如图31b所示,该信号只在高频具有高的峰,且在基音频率区中只有非常低的能量。所以对于该信号未能发现高于阈值的候选峰。因而该信号段被探测为一个高频噪音段。
图32a在其上部显示了一个声音信号段的一个例子的波形,该声音信号段被探测为一个噪音段。图32a还在其下部显示了用WTT从该波形提取的三角。图32b显示了图32a的上部所示的噪音声音信号的能量-宽度谱。如图32b所示,虽然在基音宽度的范围中有峰存在,但这些峰均没有等于或高于阈值的得分。因而该信号段被探测为噪音段。
图33中显示了根据本发明的一个实施例的基音探测设备的一个结果。如图33所示,标为RV的条所显示的是输入信号分割单元111的结果,该条的上方的值所表示的是各信号区段的信号电平。标为HPN的条所表示的是根据本发明的基音探测设备进行的基音探测处理的结果,且它显示出输入的声音信号被分成为基音段、高频噪音段、噪音段和静音段。
如图33所示,本发明的基音探测设备所处理的一个声音信号被分成了静音段、高频噪音段、基音段和噪音段。被如此分割的该声音信号被输入到图39所示的本发明的句子探测设备3900。如图39所示,句子探测设备3900的段结合单元3901把由高频噪音段、基音段、噪音段组成的非静音部分转换成由词段、间隙段和辅音段组成的非静音部分。
词段是包含基音的段。如果一个词段的任何部分不包含基音,则该部分要从词段中除去,因而在词段中的各处总是出现有基音。
辅音段是包含高频噪音的段。由于在人类语音中辅音必须与具有基音的元音一起出现,因而高频噪音段只有紧跟在一个基音(词)段之后或刚好在其之前才可以是一个辅音段,否则它将被认为是非辅音的高频噪音段。
间隙段是既不是基音段又不是辅音段的段。所以两个基音之间的既不是基音段又不是辅音段的段都被确定为间隙段。另外,如果在两个相邻的基音段之间未探测到任何间隙段,则在这两个相邻的基音段之间加入一个宽度为零的间隙段,以便判定在该宽度为零的间隙的位置是否应该做两个句子之间的分离。
图39显示了根据本发明的句子探测设备的一个实施例的设置;该实施例包括一个根据本发明的基音探测部分、一个段结合单元3901、一个句子间隙探测单元3902、一个句子评分单元3903、以及一个句子判定单元3904。
虽然在图39中未显示,一个输入信号分割单元和一个区段选择单元(如图19所示的输入信号分割单元111和区段选择单元112)可被用来把输入的声音信号分割成静音区段和信号区段,并选择信号区段以由句子探测设备的随后的级进行处理。
以下将结合图34-38来详细描述图39所示的根据本发明的一个实施例的句子探测设备的每一个部分的工作。
图34显示了根据本发明的一个实施例的探测句子处理的流程图。如图34所示,在句子探测处理开始之后,根据本发明的一个实施例的基音探测设备(诸如以上描述的基音探测设备100或100′)进行基音探测(步骤S3402)。如以上所描述的,借助本发明的基音探测处理,输入的声音信号被分成了基音段、噪音段、高频噪音段、以及静音段,如图33中标为“HPN”的条所示。
随后,处理进行到步骤S3404,在那里段结合单元3901进行段结合处理,如以下所详细描述的。
图35是显示由段结合单元3901进行的根据本发明的一个实施例的图34的步骤S3404的处理的流程图。
参见图35,在图34的步骤S3404的处理开始之后,判定当前的段(基音段、高频噪音段、噪音或静音段)是否最后一个段(步骤S3502)。如果步骤S3502的结果是“是”,则流程进行到步骤S3512,在那里判定所要处理的文档是否结束。如果步骤S3512的是“是”,则最后一个间隙被写入且步骤S3404的处理结束。如果步骤S3512的结果是“否”,则处理进入等候状态(步骤S3516)。
另一方面,如果步骤S3502的结果是“否”,处理进行到步骤S3504,在那里判定当前的段是否是一个适当的分割段。
图38显示了根据本发明的一个实施例的用于判定当前的段是否一个适当的分割段的处理的流程图。在图38所示的实施例中,首先判定当前的段是否是一个基音部分(步骤S3802)。如果“是”,则判定当前的段不是一个分割段(步骤S3804),且处理进行到图35的步骤S3518。如果步骤S3802的结果是“否”,则判定当前的段是否一个静音段(步骤S3806)。
如果步骤S3806的结果是“是”,则判定当前段的宽度是否大于一个阈值L1=m_nMinBreakSVWidth(步骤S3808)。如果步骤S3808的结果是“否”,则当前段被判定为不是一个分割段(步骤S3812),且处理进行到图35的步骤S3518。另一方面,如果步骤S3808的结果是“是”,则当前段被判定为是一个分割段(步骤S3822),且处理进行到图35的步骤S3506。
如果步骤S3806的结果是“否”,则判定当前段是否是一个噪音段(步骤S3810)。
如果步骤S3810的结果是“是”,则判定当前段的长度是否大于一个阈值L2(步骤S3816)。如果“是”,则当前段被判定为是一个分割段(步骤S3822),且处理进行到图35的步骤S3506。
如果步骤S3816的结果是“否”,则当前段被判定为不是一个分割段(步骤S3820),且处理进行到图35的步骤S3518。
如果步骤S3810的结果是“否”,表明当前段是一个高频噪音段,则判定该当前段的长度是否大于一个阈值L3(步骤S3814)。如果“是”,则当前段被判定为是一个分割段(步骤S3822),且处理进行到图35的步骤S3506。
如果步骤S3814的结果是“否”,则当前段被判定为不是一个分割段(步骤S3818),且处理进行到图35的步骤S3518。
在另一实施例中,采用了另一种处理来进行步骤S3504的判断一当前段是否是一个分割段的处理。在该实施例中,先判定当前的段是否是基音段;如“是”,则不是分割段;如“否”,则判断当前段的长度是否大于一个值L4=m_nMaxConsHLength/2。如当前段的长度大于L4,则是分割段;如不大于L4,则判断当前段是否是静音段,如“是”,则其不是分割段,如“否”,则判断其是否高频噪音段;如是高频噪声,则不是分割段。如不是高频噪音段,则判断其长度是否大于L1;如其长度大于L1,则其是分割段,否则就不是分割段。
L4的一个优选取值范围是1000-4000个取样(在11025取样/秒的取样速率下),且在本实施例中取L4=3000个取样。
L1的一个优选取值范围是200-1000个取样,且在本实例中取L1=610。
返回到图35,当在步骤S3504当前段被判定为不是一个分割段时,处理进行到步骤S3518,且当前段的下一个段被取作当前段以进行处理,且随后处理进行到步骤S3502。
当在步骤S3504当前段被判定为是一个分割段时,处理进行到步骤S3506,在那里前一个分割段被写入。
随后处理进行到步骤S3508,在那里判定当前的分割段与前一个分割段之间的每一个高频噪音段是否是一个辅音段。
有两种辅音前辅音和后辅音。前辅音是在一个基音之前的一个辅音,且后辅音是在一个基音之后的一个辅音。
在本发明的一个实施例中,根据从一个高频噪音段至与其最近的一个基音段的距离(时间),来判定该高频噪音段是否是一个辅音段。具体地,在一个实施例中,从高频噪音段的起始点至最近的基音段的起始点的时间,得到了测量,并与一个阈值D进行比较。如果该时间大于或等于D,则该高频噪音段被判定为一个非辅音高频噪音段。另一方面,如果该时间小于D,则该高频噪音段被判定为一个辅音段。
D的一个优选取值范围是300-800个取样(在11025取样/秒的速率下),且在本实施例中取D=600个取样。
随后,图35的处理进行到步骤S3510,以通过计算前一个分割段与当前分割段之间的词(基音)和辅音段的总长度与前一个分割段与当前分割段之间的其余的段的总长度的比值,来判定前一个分割段与当前的分割段之间的区域是否应该整个被作为一个间隙。
当一个人讲话时,在一个句子的持续时间里,词(基音)和辅音的总长度应该占据该持续时间的一个足够大的部分。换言之,在一个句子的持续时间中,词段与辅音段的总长度与其余段的总长度的比值应该大于一定的值。
因而在图35的步骤S3510,前一个分割段与当前分割段之间的区域中的基音段与辅音段的和得到计算,该区域中基音与辅音段之外的段的和得到计算,且基音与辅音段的和与基音与辅音段之外的段的和的比值得到计算。随后,该比值被与一个阈值TA进行比较以判定该比值是否大于等于TA。如果该比值大于或等于TA,则该区域被判定为是一个词区。如果该比值小于TA,则前一个分割段与当前分割段之间的该区域整个地被判定为一个间隙。
TA的一个优选取值范围为0.8-1.2,且在本实施例中取TA=1.0。
在步骤S3510之后,处理返回到步骤S3502。
回到图34,在步骤S3404之后,处理进行到步骤S3406,在那里句子间隙确定单元3902确定一组句子间隙。
图36是流程图,用于显示由句子间隙确定单元3902进行的根据本发明的一个实施例的图34的步骤S3406的处理。
如图36所示,在步骤S3406的处理开始之后,为在图35的步骤S3510确定的每一个间隙计算一个权。
为了计算一个当前间隙的权,首先判定在该间隙之前与之后是否都有一个基音。
如果在该隙之前和之后都存在一个基音,则计算maxP=这两个基音中的最大的基音,以及minP=这两个基音中的最小的基音;如果该隙的宽度=0,则该间隙的权=(MIN_SPECTRUM_RANGE×4)×(maxP-minP)/minP且如果该间隙的宽度≠0,则该间隙的权=nWidth+((nWidth×(maxP-minP))/minP其中nWidth是该间隙的宽度,且MIN_SPECTRUM_RANGE是如上所述的能量-宽度谱的范围。在一个实施例中,MIN_SPECTRUM_RANGE被取为640个取样。也可以采用其他的MIN_SPECTRUM_RANGE值。
如果在该间隙之前或之后没有基音,则该间隙的权=该间隙的宽度由此,为每一个间隙计算出了一个权。
随后,处理进行到步骤S3603,在那里句子间隙确定单元3902检查这些间隙中的一个间隙的宽度是否大于一个阈值TW,其中TW=m_nMaxSentenceCutW,TW的一个优选取值范围是3000-6000个取样(速率为11025取样/秒),且在本实施例中取TW=4000个取样。
如果没有找到宽度大于TW的间隙,则处理进行到步骤S3604,在那里处理等候将要到来的输入信号。
另一方面,如果在步骤S3603找到了宽度大于TW的一个间隙,则该间隙被当作一个截止间隙且处理进行到步骤S3605,在那里判定从开始位置至该截止间隙的区域的长度是否大于一个阈值TL1,其中
TL1=m_nMaxSentenceLengthTL1的一个优选取值范围是70000-110000个取样(11025取样/秒),且在本实施例中取TL1=88000个取样。
如果步骤S3605的结果是“否”,则处理返回。如果步骤S3605的结果是“是”,则处理进行到步骤S3610,在那里判定在开始位置与该截止间隙之间的区域中是否存在一个间隙。
如果步骤S3610的结果是“否”,则处理返回。如果步骤S3610的结果是“是”,则处理进行到步骤S3615,在那里从所找到的间隙中选择具有最大的权(在步骤S3602计算出的权)的一个间隙作为当前的间隙。
如果在步骤S3610中只找到了一个间隙,则它在步骤S3615被选择为当前的间隙。
随后,在步骤S3620,判定该当前间隙是否是一个分割间隙。
在本发明的一个实施例中,在步骤S3620的处理中,判定该当前间隙的宽度是否大于Max(TWD1,TWD2),其中TWD1=m_nMaxSentenceCutW是将要被探测为一个分割间隙的间隙的下限,且TWD2=m_nMaxSentenceCutWRatio×截止间隙的宽度如果该结果是“否”,则当前的间隙被判定为不是一个分割间隙,且处理返回。
TWD1的一个优选取值范围为3000-6000个取样(11025取样/秒),且在本实施例中取TWD1=4000个取样。TWD2的一个优选取值范围是当前的截止间隙宽度的60%-95%,且在本实施中取TWD2=80%×(当前截止间隙的宽度)。
另一方面,如果步骤S3620的结果是“是”,表明当前的间隙是一个分割间隙,则处理进行到步骤S3625,在那里判定从开始位置到该分割间隙的部分和从该分割间隙到截止位置的部分是否应该被进一步分割。
在本发明的一个实施例中,判定从开始位置到该分割间隙的部分和从该分割间隙到截止间隙的部分中的每一个是否大于一个阈值TL2,其中TL2=m_nMaxSentenceLengthTL2的一个优选取值范围是35000-55000个取样(11025取样/秒),且在本实施例中取TL2=44000个取样。
如果这两个部分都小于TL2,则该分割间隙被作为一个句子间隙,且处理返回。如果这两个部分中的一个大于TL2且另一个小于TL2,则该分割间隙被作为一个句子间隙,且这两个部分中大于TL2的一个部分受到从步骤S3610至S3625的处理。借助这样的递归处理,从开始位置到截止间隙的区域中的所有句子间隙都被探测出。
随后,通过以当前的截止间隙作为开始位置,处理返回到步骤S3603且从步骤S3603至步骤S3625的处理以及该递归处理(如需要的话)得到重复,直到输入的声频文档结束。探测到的每一个分割间隙和截止间隙被作为一个句子间隙。这样,在当前的声频文档中确定了一组句子间隙,该组句子间隙包括了所有的分割间隙和截止间隙,且每对相邻的句子间隙之间的区域被作为一个候选句子区。
这些候选句子区-其每一个都作为相邻的一对句子间隙之间的区域而得到确定-将受到判定,以确定其每一个是一个句子、一段音乐或语音、 还是一段噪音,如以下所描述的。
回到图4,在其中所有的句子间隙和候选句子区得到确定的步骤S3406之后,处理进行到步骤S3408,在那里句子评分单元3903为每一个候选句子区计算出一个得分,如以下结合图37所描述的。
如图37所示,在步骤S3702,为当前的候选句子区计算一个得分,其中每一个候选句子区的得分根据以下的原则计算1)如果一个候选句子区中的所有基音段的总长度较大,则该候选句子区的得分较高;2)如果一个候选句子区中的所有基音的总能量较高,则该候选句子区的得分将较高,因为在人类讲话中大部分的能量通常都在基音中。
现在描述根据本发明的一个实施例的用于对一个候选句子区进行评分以判定它是否是一个真正的句子的一种处理。
首先,对一个候选句子区中的所有词段(各具有基音的段),计算(1)a11=∑(段长度);(2)a12=∑(基音长度×段长度);(3)a13=∑(基音得分×段长度),其中该基音得分为如图22的步骤S2208或步骤S2216所计算的得分;(4)a14=∑(段的能量×段的长度),其中该能量由图19所示的输入信号分割单元111确定;其次,对于该候选句子区中的所有间隙段计算,计算(1)b11=∑(段长度);(2)b12=∑(段的能量×段的权),其中段的能量由图19所示的输入信号分割单元111确定且段的权如上所述地计算出(图36的步骤S3602);第三,对于该候选句子区中的所有辅音段,计算(1)c11=∑(段长度)(2)c12=∑(段的能量×段的长度),其中该能量由图19所示的输入信号分割单元111确定;第四,计算nEnergyScore=a14/(a14+b12+c12)最后,计算该候选句子区的得分nScore=a13×nEnergyScore/(a11+b11)在为每一个候选句子区计算出一个得分之后,句子判定单元3904把该得分与一个阈值TS=m_nSentenceThreshold进行比较(步骤S3704)。
TS的一个优选取值范围为60-150,且在本实施例中取75=80。如果该得分大于或等于该阈值,则该候选句子区被判定为是一个句子或一个音乐/语音区(步骤S3706)。否则,如果该得分小于该阈值,则该候选句子区被判定为不是一个句子(步骤S3708)。
作为一个替换实施例,采用了两个预定的阈值TS1和TS2,其中O<TS2<TS1。。且为每一个候选句子区计算出一个得分被与TS1和TS2相比较。如果该得分≥TS1,则相应的候选句子区被判定为是一个句子。如果TS1>得分≥TS2,则相应的候选句子区被判定为是一个音乐/语音区。如果得分<TS2,则相应的候选句子区被判定为是一个噪音区。
作为一个进一步的替换实施例,对于每一个探测的句子,检查刚好在其之前的段是否是一个辅音段。如果是,则该辅音段被包括到该句子中。这是由于在人类讲话中在一个句子之前的辅音可能具有非常低的能量。
图33中显示了根据本发明的一个实施例的句子探测的结果。在图33中,标为W_G的条是根据本发明的一个实施例的句子间隙确定单元3902的结果。另外,标为“Senten”的条是根据本发明的一个实施例的句子探测设备的最后结果。
虽然在以上的描述中为基音探测只选择了一个候选链合峰,但在本发明的范围内也可以选择一个以上的候选链合峰并对每一个选定的候选链合峰进行如上所述的基音探测处理,如本领域的技术人员所能够理解的。
虽然术语“能量-宽度谱”被用在本说明书中,应该注意的是也可以采用其他能够反映具有相同宽度的三角的高度之和的变量。且在本说明书中,即使谱中的峰的高度的标度实际上不与能量成正比,也仍然使用了术语“能量-宽度谱”。
应该理解的是,用于MHTC的得分处理不限于在此具体描述的例子。且在不脱离本发明的精神和范围的前提下可以采用能够反映MHTC的周期性的任何评分方法。
权利要求
1.用于分析波形信号的一种方法,包括一个顶点探测步骤,用于探测该波形信号的波形的一组顶点;以及一个三角提取步骤,用于按照顶点探测步骤探测到的该组顶点提取一组三角。
2.根据权利要求1的方法,进一步包括一个平滑点计算步骤,用于根据顶点探测步骤探测到的该组顶点计算一组平滑点。
3.根据权利要求2的方法,进一步包括从该组平滑点探测一组新的顶点;以及根据从该组平滑点探测到的该组新的顶点提取三角。
4.根据权利要求3的方法,进一步包括根据从该组平滑点探测的顶点计算下一组平滑点。
5.根据权利要求2的方法,进一步包括一个能量水平确定步骤,用于确定所提取的一组三角的能量水平是否高于一个预定的值。
6.根据权利要求5的方法,进一步包括如果在该能量水平确定步骤确定当前一组提取的三角的能量水平高于该预定值,根据探测到的一个当前一组顶点计算当前一组平滑点;从该当前一组平滑点探测下一组顶点;根据该下一组顶点提取下一组三角;以及如果该能量水平确定步骤确定该当前一组三角的能量水平不高于该预定值,停止计算该当前一组平滑点。
7.根据权利要求1的方法,其中为每一个顶点提取一个三角。
8.根据权利要求7的方法,其中一个三角具有与时间轴平行地延伸的一条底边并具有一个高度。
9.根据权利要求8的方法,其中一个三角的底边的左端位于为之提取该三角的当前的顶点的左边最邻近顶点的时刻,且该三角的底边的右端位于当前顶点的右边的最邻近顶点的时刻,且该三角的高等于从当前顶点至连接该左边最邻近顶点和右边最邻近顶点的直线的投影线的长度的一半。
10.根据权利要求9的方法,进一步包括一个平滑点计算步骤,用于从一组顶点计算出一组平滑点,其中为每一个顶点都计算出一个平滑点,且为一个顶点计算出的一个平滑点位于该顶点的所述投影线的大体中点处。
11.根据权利要求10的方法,进一步包括从该组平滑点探测下一组顶点;以及根据从该组平滑点探测出的该下一组顶点而提取三角。
12.根据权利要求9的方法,进一步包括根据该下一组顶点计算下一组平滑点。
13.根据权利要求9的方法,进一步包括一个能量水平确定步骤,用于确定所提取的一组三角的能量水平是否高于一个预定的值。
14.根据权利要求13的方法,进一步包括如果在该能量水平确定步骤确定当前一组提取的三角的能量水平高于该预定值,根据探测到的当前一组顶点计算当前一组平滑点;从该当前一组平滑点探测下一组顶点;根据该下一组顶点提取下一组三角;以及如果该能量水平确定步骤确定该当前一组三角的能量水平不高于该预定值,停止计算该当前一组平滑点。
15.根据权利要求10的方法,进一步包括一个能量水平确定步骤,用于判定所提取的一组三角的能量水平是否高于一个预定的值。
16.根据权利要求15的方法,进一步包括如果在该能量水平确定步骤中判定所提取的前一组三角的能量水平高于该预定的值,从前一组平滑点探测当前一组顶点;根据该当前组顶点提取一个当前一组的三角;根据该当前一组的顶点计算当前一组的平滑点;以及如果在该能量水平确定步骤判定该前一组的三角的能量水平不高于该预定值,停止探测一当前一组的顶点。
17.根据权利要求13的方法,其中该能量水平确定步骤根据三角的宽度和高度确定一组三角的能量水平。
18.根据权利要求13的方法,其中该能量水平确定步骤根据该组三角的最小宽度和最大高度确定一组三角的能量水平。
19.根据权利要求15的方法,该能量水平确定步骤根据这些三角的宽度确定一组三角的能量水平。
20.根据权利要求15的实施例,其中该能量水平确定步骤根据一组三角的宽度和高度来确定这些三角的能量水平。
21.根据权利要求10的方法,进一步包括从上一组平滑点探测当前组的顶点;根据该当前组的顶点提取当前组的三角;以及根据该当前组的顶点计算当前组的平滑点。
22.根据权利要求17的方法,其中该能量水平确定步骤根据一组三角的平均宽度和高度来确定这些三角的能量水平。
23.根据权利要求19的方法,其中该能量水平确定步骤根据一组三角的平均宽度和高度来确定这些三角的能量水平。
24.根据权利要求17的方法,其中该能量水平确定步骤根据一组三角中的最小宽度和最大高度来确定这些三角的能量水平。
25.根据权利要求19的方法,其中该能量水平确定步骤根据一组三角中的最小宽度和最大高度来确定这些三角的能量水平。
26.根据权利要求1-25中的任何一项的方法,进一步包括一个信号分割和选择步骤,用于把该波形信号分割成区段、选择适合于进行分析的区段、并把选定的区段送到该顶点探测装置。
27.根据权利要求26的方法,其中该信号分割和选择步骤根据这些区段的能量水平来选择这些区段。
28.根据权利要求1-27中的任何一项的方法,进一步包括以下步骤探测模拟信号形式的波形信号;以及把该模拟波形信号转换成数字信号。
29.根据权利要求1-27中的任何一项的方法,进一步包括以下步骤从一种记录介质再现该波形信号。
30.用于分析一种波形信号的一种设备,包括顶点探测装置,用于探测波形信号的波形的一组顶点;以及三角提取装置,用于根据顶点探测装置所探测到的该组顶点来提取一组三角。
31.根据权利要求30的设备,包括一个平滑点计算装置,用于根据顶点探测装置探测到的该组顶点计算一组平滑点。
32.根据权利要求31的设备,其中该顶点探测装置从该组平滑点探测一组顶点;且该三角提取装置根据从该组平滑点探测到的该组顶点来提取三角。
33.根据权利要求32的设备,其中该平滑点计算装置根据从该组平滑点探测到的顶点来计算下一组的平滑点。
34.根据权利要求31的设备,进一步包括一个能量水平确定装置,用于确定提取的一组三角的能量水平是否高于一个预定的值。
35.根据权利要求34的设备,其中如果该能量水平确定装置判定所提取的当前一组三角的能量水平高于该预定值,则该平滑点计算装置根据所探测到的当前的一组顶点来计算当前的一组平滑点;该顶点探测装置从从该当前一组平滑点探测下一组的顶点;且该三角提取装置根据该下一组顶点而提取下一组的三角,且如果能量水平确定装置判定该当前一组三角的能量水平不高于该DY值,则该平滑点计算装置停止计算当前一组平滑点。
36.根据权利要求30的设备,其中为每一个顶点提取一个三角。
37.根据权利要求36的设备,其中一个三角具有与时间轴平行地延伸的一条底边并具有一个高度。
38.根据权利要求32的设备,其中一个三角的底边的左端位于为之提取该三角的当前的顶点的左边最邻近顶点的时刻,且该三角的底边的右端位于当前顶点的右边的最邻近顶点的时刻,且该三角的高度等于从当前顶点至连接该左边最邻近顶点和该右边最邻近顶点的直线的投影线的长度的一半。
39.根据权利要求38的设备,进一步包括一个平滑点计算装置,用于从一组顶点计算出一组平滑点,其中该平滑点计算装置为每一个顶点都计算出一个平滑点,且为一个顶点计算出的一个平滑点位于该顶点的所述投影线的大体中点处。
40.根据权利要求39的设备,其中该顶点探测装置还从该组平滑点探测下一组顶点;且该三角提取装置根据该下一组顶点而提取三角。
41.根据权利要求38的设备,其中该平滑点计算装置根据该下一组顶点计算下一组平滑点。
42.根据权利要求38的设备,进一步包括一个能量水平确定装置,用于判定所提取的一组三角的能量水平是否高于一个预定值。
43.根据权利要求42的设备,其中如果该能量水平确定装置判定所提取的当前一组三角的能量水平高于该预定值,则该平滑点计算装置根据所探测到的当前的一组顶点来计算当前的一组平滑点;该顶点探测装置从该当前一组平滑点探测下一组的顶点;且该三角提取装置根据该下一组顶点而提取下一组的三角,且如果能量水平确定装置判定该当前一组三角的能量水平不高于该预定值,则该平滑点计算装置停止计算当前一组平滑点。
44.根据权利要求39的设备,进一步包括一个能量水平确定装置,用于判定所提取的一组三角的能量水平是否高于一个预定值。
45.根据权利要求44的设备,其中如果该能量水平确定装置判定前一组提取的三角的能量水平高于该预定值,则该顶点探测装置从前一组平滑点探测当前的一组顶点;该三角提取装置根据该当前一组顶点提取当前一组三角;且该平滑点计算装置根据该当前一组顶点而计算当前一组平滑点;且如果该能量水平确定装置判定该前一组三角的能量水平不高于该预定值,则该顶点探测装置停止探测当前一组顶点。
46.根据权利要求34或42的设备,其中该能量水平确定装置根据三角的宽度和高度确定一组三角的能量水平。
47.根据权利要求34或42的设备,其中该能量水平确定装置根据三角的最小宽度和最大高度确定一组三角的能量水平。
48.根据权利要求44的设备,其中该能量水平确定装置根据该组三角的宽度和高度确定该组三角的能量水平。
49.根据权利要求44的设备,其中该能量水平确定装置根据从当前一组顶点提取的三角的最小宽度和最大高度确定该组三角的能量水平。
50.根据权利要求31或39的设备,其中该顶点探测装置从前一组平滑点探测当前一组顶点;该三角提取装置根据该当前一组顶点来提取当前一组三角;且该平滑点计算装置根据该当前一组顶点来计算当前一组平滑点。
51.根据权利要求46的设备,其中该能量水平确定装置根据该组三角的平均宽度和高度来确定该组三角的能量水平。
52.根据权利要求48的设备,其中该能量水平确定装置根据该组三角的平均宽度和高度来确定该组三角的能量水平。
53.根据权利要求46的设备,其中该能量水平确定装置根据该组三角的最小宽度和最大高度来确定该组三角的能量水平。
54.根据权利要求48的设备,其中该能量水平确定装置根据该组三角的最小宽度和最大高度来确定该组三角的能量水平。
55.根据权利要求30的设备,进一步包括一个信号探测装置,用于探测模拟信号形式的波形信号;一个模拟/数字转换装置,用于把该模拟波形信号转换成数字波形信号。
56.根据权利要求30的设备,进一步包括信号再现装置,用于从一个记录介质再现该波形信号。
57.用于探测声音信号中的基音的一种方法,包括一个波-三角变换(WTT)步骤,用于对该声音信号进行波-三角变换;一个能量-宽度谱计算步骤,用于计算该声音信号的一个能量-宽度谱;一个候选链合峰确定步骤,用于根据所述能量-宽度谱计算步骤所计算出的该能量-宽度谱来确定一个候选链合峰;以及一个周期性确定和评价步骤,用于确定和评价所述候选链合峰中的三角的周期性。
58.根据权利要求57的方法,其中该WTT步骤包括一个顶点探测步骤,用于探测该声音信号的波形的一组顶点;以及一个三角提取步骤,用于根据该顶点探测步骤探测到的该组顶点来提取一组三角。
59.根据权利要求57的方法,其中该WTT步骤进一步包括一个平滑点计算步骤,用于根据该顶点探测步骤探测到的一组顶点来计算一组平滑点。
60.根据权利要求57的方法,其中为每一个顶点提取一个三角,该三角具有与时间轴平行地延伸的一条底边并具有一个高度,三角的底边的左端位于为之提取该三角的当前的顶点的左边最邻近顶点的时刻,且该三角的底边的右端位于当前顶点的右边的最邻近顶点的时刻,且该三角的高度等于从当前顶点至连接该左边最邻近顶点和右边最邻近顶点的直线的投影线的长度的一半。
61.根据权利要求60的方法,该WTT步骤进一步包括一个平滑点计算步骤,用于从一组顶点计算出一组平滑点,其中为每一个顶点都计算出一个平滑点,且为一个顶点计算出的一个平滑点位于该顶点的所述投影线的大体中点处。
62.根据权利要求60的方法,其中该WTT步骤进一步包括一个能量水平确定步骤,用于确定所提取的一组三角的能量水平是否高于一个预定值。
63.根据权利要求62的方法,其中该WTT步骤进一步包括如果在该能量水平确定步骤确定当前一组提取的三角的能量水平高于该预定值,根据探测到的当前一组顶点计算当前一组平滑点;从该当前一组平滑点探测下一组顶点;根据该下一组顶点提取下一组三角;以及如果该能量水平确定步骤确定该当前一组三角的能量水平不高于该预定值,停止计算该当前一组平滑点。
64.根据权利要求61的方法,其中该WTT步骤进一步包括一个能量水平确定步骤,用于判定所提取的一组三角的能量水平是否高于一个预定的值。
65.根据权利要求64的方法,其中该WTT步骤进一步包括如果在该能量水平确定步骤中判定所提取的前一组三角的能量水平高于该预定的值,从前一组平滑点探测当前一组顶点;根据该当前组顶点提取当前组的三角;根据该当前组的顶点计算当前组的平滑点;以及如果在该能量水平确定步骤判定该前一组的三角的能量水平不高于该预定值,停止探测一当前组的顶点。
66.根据权利要求62-65中的任何一项的方法,其中该能量水平确定步骤根据一组三角的宽度和高度来确定该组三角的能量水平。
67.根据权利要求62-65中的任何一项的方法,其中该能量水平确定步骤根据一组三角的最小宽度和最大高度来确定该组三角的能量水平。
68.根据权利要求62-65中的任何一项的方法,其中该能量水平确定步骤根据一组三角的平均宽度和高度来确定该组三角的能量水平。
69.根据权利要求62-65中的任何一项的方法,其中该能量水平确定步骤根据一组三角的最小宽度和最大高度来确定该组三角的能量水平。
70.根据权利要求57-65中的任何一项的方法,其中能量-宽度谱计算步骤包括通过把具有能量-宽度谱中的一个峰所在的宽度的三角的绝对高度相加来计算该峰的能量。
71.根据权利要求57-65中的任何一项的方法,其中能量-宽度谱计算步骤包括把该声音信号分割成子区段;以及为每一个子区段计算该能量-宽度谱。
72.根据权利要求57-65和71中的任何一项的方法,其中能量-宽度谱计算步骤包括通过把具有相同宽度的三角的绝对高度相加,来计算该声音信号的能量-宽度谱。
73.根据权利要求71的实施例,其中该能量-宽度谱计算步骤包括按照如下公式计算声音信号的一个子区段的能量-宽度谱的一个峰的能量E=∑(Ti的高度的绝对值)×(Ti在该子区段内的宽度)/(Ti的宽度)其中Ti代表具有该子区段中的该峰所对应的宽度的三角,且求和是对Ti(i=1,2,……)进行的。
74.根据权利要求57-65和71中的任何一项的方法,其中该候选链合峰确定步骤包括通过从该能量-宽度谱选出这样的一个峰,即该峰对应于大于一个最小链合峰宽度的一个宽度且在所有对应于大于所述最小链合峰宽度的宽度的峰中具有最大的能量,并把该选出的峰作为一个候选链合峰,而确定一个候选链合峰。
75.根据权利要求74的方法,其中该周期性确定和评价步骤包括判定该候选链合峰确定步骤是否确定出了一个候选链合峰。
76.根据权利要求74的方法,其中当该候选链合峰确定步骤未确定出候选链合峰时,判定在该声音信号中不存在有基音。
77.根据权利要求71的方法,其中该周期性确定和评价步骤包括以下步骤探测该能量-宽度谱中的候选峰;为在该候选峰探测步骤中探测到的一个候选峰构造一个候选最大高度三角链;为该候选最大高度三角链计算一个得分;以及为该候选链合峰计算一个得分。
78.根据权利要求77的方法,其中探测能量-宽度谱中的候选峰的该步骤包括判定该能量-宽度谱中的一个峰的三角的宽度是否大于或等于一个最小候选峰宽度并小于等于一个最大候选峰宽度;以及判定该峰的能量水平是否大于或等于该候选链合峰的一个预定的百分比。
79.根据权利要求78的方法,进一步包括以下步骤当判定该能量-宽度谱中的一个峰的三角的宽度大于或等于一个最小候选峰宽度并小于或等于一个最大候选峰宽度且该峰的能量水平大于或等于该候选链合峰的一个预定百分比时,判定该峰是一个候选峰。
80.根据权利要求77的方法,进一步包括以下步骤把处于一个足够小的范围内的多个峰结合成一个峰。
81.根据权利要求80的方法,其中所述足够小的范围是根据在所述范围内的最高候选峰的位置和高度来确定的。
82.根据权利要求81的方法,其中所述范围随着在所述范围内探测到的最高的候选峰的高度而增大。
83.根据权利要求78的方法,进一步包括以下步骤把一个峰的宽度与该候选链合峰的宽度相比较且当该峰的宽度与该候选链合峰的宽度相比不够大时把该峰排除在候选峰之外。
84.根据权利要求80的方法,进一步包括把一个结合的候选峰的宽度与候选链合峰相比较且当该结合的候选峰的宽度与候选链合峰的宽度相比不够大时放弃该结合的候选峰。
85.根据权利要求77的方法,其中为在候选峰探测步骤中探测到的候选峰构造一个候选最大高度三角链的步骤包括在该候选链合峰中选择一个三角-该三角在近似等于所述候选峰的宽度的一个范围内具有最大高度;在该候选链合峰中确定一些三角-这些三角中的每一个距所述具有最大高度的三角的距离近似为该候选峰的宽度的一个整数倍;用该具有最大高度的三角和在上述三角确定步骤中确定的三角构成该候选峰的候选最大高度三角链。
86.根据权利要求85的方法,其中该候选最大高度三角链的该得分是根据在候选最大高度三角链中的三角的高度的一致性而计算的。
87.根据权利要求86的方法,其中该候选最大高度三角链的该得分是根据该候选最大高度三角链的长度而计算的。
88.根据权利要求87的方法,其中该候选最大高度三角链的该得分是根据该候选最大高度三角链中的缺少的三角的数目来计算的。
89.根据权利要求77的方法,其中该候选链合峰的该得分是根据该候选链合峰中的三角的高度的一致性来计算的。
90.根据权利要求77的方法,其中该候选链合峰的该得分是根据该候选链合峰的长度来计算的。
91.根据权利要求77的方法,其中该候选链合峰的该得分是根据该候选链合峰中缺少的三角的数目来计算的。
92.根据权利要求77的方法,进一步包括根据该比较步骤的结果来判定在当前子区段中是否存在有基音以及当判定在当前子区段中有基音时确定候选链合峰与候选峰中的哪一个峰是与基音对应的峰的步骤。
93.根据权利要求79的方法,进一步包括当判定最高得分大于该阈值得分时判定在当前子区段中存在有基音且获得了最高得分的候选峰或候选链合峰对应于该基音的步骤。
94.根据权利要求57的方法,进一步包括根据该周期性确定和评价步骤的结果判定在该声音信号中是否存在有基音以及当判定在该声音信号中有基音时判定候选峰与候选链合峰中的哪一个峰与该基音相对应的步骤。
95.根据权利要求57-65中的任何一项的方法,进一步包括一个输入信号分割步骤,用于把一个输入信号分割成区段;以及一个区段选择步骤,用于选择要送到所述设备的输入信号的区段。
96.根据权利要求95的方法,其中该输入信号分割步骤包括探测所要探测的信号的能量-时间曲线与一个能量阈值的交点;以及利用这些交点把该信号分割成区段。
97.根据权利要求95的方法,其中该输入信号分割步骤包括计算所述声音信号在一个预定的时间间隔上的平均值并用该平均能量作为该声音信号在该时间间隔上的能量。
98.根据权利要求97的方法,其中该能量阈值被适当地选择,从而使具有低于该能量阈值的区段不包含任何有意义的声音信号。
99.根据权利要求95的方法,其中该区段选择步骤包括只选择具有足够能量的区段以将其送到所述设备。
100.根据权利要求99的方法,其中该区段选择步骤包括通过把一个区段的最高能量值与一个阈值相比较并只在该区段中的最高能量值大于该阈值时才把该区段送至所述设备。
101.根据权利要求57-100中的任何一项的方法,进一步包括探测作为模拟信号的波形信号;以及把该模拟波形信号转换成数字波形信号。
102.根据权利要求57-100中的任何一项的方法,进一步包括从一个记录介质再现该波形信号。
103.用于探测一个声音信号中的基音的一种设备,包括用于对该声音信号进行波-三角变换的一个波-三角变换部分;能量-宽度谱计算装置,用于计算该声音信号的一个能量-宽度谱;一个候选链合峰确定装置,用于根据所述能量-宽度谱计算装置所计算出的能量-宽度谱来确定一个候选链合峰;以及一个周期性确定和评价装置,用于确定和评价所述候选链合峰中的三角的周期性。
104.根据权利要求103的设备,其中该波-三角变换部分包括一个顶点探测装置,用于探测该声音信号的波形的一组顶点;以及一个三角提取装置,用于根据该顶点探测装置所探测到的该组顶点来提取一组三角。
105.根据权利要求104的设备,其中该波-三角变换部分进一步包括一个平滑点计算装置,用于根据该顶点探测装置所探测到的一组顶点来计算一组平滑点。
106.根据权利要求103的设备,其中为每一个顶点提取一个三角,该三角具有与时间轴平行地延伸的一条底边并具有一个高度,该三角的底边的左端位于为之提取该三角的当前的顶点的左边最邻近顶点的时刻,且该三角的底边的右端位于当前顶点的右边的最邻近顶点的时刻,且该三角的高度等于从当前顶点至连接该左边最邻近顶点和该右边最邻近顶点的直线的投影线的长度的一半。
107.根据权利要求106的设备,该波-三角变换部分进一步包括一个平滑点计算装置,用于从一组顶点计算出一组平滑点,其中该平滑点计算装置为每一个顶点都计算出一个平滑点,且为一个顶点计算出的一个平滑点位于该顶点的所述投影线的大体中点处。
108.根据权利要求107的设备,其中该波-三角变换部分进一步包括一个能量水平确定装置,用于判定所提取的一组三角的能量水平是否高于一个预定的值。
109.根据权利要求108的设备,其中在该波-三角变换部分中如果该能量水平确定装置判定所提取的当前一组三角的能量水平高于该预定值,则该平滑点计算装置根据所探测到的当前的一组顶点来计算当前的一组平滑点;该顶点探测装置从从该当前一组平滑点探测下一组的顶点;且该三角提取装置根据该下一组顶点而提取下一组的三角,且如果能量水平确定装置判定该当前一组三角的能量水平不高于该DY值,则该平滑点计算装置停止计算当前一组平滑点。
110.根据权利要求107的设备,其中该波-三角变换部分进一步包括一个能量水平确定装置,用于判定所提取的一组三角的能量水平是否高于一个预定的值。
111.根据权利要求110的设备,其中在该波-三角变换部分中如果该能量水平确定装置判定前一组提取的三角的能量水平高于该预定值,则该顶点探测装置从前一组平滑点探测当前的一组顶点;该三角提取装置根据该当前一组顶点提取当前一组三角;且该平滑点计算装置根据该当前一组顶点而计算当前一组平滑点;且如果该能量水平确定装置判定该前一组三角的能量水平不高于该预定值,则该顶点探测装置停止探测当前一组顶点。
112.根据权利要求108-111中的任何一项的设备,其中该能量水平确定装置根据一组三角的宽度和高度来确定该组三角的能量水平。
113.根据权利要求108-111中的任何一项的设备,其中该能量水平确定装置根据一组三角的宽度和高度来确定该组三角的能量水平。
114.根据权利要求108-111中的任何一项的设备,其中该能量水平确定装置根据该组三角的平均宽度来确定该组三角的能量水平。
115.根据权利要求108-111中的任何一项的设备,其中该能量水平确定装置根据一组三角的最小宽度和最大高度来确定该组三角的能量水平。
116.根据权利要求103-111中的任何一项的设备,其中该能量-宽度谱计算装置通过把具有声音信号的能量-宽度谱中的一个峰所在宽度的三角的绝对高度相加,而计算出该峰的能量。
117.根据权利要求103-11中的任何一项的设备,其中该能量-宽度谱计算装置把该声音信号分割成子区段并为每一个子区段计算能量-宽度谱。
118.根据权利要求103-11和117中的任何一项的设备,其中该能量-宽度谱计算装置通过把具有相同的宽度的三角的绝对高度相加而计算该声音信号的能量-宽度谱。
119.根据权利要求117的设备,其中该能量-宽度谱计算装置按照如下公式计算该声音信号的一个子区段的能量-宽度谱的一个峰的能量E=∑(Ti的高度的绝对值)×(Ti在该子区段内的宽度)/(Ti的宽度)其中Ti代表具有该子区段中的该峰的宽度的三角,且求和是对Ti(i=1,2,……)进行的。
120.根据权利要求103-111和117中的任何一项的设备,其中该候选链合峰确定装置根据所述能量-宽度谱计算装置计算出的该能量-宽度谱并通过从该能量-宽度谱中选择具有如下特征的峰来确定一个候选链合峰-即该峰1)对应于大于一个最小候选峰宽度的宽度;且2)在对应于大于所述最小候选峰宽度的所有峰中具有最大的能量。
121.根据权利要求120的设备,其中该周期性确定和评价装置确定该候选链合峰确定装置是否确定了一个候选链合峰。
122.根据权利要求120的设备,其中当该候选链合峰确定装置没有确定任何候选链合峰时确定在该声音信号中没有基音。
123.根据权利要求117的设备,其中该周期性确定和评价装置进一步包括一个候选峰探测装置,用于探测该能量-宽度谱中的候选峰;以及一个候选最大高度三角链构造和评分装置,用于用该候选链合峰中的三角为所述候选峰探测装置所探测到的一个候选峰构造一个候选最大高度三角链、为该候选最大高度三角链计算一个得分、并为该候选链合峰计算一个得分。
124.根据权利要求123的设备,其中该候选峰探测装置进一步包括用于判定该能量-宽度谱中的一个峰的三角的宽度是否大于或等于一个最小候选峰宽度并小于或等于于一个最大候选峰宽度的装置;以及用于判定该峰的能量水平是否大于或等于该候选链合峰的一个预定的百分比的装置。
125.根据权利要求124的设备,其中当判定该能量-宽度谱中的一个峰的三角的宽度大于或等于该最小候选峰宽度并小于或等于该最大候选峰宽度且该峰的能量水平大于或等于该候选链合峰的该预定百分比时,该候选峰探测装置把该峰探测为一个候选峰。
126.根据权利要求123的设备,进一步包括一个候选峰结合装置,用于把在一个足够小的范围内的探测到的多个候选峰结合成一个候选峰。
127.根据权利要求126的设备,其中所述足够小的范围是根据在所述范围内探测到的最高的候选峰所对应的宽度和位置而确定的。
128.根据权利要求127的设备,其中所述范围随着在所述范围中探测到的最高候选峰所对应的宽度的增大而增大的。
129.根据权利要求123的设备,进一步包括峰预筛选装置,用于通过把一个结合的峰所对应的宽度与该候选链合峰所对应的宽度相比较并在该结合峰所对应的宽度与该候选链合峰的宽度相比不够大时放弃该峰。
130.根据权利要求126的设备,进一步包括峰预筛选装置,用于通过把一个峰所对应的宽度与该候选链合峰所对应形成宽度相比较并在该峰所对应的宽度与该候选链合峰的宽度相比不够大时放弃该峰。
131.根据权利要求123的设备,其中该候选最大高度三角链构造和评分装置通过以下处理而为该候选峰探测装置所探测到的候选峰构造一个候选最大高度三角链在该候选链合峰中在大体为所述候选峰的宽度的一个范围内选择具有近似最大高度的一个第一三角;在该候选链合峰中确定这样一些三角-即这些三角每一个都与所述第一三角相距大约为该候选峰的宽度的一个整数倍的距离;以及用该第一三角和在所述确定步骤中确定的这些三角来构成该候选最大高度三角链。
132.根据权利要求131的设备,其中该候选最大高度三角链构造和评分装置根据该候选最大高度三角链中的三角的高度的一致性来计算该候选最大高度三角链的该得分。
133.根据权利要求132的设备,其中该候选最大高度三角链构造和评分装置根据候选最大高度三角链的长度来计算该候选最大高度三角链的该得分。
134.根据权利要求133的设备,其中该候选最大高度三角链构造和评分装置根据该候选最大高度三角链中缺少的三角的数目来计算该候选最大高度三角链的该得分。
135.根据权利要求123的设备,其中该候选最大高度三角链构造和评分装置根据该候选链合峰中的三角的高度来计算该候选最大高度三角链的该得分。
136.根据权利要求123的设备,其中该候选最大高度三角链构造和评分装置根据该候选链合峰的长度来计算该候选最大高度三角链的该得分。
137.根据权利要求123的设备,其中该候选最大高度三角链构造和评分装置根据该候选链合峰中的缺少的三角的数目来计算该候选最大高度三角链的该得分。
138.根据权利要求123的设备,进一步包括一个基音确定装置,用于根据该比较装置的结果来判定在当前的子区段中是否存在基音,并用于当判定在当前子区段中存在有基音时确定候选峰与候选链合峰中的哪一个峰是与基音相对应的峰。
139.根据权利要求125的设备,进一步包括一个基音确定装置,该基音确定装置用于判定所计算出的得分中的最高得分是否高于或等于一个得分阈值,且当该最高得分高于或等于该得分阈值时确定在当前的子区段中存在有基音且为其获得了该最高得分的候选峰或候选链合峰所对应的宽度就是基音的宽度。
140.根据权利要求103的设备,进一步包括一个基音确定装置,该基音确定装置用于根据该周期性确定和评价装置的结果来判定在该声音信号中是否存在有基音,并用于当判定在该声音信号中存在有基音时判定候选峰与候选链合峰中的哪一个峰是与该基音相对应的峰。
141.根据权利要求103-111中的任何一项的设备,进一步包括一个输入信号分割装置,用于把输入信号分割成区段;以及一个区段选择装置,用于选择将要送至所述部分的输入信号区段。
142.根据权利要求141的设备,其中该输入信号分割装置包括用于探测该输入信号的能量-时间曲线与一个能量阈值的交点的装置;以及用于利用这些交点把该输入信号分割成区段的装置。
143.根据权利要求141的设备,其中该输入信号分割装置包括用于计算所述声音信号在一个预定的时间间隔上的平均值并用该平均能量作为该声音信号在该时间间隔上的能量的装置。
144.根据权利要求143的设备,其中该能量阈值被适当地选择,从而使具有低于该能量阈值的区段不包含任何有意义的声音信号。
145.根据权利要求141的设备,其中该区段选择装置只选择具有足够的能量的区段以将其送至所述设备。
146.根据权利要求145的设备,其中该区段选择装置通过把一个区段中的最高能量值与一个能量阈值相比较并只当该区段中的最高能量大于该阈值时把该区段送至所述设备而对该区段进行选择。
147.根据权利要求103-146中的任何一项的设备,进一步包括用于探测作为模拟信号的该波形信号的装置;以及用于把该模拟波形信号转换成数字波形信号的装置。
148.根据权利要求103-146中的任何一项的设备,进一步包括用于从一个记录介质再现该波形信号的装置。
149.用于从声音信号探测句子的一种方法,包括一个基音-噪声探测步骤,用于探测包含在该声音信号中的基音段、噪音段、以及高频噪音段;一个段结合步骤,用于把该基音段、噪音段、以及高频噪音段结合成由词段和间隙所组成的一个序列;一个句子间隙确定步骤,用于确定一组句子间隙,以在每一对相邻的句子间隙之间限定一个候选句子区;一个句子评分步骤,用于为至少一个候选句子区中的每一个候选句子区计算一个得分;一个句子确定步骤,用于根据该句子评分步骤的结果来判定所述至少一个候选句子区中的至少一个候选句子区是否是一个句子。
150.根据权利要求149的方法,其中所述基音-噪声探测步骤进一步包括如权利要求116-128所限定的处理。
151.根据权利要求149的方法,其中所述段结合步骤进一步包括把所述基音-噪声探测步骤探测到的基音段、噪音段和高频噪音段结合成基音段、辅音段和间隙。
152.根据权利要求151的方法,其中该段结合步骤进一步包括寻找一个截止段;确定在从一个开始位置至该截止段的一个区域中的辅音段;计算该区域中的基音段与辅音段的长度的总和与该区域中除了基音段与辅音段以外的部分的长度的总和的比值;把该比值与一个比值阈值相比较;在该比值小于该阈值的情况下把所述区域设定为一个间隙。
153.根据权利要求149的方法,其中该句子间隙确定步骤进一步包括为每一个间隙计算一个权;寻找具有大于一个第一阈值的宽度的一个间隙并将该间隙作为一个分割间隙;当在从一个开始位置至该分割间隙的区域中有一个间隙时,根据所述间隙的权来判定所述间隙是否可作为一个分割间隙;以及把所有所确定的分割间隙和截止间隙都取作句子间隙。
154.根据权利要求153的方法,其中所述间隙是否可被作为一个分割间隙还取决于所述间隙的宽度。
155.根据权利要求153的方法,其中所述间隙是否可被作为一个分割间隙还取决于所述区域的长度,且当所述区域的长度短于一个第二阈值时判定所述间隙不能被作为一个分割间隙。
156.根据权利要求155的方法,进一步包括a)当所述间隙被判定为是一个分割间隙时,判定从该开始位置至所述分割间隙的子区域的长度是否大于或等于一个第三阈值;b)当判定所述子区域的长度大于或等于所述第三阈值时,判定在该子区域中是否存在有至少一个间隙;以及c)当判定在该子区域中存在有至少一个间隙时,判定该至少一个间隙是否是一个分割间隙。
157.根据权利要求155的方法,进一步包括a)当所述间隙被判定为是一个分割间隙时,判定从该开始位置至所述分割间隙的子区域的长度是否大于或等于一个第三阈值;b)当判定所述子区域的长度大于或等于所述第三阈值时,判定在该子区域中是否存在有至少一个间隙;以及c)当判定在该子区域中存在有至少一个间隙时,判定该至少一个间隙是否是一个分割间隙。
158.根据权利要求156或157的方法,其中在步骤c)该至少一个间隙是否是一个分割间隙是根据该间隙的权和宽度而确定的。
159.根据权利要求156或157的方法,其中当在步骤b)判定在该子区域中存在有一个以上的间隙时,则在步骤c)该一个以上的间隙中的每一个间隙是否是一个分割间隙是按照间隙的权减小的顺序来进行判定的。
160.根据权利要求155的方法,其中当在所述区域中找到了一个以上的间隙时,这些间隙中的每一个按照间隙的权降低的顺序得到选择以判定选出的间隙是否是一个分割间隙。
161.根据权利要求153的方法,其中一个间隙的权取决于在该间隙之前和之后是否有基音存在以及该间隙的宽度。
162.根据权利要求149的方法,其中该句子评分步骤进一步包括为每一个候选句子区以这样的方式计算所述得分-即使得该候选句子区中的基音段的总长度越大则为该候选句子区计算出的所述得分就越大且该候选句子区中的所有基音的总能量越大则为该候选句子区计算出的所述得分就越大。
163.根据权利要求149的方法,其中所述基音-噪声探测步骤包含如权利要求116-161中的任何一项所限定的处理。
164.用于从一个声音信号探测一个句子的一种设备,包括一个基音-噪声探测部分,用于探测该声音信号中包含的基音段、噪音段、以及高频噪音段;一个段结合装置,用于把所述基音段、噪音段、以及高频噪音段结合成一系列的词段和间隙;一个句子间隙确定装置,用于确定一组句子间隙以在每一对相邻的句子间隙之间限定一个候选句子区;一个句子评分装置,用于为所述候选句子区中的每一个候选句子区计算一个得分;以及一个句子确定装置,用于根据该句子评分装置的结果来判定所述候选句子区中的每一个候选句子区是否是一个句子。
165.根据权利要求164的设备,其中所述基音-噪声探测部分包含如权利要求103-147中的任何一项所限定的设备。
全文摘要
本发明提供了一种独特的波-三角变换(WTT)方法,用于对波形信号进行变换处理。本发明还提供了基于WTT处理的基音检测方法和设备以及用于检测声音信号中的句子的句子检测方法和设备。本发明的基音探测设备和方法可以有效地探测声音信号中的基音。在该WTT处理中,输入的波形信号(诸如声音信号)被变换成一系列的三角,由这些三角构造了一种能量-宽度谱。对于包含语音的声音信号,其所变换出的三角在该能量-宽度谱中的分布通常具有特定的模式。通过对这种特定的模式进行分析,可以判定在该声音信号中是否存在有基音。具体地,对该能量-宽度谱中的一种候选链合峰中的三角的周期性进行确定和评价,可以判定基音的存在。
文档编号G01R29/00GK1430204SQ0114530
公开日2003年7月16日 申请日期2001年12月31日 优先权日2001年12月31日
发明者朱连山, 于涛 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1