提取语音信号的特性信息的语音信号预处理系统及方法

文档序号：2837181阅读：720来源：国知局

专利名称：提取语音信号的特性信息的语音信号预处理系统及方法
技术领域：
本发明总体上涉及一种语音信号识别系统，具体地说，涉及一种提取语音信号的特性信息的语音信号预处理系统。
背景技术：
通常，语音信号预处理对于根据语音信号的频谱消除语音信号的噪声和提取语音信号的特性信息是非常重要的处理，所述语音信号的特性诸如包络、基音、浊音/清音等，所述特性可用于下一阶段的语音信号处理系统(包括所有语音相关的系统，诸如编码器/解码器(编解码器)、合成、识别等)。
用于提取根据下一阶段的语音信号处理系统的需要而指定的语音信号的特性信息的系统通常可被应用于执行语音信号预处理的语音信号预处理系统。语音信号预处理系统的示例是用于提取语音信号的特性信息的预处理系统，所述系统基于在码激励线性预测(CELP)系列编解码器中经常使用的线性预测(LP)。
这种传统的语音信号预处理系统使用LP分析方法来检测语音信号并提取检测的语音信号的特性信息。使用LP分析方法，通过仅使用参数表示语音信号的特性信息可减少计算量。LP分析方法通过使用过去的语音信号样本从线性集假定当前样本，来从过去样本值估计当前值。这种传统LP分析方法具有下面的优点可使用较少的参数表示语音信号的波形和频谱，并且可通过简单计算提取这些参数。
然而，因为使用传统LP分析方法的语音信号预处理系统包括用于提供诸如语音信号的基音、频谱、浊音/清音等特性的各个系统，所以如果下一阶段的语音信号处理系统被改变，则语音信号预处理系统也应该被改变。

发明内容
本发明的目的在于实质上至少解决上述问题和/或缺点，并至少提供下述优点。因此，本发明的目的在于提供一种提取语音信号的特性信息的语音信号预处理系统和方法，从而可通过合成地提取语音信号的特性信息来选择性地提供由各种语音信号处理系统请求的语音信号的特性。
根据本发明的一方面，提供一种语音信号预处理系统，所述系统包括语音信号识别单元，用于从输入信号中识别语音，并且输出所述输入信号作为语音信号；语音信号转换器，用于通过接收语音信号并且将接收的时域的语音信号转换为频域的语音信号，来产生语音信号帧；形态学分析器，用于接收语音信号帧，并且通过形态学运算产生具有基于形态学分析的信号波形的特性频率区域；语音信号特性信息提取器，用于接收语音信号帧或基于形态学分析的特性频率区域，并且提取下一阶段的语音信号处理系统请求的语音信号特性信息；以及控制器，用于根据预设确定条件确定是否使用语音信号帧的谐波峰值提取语音信号的特性信息，并且当使用谐波峰值时通过将语音信号帧输出到语音信号特性信息提取器或者当不使用谐波峰值时通过输出语音信号帧的基于形态学分析的特性频率区域，来提取语音信号处理系统请求的语音信号特性信息。
根据本发明的另一方面，提供一种提取语音信号的特性信息的方法，所述方法包括通过从输入信号中识别语音，提取所述语音，将接收的时域的语音信号转换为频域的语音信号，并且输出语音信号，从而产生语音信号帧；根据预设确定条件确定是否使用语音信号帧的谐波峰值提取语音信号的特性信息；根据谐波峰值使用确定结果执行语音信号帧的形态学分析，并根据形态学分析结果提取特性频率区域；根据谐波峰值使用确定结果使用语音信号帧的特性频率区域来提取下一阶段的语音信号处理系统请求的语音信号特性信息；以及将提取的语音信号特性信息输出到语音信号处理系统。

通过下面结合附图进行的详细描述，本发明的上述和其它目的、特点和优点将会变得更加清楚，其中图1是根据本发明的语音信号预处理系统的框图；图2是根据本发明的根据语音信号预处理系统的形态学分析结果输出的语音信号的波形图(a)和(b)；图3是示出根据本发明的在语音信号预处理系统中使用谐波峰值或形态学分析方案输出语音信号的特性信息的处理的流程图；图4是示出根据本发明的在语音信号预处理系统中根据语音信号处理系统请求的信息输出语音信号特性的处理的流程图；图5是示出根据本发明的在语音信号预处理系统中使用谐波峰值提取语音信号的包络信息的处理的流程图；图6A至图6C是用于解释根据本发明的如何获得次要谐波峰值的参考图；图7是示出根据本发明的在语音信号预处理系统中使用谐波峰值确定语音信号是浊音还是清音的处理的流程图；图8是示出根据本发明的在图7所示的处理中使用第二神经网络的情况的流程图；图9是示出根据本发明的语音信号预处理系统的形态学分析处理的流程图，其中，使用形态学运算分析输入语音信号；图10是示出根据本发明的在图9所示的处理中确定用于形态学分析的最佳结构组尺寸(SSS)的处理的流程图；图11是示出根据本发明的在语音信号预处理系统中使用根据形态学分析结果输出的信号波形来提取语音信号的特性信息的处理的流程图；图12是示出根据本发明的在语音信号预处理系统中使用根据形态学分析结果输出的信号波形来提取语音信号的包络信息的处理的流程图；图13是示出根据本发明的在语音信号预处理系统中使用根据形态学分析结果输出的信号波形来确定语音信号是浊音还是清音的处理的流程图；以及图14是示出根据本发明的在图13所示的处理中使用第二神经网络的情况的流程图。
具体实施例方式
将参照下面的附图来在此描述本发明的优选实施例。尽管相同和相似的部件在不同的附图中描述，但是它们始终用相同的标号表示。在下面的描述中，因为公知的功能和结构可能在不必要的细节上使本发明模糊，所以省略了其详细描述。
现将首先描述基本原理以全面理解本发明。在根据本发明的语音信号预处理系统中，确定是否使用谐波峰值提取输入语音信号的特性信息。可根据下一阶段的语音信号处理系统的输入语音信号或特性来进行这一确定。
如果使用谐波峰值，则语音信号预处理系统的控制器将语音信号帧输出到语音信号特性信息提取器，所述语音信号帧通过将输入语音信号转换为频域的语音信号而产生。在这里，控制器可根据下一阶段的语音信号处理系统请求的语音信号特性信息来选择多个语音信号特性信息提取器中的至少一个。由控制器选择的语音信号特性信息提取器提取下一阶段的语音信号处理系统请求的语音信号特性信息。控制器输出提取的语音信号特性信息。语音信号特性信息可以是语音信号的包络信息、语音信号的基音信息、或者语音信号是浊音、清音还是背景噪声的确定结果。
如果没有使用谐波峰值，则控制器使用形态学分析方案执行对产生的语音信号帧的形态学分析。控制器根据形态学分析结果提取信号波形，并将提取的信号波形而不是语音信号帧输出到多个语音信号特性信息提取器中的每一个。多个语音信号特性信息提取器中的每一个接收根据形态学分析结果的信号波形而不是接收语音信号帧，并使用接收的信号波形提取输入语音信号的特性信息。控制器将提取的语音信号特性信息输出到下一阶段的语音信号处理系统。
图1显示根据本发明的语音信号预处理系统。语音信号预处理系统包括控制器100、连接到控制器100的存储单元102、形态学分析器104、基音提取器110、包络提取器126、神经网络系统124、噪声消除器122、语音信号特性信息输出单元120、浊音度计算器118、语音信号转换器116。控制器100控制这些部件，以接收语音信号，并从接收的语音信号提取下一阶段的语音信号处理系统请求的语音信号特性信息。
控制器100接收语音信号，并将所述语音信号转换为频域的语音信号。控制器100根据接收的语音信号或下一阶段的语音信号处理系统的特性，确定是否使用语音信号帧的谐波峰值提取语音信号的特性信息。根据确定结果，控制器100利用使用谐波峰值提取器114找到的谐波峰值或利用通过语音信号的形态学分析结果产生的信号波形来提取语音信号的特性信息。
形态学通常用于图像信号处理，并且数学概念上的形态学是集中在图像的几何结构上的非线性图像处理和分析方法，其中，与主要运算相应的腐蚀和膨胀以及与次要运算相应的开运算和闭运算是重要的。可使用一组简单的形态学来形成多个线性和非线性运算符。
形态学分析的基本运算是腐蚀，其中，在通过组B对组A的腐蚀中，A表示输入图像，B表示结构元素。如果原点在结构元素中，则腐蚀趋向收缩输入图像。另一基本运算膨胀是腐蚀的双重运算，并且被定义为腐蚀的一组互补。作为另一基本运算的开运算是腐蚀和膨胀的迭代，作为另一基本运算的闭运算是开运算的双重运算。
膨胀运算确定语音信号图像的每个预定阈值组的最大值作为阈值组的值。腐蚀运算确定语音信号图像的每个预定阈值组的最小值作为阈值组的值。开运算是在腐蚀运算之后执行膨胀运算的运算，并显示平滑效果。闭运算是在膨胀运算之后执行腐蚀运算的运算，并显示填充效果。
虽然应用于本发明的形态学运算是在语音信号处理中通常不使用的方法，但是当在提取特性频率时使用形态学运算时，能够正确地划分和提取谐波信号和非谐波信号。因此，通过将形态学方案应用于本发明，可从语音信号提取有效的特性频率区域，并且可将该特性频率区域应用于谐波编码器/解码器(编解码器)，所述语音信号中混合了浊音和清音。也就是说，当应用形态学方案时，也可将非谐波信号应用于谐波编解码器。
因此，当确定结果指示没有使用语音信号的谐波峰值时，控制器100通过形态学分析产生当前输入的语音信号的有意义的特性频率，即，根据形态学分析的信号波形，并且通过将产生的信号波形输出到与谐波编解码器的使用相似的语音信号特性信息提取器来提取输入语音信号的特性信息。
连接到控制器100的存储单元102包括只读存储器(ROM)、闪速存储器和随机存取存储器(RAM)。ROM存储用于控制器100的处理和控制的程序和各种参考数据，RAM提供控制器100的工作存储器，闪速存储器提供用于存储各种可更新存储数据的区域。
语音信号识别单元112从输入信号识别语音信号，并将输入信号作为语音信号输出到控制器100。语音信号转换器116在控制器100的控制下通过接收语音信号并将接收的语音信号转换为频域的语音信号来产生语音信号帧。噪声消除器122从语音信号帧消除噪声。谐波峰值提取器114在控制器100的控制下从语音信号帧搜索并提取峰值。语音信号特性信息输出单元120在控制器100的控制下将输入语音信号的特性信息输出到下一阶段的语音信号处理系统。
形态学分析器104包括形态学滤波器106和结构组尺寸(structuring setsize，SSS)确定器，并且形态学分析器104根据通过输入语音信号帧的形态学运算的形态学分析来产生信号波形。形态学滤波器106选择通过形态学闭运算选择谐波峰值。在执行形态学闭运算之后，获得图2所示的波形。如果对图2所示的波形图(a)进行预处理，则获得残留(或残余)频谱波形(b)。残留频谱指示信号存在于由波形图(a)所示的虚线表示的封闭基底之上，并且在预处理之后，如波形图(b)所示，仅剩余特性频率区域。也就是说，在预处理之后，通过从在执行形态学闭运算之后输出的信号中去除阶梯信号而获得的信号是波形图(b)所示的信号。通过预处理，在浊音中加强了谐波内容，并且在清音中加强了主要正弦分量。
为了使形态学滤波器106的性能最佳，确定用于执行形态学运算的最佳窗口尺寸。为了确定最佳窗口尺寸，在形态学分析器104中包括SSS确定器108。SSS确定器108确定用于使形态学滤波器106的性能最佳的SSS，并且将确定的SSS提供给形态学滤波器106。可按照期望的(即，被确定为)默认或通过下述方法选择性地使用确定SSS的处理。
现将描述确定SSS的处理。假定具有最大谐波峰值的信号的数量(即，最大谐波峰值的数量)为N。当定义与图2中波形图(b)的阴影区域相应的N个选择的峰值时，使用该N个选择的峰值计算值P。P表示N个选择的峰值的能量与其它残留频谱的能量比。例如，在波形图(b)中，如果N＝5，则通过将阴影区域相加获得的值是N个选择的峰值的能量EN，其它残留频谱的能量是Etotal，则P＝EN/Etotal。在没有关于信号的假设的情况下将值P与SSS相比较，如果P太大(例如，SSS＜0.5)，则减小N，如果P太小(例如，SSS＞0.5)，则增加N。因此，因为在女性说话者的情况下语音信号具有高的基音，所以谐波峰值的总数量小，因此与男性说话者相比，对于女性说话者选择较小的N值。通过上述处理，确定了形态学滤波器106的最佳SSS，所述形态学滤波器106执行被转换为频域的语音信号的波形的形态学闭运算。如果没有使用通过调整N选择SSS的方法，则可通过从最小SSS开始逐步地使SSS增大来选择最佳SSS。
因为形态学运算是根据使结构元素适合某一特定值的组理论逼近方法，所以诸如语音信号波形的一维图像结构元素被表示为一组离散值。通过与原点对称的滑动窗口确定结构组，滑动窗口的尺寸确定形态学运算的性能。
根据本发明，通过等式(1)获得窗口尺寸。
窗口尺寸＝(结构组尺寸(SSS)×2+1)...(1)如等式(1)所示，窗口尺寸取决于SSS。因此，可通过调整结构组的尺寸来调整形态学运算的性能。因此，形态学滤波器106可根据由SSS确定器108确定的SSS使用滑动窗口执行形态学运算，诸如膨胀、腐蚀、开运算或闭运算。
因此，形态学滤波器106使用由SSS确定器108确定的SSS对频域的语音信号波形执行形态学运算。也就是说，形态学滤波器106对转换的语音信号波形执行形态学闭运算，并执行预处理。
形态学滤波器106的信号变换方法是非线性方法，在所述方法中，输入信号的几何特征被部分地变换，并且根据四种操作，即，腐蚀、膨胀、开运算和闭运算具有收缩、扩张、平滑和/或填充的效果。这种形态学滤波的优点是可用非常少的计算量正确地提取频谱的峰值或谷值信息。此外，形态学滤波是非参数的。例如，不同于假定语音信号的谐波结构的传统谐波编解码器，在本发明中对于输入信号不存在假定。
形态学闭运算提供填充语音信号频谱中的谐波峰值之间的谷值的效果，因此如图2的波形图(b)所示，当在形态学闭运算频谱之下存在小伪峰值时谐波峰值保留。
因此，控制器100可从通过形态学滤波器106执行的形态学运算的结果仅选择包括在语音信号中的特性频率区域。可通过抑制噪声仅选择特性频率区域。通过选择如图2的波形图(b)所示的包括小谐波峰值的所有谐波峰值来提取用于表示语音信号的所有特性频率区域。如果提取的特性频率区域具有浊音的属性，则出现具有恒定周期性的谐波峰值，诸如f0、2f0、3f0、4f0、5f0、...。也就是说，在不区分浊音和清音的情况下通过将形态学方案应用于语音信号，提取被应用于执行谐波编码的谐波编解码器的特性频率而不是基音频率。
具体地说，由于与语音信号的特性频率相应的主要正弦波成分而出现在图2的波形图(b)中的通过执行预处理而剩余的残留峰值。不同于一般谐波提取方法，特性频率是表示语音信号的所有正弦波的频率区域。
语音信号预处理系统包括基音提取器110、包络提取器126和神经网络系统124，作为语音信号特性信息提取器，用于提取输入语音信号的特性信息。基音提取器110根据从控制器100输入的形态学分析结果，使用谐波峰值被提取的特定语音信号帧或信号波形来提取基音信息。包络提取器126在控制器100的控制下根据形态学分析结果，从谐波峰值被提取的特定语音信号帧或信号波形中提取谐波峰值的包络信息和非谐波峰值的包络信息，并将谐波峰值的包络信息和非谐波峰值的包络信息输出到控制器100。如果下一阶段的语音信号处理系统请求谐波峰值的包络信息和非谐波峰值的包络信息，则控制器100将谐波峰值的包络信息和非谐波峰值的包络信息输出到下一阶段的语音信号处理系统。然而，包络信息被用于识别语音信号帧相应于浊音、清音还是背景噪声。在这种情况下，控制器100使用谐波峰值的包络信息与非谐波峰值的包络信息的能量比来确定语音信号帧相应于浊音、清音还是背景噪声。为了实现这一目的，控制器100包括浊音度计算器118，用于计算谐波峰值的包络信息与非谐波峰值的包络信息的能量比，并且根据计算的浊音度的结果来确定语音信号帧相应于浊音、清音还是背景噪声。
神经网络系统124根据形态学分析结果从语音信号帧或特性频率区域检测特性信息，为每条检测的特性信息赋予预设权重，并且根据神经网络识别结果来确定语音信号帧相应于浊音、清音还是背景噪声。神经网络系统124可包括至少两个神经网络以增加语音信号帧的识别准确率。
当根据第一神经网络识别的语音信号帧或与特性频率区域相应的语音信号的确定结果没有指示浊音时，神经网络系统124保留语音信号帧或特性频率区域的确定，使用第一神经网络的浊音/清音/背景噪声确定结果，对至少一个不同的语音信号帧或特性频率区域和从所述不同的语音信号帧或特性频率区域提取的各种特性信息的次要统计值来执行第二神经网络识别，并且根据第二神经网络识别的结果来确定语音信号帧相应于浊音、清音还是背景噪声。次要统计值是对从所述不同的语音信号帧或特性频率区域提取的每条特性信息计算的统计值。
图1显示根据本发明的语音信号预处理系统。因此，根据本发明，根据由紧接在语音信号预处理系统之后的阶段的语音信号处理系统请求的语音信息特性信息，可以对包括语音信号特性信息提取器的配置进行更多的修改和添加。
图3示出根据本发明的在图1的语音信号预处理系统中使用谐波峰值和形态学分析方案输出语音信号的特性信息的处理。当输入信号时，在步骤300，控制器100通过语音信号识别单元112从输入信号识别语音信号，提取语音信号，并且通过语音信号转换器116将提取的语音信号转换为频域的语音信号。在步骤302，控制器100通过噪声消除器122从转换的语音信号中消除噪声。在控制器100中可使用各种消除噪声的方法。例如，控制器100可根据每个提取的语音信号帧的幅度设置不同的权重，并且根据设置的权重执行幅度的平方运算。通过设置预定的阈值，并且根据平方运算的结果是否大于阈值来将(+)或(-)符号提供给平方运算的结果，控制器100可将具有小于阈值的幅度的信号(即，被估计为噪声的信号)与具有大于或等于阈值的幅度的信号的幅度比设置得较大。
在完成步骤302的噪声消除处理之后，在步骤304，控制器100确定是否使用语音信号帧的谐波峰值来提取语音信号特性信息。可根据输入语音信号或下一阶段的语音信号处理系统的特性来执行所述确定。例如，根据输入到语音信号识别单元112的信号是否具有对于提取语音信号的特性信息足够的谐波峰值，控制器100可确定是否使用谐波峰值来提取语音信号的特性信息。如果输入到语音信号识别单元112的信号不具有对于提取语音信号的特性信息足够的谐波峰值，则控制器100可根据下一阶段的语音信号处理系统的请求来确定是否使用谐波峰值。
如果在步骤304确定使用谐波峰值，则在步骤306，控制器100确定是否存在当前输入语音信号帧的谐波峰值。当步骤306的确定结果指示关于当前输入语音信号帧的谐波峰值的存在不确定时，在步骤308，控制器100通过谐波峰值提取器114提取当前输入语音信号帧的谐波峰值。控制器100可使用任何期望的方法来提取谐波峰值。
当在步骤306确定当前输入语音信号帧的谐波峰值存在时，在步骤310，控制器100选择语音信号特性信息提取器以提取下一阶段的语音信号处理系统请求的语音信号特性信息，并且通过将语音信号帧输出到选择的语音信号特性信息提取器从语音信号帧的谐波峰值提取输入语音信号的特性信息。在步骤316，控制器100将提取的语音信号特性信息输出到下一阶段的语音信号处理系统。
当在步骤304确定没有使用谐波峰值时，在步骤312，控制器100将语音信号帧输出到形态学分析器104，控制形态学分析器104执行形态学运算，并且根据形态学分析结果从语音信号帧提取信号波形。
在步骤314，控制器100选择语音信号特性信息提取器以提取下一阶段的语音信号处理系统请求的语音信号特性信息，并且通过将提取的信号波形输出到选择的语音信号特性信息提取器从根据形态学分析结果从信号波形提取的谐波峰值提取输入语音信号的特性信息。在步骤316，控制器100将提取的语音信号特性信息输出到下一阶段的语音信号处理系统。
图4示出根据本发明的根据语音信号处理系统请求的信息将语音信号的特性信息输出到图1所示的语音信号预处理系统的处理。在图4中，假定语音信号处理系统请求输入语音信号的包络信息、基音信息和浊音/清音/背景噪声确定结果信息中的一个。
参照图4，当通过图3的步骤306或308输入包括谐波峰值的语音信号帧时，在步骤310，控制器100通过将语音信号帧输出到选择的语音信号特性信息提取器从语音信号帧的谐波峰值提取输入语音信号的特性信息，并且在步骤400确定根据本发明的语音信号处理系统请求的语音信号特性信息是包络信息、基音信息还是浊音/清音/背景噪声确定结果信息。根据步骤400的确定结果，将输入语音信号输入到相应的语音信号特性提取器。
当在步骤400确定语音信号处理系统请求的语音信号特性信息是包络信息时，在步骤402，控制器100将语音信号帧输出到包络提取器126。在步骤404，控制器100使用语音信号帧的谐波峰值提取语音信号帧的包络信息。包络信息提取器126通过在第一基音周期从语音信号帧检测最大峰值作为第一谐波峰值并检测后来的搜索区域的最大谐波峰值来选择谐波峰值，并且使用内插从选择的谐波峰值提取包络信息。
在提取包络信息之后，在图3的步骤316，控制器100将提取的包络信息输出到下一阶段的语音信号处理系统。如果下一阶段的语音信号处理系统不仅请求谐波峰值的包络信息，而且还请求其它剩余峰值的包络信息，即，非谐波包络信息，则可从语音信号帧提取非谐波包络信息。包络信息提取器126可使用谐波峰值提取次要谐波峰值的包络信息。次要谐波峰值指示从提取的包络提取的谐波峰值。次要谐波峰值的包络信息可用于增加确定语音信号是浊音还是清音的处理的准确度。例如，使用谐波峰值包络信息与非谐波峰值包络信息的能量比的方法可用作基于包络信息确定语音信号是浊音还是清音的一种方法。
然而，当使用次要谐波峰值的包络信息时，非谐波峰值包络信息与次要谐波峰值包络信息的能量比较大。因此，通常，如果当语音信号是谐波峰值周期性存在的浊音时使用次要谐波峰值的包络信息，则能量比远大于当语音信号是谐波峰值非周期性存在的清音时的情况。当使用次要谐波峰值的包络信息，即，次要谐波峰值包络信息时，控制器100可更加准确地确定输入语音信号是浊音还是清音。稍后将参照图5描述根据本发明的包络提取器126的操作，所述操作包括提取次要谐波峰值的包络信息的处理。
当在步骤400确定语音信号处理系统请求的语音信号特性信息是基音信息时，在步骤406，控制器100将语音信号帧输出到基音提取器110。在步骤408，控制器100使用语音信号帧的谐波峰值提取语音信号的基音信息。控制器100可使用各种方法来从语音信号帧提取基音信息。例如，控制器100可使用通过从语音信号帧检测谐波区域和噪声区域的能量比并确定具有最大能量比的峰值作为基音信息来提取基音信息的方法。在提取基音信息之后，在图3的步骤316，控制器100将提取的基音信息输出到下一阶段的语音信号处理系统。
当在步骤400确定语音信号处理系统请求的语音信号特性信息是浊音/清音/背景噪声确定结果时，在步骤410，控制器100将语音信号帧输出到用于确定浊音/清音的语音信号特性信息提取器。在步骤412，控制器100确定语音信号帧相应于浊音还是清音。可通过使用神经网络系统124的识别结果(前者)或使用由包络提取器126提取的次要谐波峰值包络信息和非谐波峰值包络信息(后者)执行浊音/清音确定。
在前一种情况下，控制器100将语音信号帧输出到神经网络系统124。根据神经网络系统124的识别结果，控制器100确定输入语音信号是浊音、清音还是背景噪声。在后一种情况下，控制器100将语音信号帧输出到包络提取器126。控制器100通过包络提取器126提取次要谐波峰值包络信息和非谐波峰值包络信息，并且将提取的次要谐波峰值包络信息和非谐波峰值包络信息输出到浊音度计算器118。浊音度计算器118计算次要谐波峰值包络信息与非谐波峰值包络信息的能量比，并将计算的包络信息能量比与预设的浊音阈值进行比较。如果包络信息能量比大于或等于预设的浊音阈值，则浊音度计算器118确定输入语音信号是浊音，如果包络信息能量比小于预设的浊音阈值，则浊音度计算器118确定输入语音信号是清音或背景噪声。
当设置浊音阈值和清音阈值时，如果包络信息能量比大于浊音阈值，则浊音度计算器118可确定输入语音信号是浊音，如果包络信息能量比小于浊音阈值，并且大于或等于清音阈值，则浊音度计算器118可确定输入语音信号是清音，如果包络信息能量比小于清音阈值，则浊音度计算器118确定输入语音信号是背景噪声。这是因为在背景噪声中不存在谐波峰值，而在清音中存在具有低周期性的谐波峰值，清音的包络信息能量比远大于背景噪声的包络信息能量比。在提取步骤412的确定结果之后，在图3的步骤316，控制器100将提取的确定结果输出到下一阶段的语音信号处理系统。
稍后将参照图7描述下一阶段的语音信号处理系统请求的语音信号特性信息是浊音/清音确定结果信息的情况的处理。
图5示出根据本发明的在图1的语音信号预处理系统中使用谐波峰值提取语音信号的包络信息的处理。图6A至图6C是用于解释根据本发明的如何获得次要谐波峰值的参考图。
参照图5至图6C，当在图4的步骤402将语音信号帧输入到包络提取器126时，在步骤500，控制器100确定次要谐波峰值是否必要。如果下一阶段的语音信号处理系统请求次要谐波峰值，或者如果在图4的步骤412的输入语音信号的浊音/清音确定中使用次要谐波峰值，则在步骤500，控制器100确定次要谐波峰值必要。
然而，当在步骤500确定次要谐波峰值不必要时，在步骤508，控制器100通过从语音信号帧选择谐波峰值并将内插应用于选择的谐波峰值来提取包络信息。在步骤510，控制器100通过将内插应用于没有被选为谐波峰值的剩余峰值来提取所述剩余峰值的包络信息作为非谐波峰值包络信息。如果非谐波峰值包络信息不必要，即，如果下一阶段的语音信号处理系统仅请求谐波峰值包络信息，则可省略步骤510。
当在步骤500确定次要谐波峰值必要时，在步骤502，控制器100从语音信号帧提取谐波峰值的包络信息。在步骤504，控制器100从提取的包络信息提取次要谐波峰值。例如，如果输入图6A所示的语音信号帧，则控制器100从图6A所示的语音信号帧选择谐波峰值，通过将内插应用于选择的谐波峰值提取图6B所示的包络信息600，并且从提取的包络信息600选择次要谐波峰值。在步骤506，通过将内插应用于选择的次要谐波峰值来提取图6C所示的次要谐波峰值的包络信息602。在步骤510，控制器100通过将内插应用于没有被选为谐波峰值的剩余峰值来提取所述剩余峰值的包络信息作为非谐波峰值包络信息。如果非谐波峰值包络信息不必要，即，如果使用包络信息比确定浊音/清音不必要，或者如果下一阶段的语音信号处理系统仅请求谐波峰值包络信息，则可省略步骤510。
图7是示出根据本发明的在图1的语音信号预处理系统中使用谐波峰值确定语音信号是浊音还是清音的处理。
当在图4的步骤400确定语音信号处理系统请求的语音信号特性信息是浊音/清音/背景噪声确定结果时，在图4的步骤410，控制器100将语音信号帧输出到浊音/清音确定器，并且在图4的步骤412，使用语音信号帧的谐波峰值确定语音信号帧相应于浊音还是清音。控制器100可使用与谐波峰值相关的各种方法来确定语音信号帧相应于浊音还是清音。然而，如上所述假定使用一组包络提取器126和浊音度计算器118，或者神经网络系统124来确定语音信号帧相应于浊音还是清音。
因此，浊音/清音确定器可以是神经网络系统124或者一组包络提取器126和浊音度计算器118。当控制器100进行到图4的步骤412，在步骤700，控制器100确定是使用包络信息还是使用神经网络系统124执行语音信号帧的浊音/清音确定。控制器100根据下一阶段的语音信号处理系统请求的信息的特性或者用于语音信号帧的浊音/清音确定的计算量，确定是使用包络信息还是使用神经网络系统124执行语音信号帧的浊音/清音确定。
当在步骤700确定使用包络信息执行语音信号帧的浊音/清音确定时，在步骤702，控制器100将语音信号帧输出到包络提取器126，并且通过包络提取器126提取次要谐波峰值包络信息和非谐波峰值包络信息。可通过图5所示的处理提取次要谐波峰值包络信息和非谐波峰值包络信息。在步骤704，控制器100将次要谐波峰值包络信息和非谐波峰值包络信息输出到浊音度计算器118，并且通过浊音度计算器118计算语音信号帧的浊音度。在步骤706，控制器100通过将计算的浊音度与预设浊音阈值进行比较或与预设浊音阈值和预设清音阈值两者进行比较，来确定输入语音信号是浊音、清音还是背景噪声。
当在步骤700确定使用神经网络系统124执行语音信号帧的浊音/清音确定时，控制器100将语音信号帧输出到神经网络系统124，并且在步骤708确定是否使用第二神经网络。神经网络系统124可基于对语音信号帧的各种信息预设的权重，使用单个神经网络确定语音信号帧相应于浊音、清音还是背景噪声。在这种情况下，神经网络系统124在不执行第二神经网络识别的情况下将神经网络识别结果返回控制器100。
然而，如上所述，神经网络系统124可以具有至少两个神经网络。在这种情况下，神经网络系统124使用从第一神经网络得到的语音信号帧的浊音/清音/背景噪声确定结果和从不同的语音信号帧提取的各种特性信息的次要统计值来执行第二神经网络识别，并且将通过执行第二神经网络识别而获得的浊音/清音/背景噪声确定结果返回到控制器100。
当使用两个神经网络可确定输入语音信号是浊音、清音还是背景噪声时，并且当在步骤700确定使用神经网络系统124执行语音信号帧的浊音/清音确定时，在步骤708，控制器100确定是否使用第二神经网络。也就是说，控制器100根据下一阶段的语音信号处理系统请求的信息的特性或语音信号帧的浊音/清音确定的计算量，确定将一个还是两个神经网络用于语音信号帧的浊音/清音确定。例如，如果语音信号处理系统请求正确区分语音信号帧相应于清音还是背景噪声，则控制器100使用第二神经网络确定语音信号帧相应于浊音、清音还是背景噪声，所述第二神经网络能够比使用第一神经网络更加准确地从背景噪声中区分出清音。
当在步骤708确定不使用第二神经网络时，在步骤710，控制器100通过神经网络系统124仅执行第一神经网络识别，并且将通过第一神经网络识别获得的浊音/清音/背景噪声确定结果输出到下一阶段的语音信号处理系统。当在步骤708确定使用第二神经网络时，在步骤712，控制器100执行第二神经网络识别，并且将通过第二神经网络识别获得的浊音/清音/背景噪声确定结果输出到语音信号处理系统。
图8示出根据本发明的在图7的步骤712中示出的使用第二神经网络的情况。当在图7的步骤708确定使用第二神经网络时，在步骤800，神经网络系统124通过分析语音信号帧提取语音信号的特性信息。语音信号特性信息可以是信号的均方根能量(RMSE)和零交叉计数(ZC)。
在步骤800提取语音信号的特性信息之后，神经网络系统124使用提取的特性信息执行第一神经网络识别。在步骤802，神经网络系统124确定第一神经网络识别的结果是否指示浊音。当在步骤802确定第一神经网络识别结果不指示浊音时，在步骤816，神经网络系统124保留当前语音信号帧相应于浊音、清音还是背景噪声的确定。其后，神经网络系统124接收新的语音信号帧。
当在步骤802确定第一神经网络识别结果指示浊音时，在步骤804，神经网络系统124将语音信号帧的确定结果输出到控制器100。控制器100将语音信号帧的确定结果输出到语音信号处理系统。
在步骤806，神经网络系统124确定是否存在保留确定的语音信号帧。当在步骤806确定不存在保留确定的语音信号帧，神经网络系统124接收新的语音信号帧。当在步骤806确定存在保留确定的语音信号帧，在步骤808，神经网络系统124存储当前语音信号的特性信息。在步骤810，神经网络系统124确定是否存储对保留确定的语音信号帧执行确定所需的预设数量的语音信号帧的特性信息。
当在步骤810确定不存储预设数量的语音信号帧的特性信息时，神经网络系统124接收新的语音信号帧。当在步骤810确定存储预设数量的语音信号帧的特性信息时，在步骤812，神经网络系统124将预设数量的语音信号帧的特性信息提供给第二神经网络，并且执行保留确定的语音信号帧的第二神经网络识别。在步骤814，神经网络系统124根据第二神经网络识别结果确定语音信号帧是清音还是背景噪声，并且将确定结果输出到控制器100。控制器100将根据第二神经网络识别结果的确定结果输出到下一阶段的语音信号处理系统，作为保留确定的语音信号帧的确定结果。
如上所述，参照图3，当在步骤304确定不使用谐波峰值时，在步骤312，控制器100执行形态学分析，并且根据形态学分析结果提取语音信号特性信息。图9示出根据本发明的在图1所示的语音信号预处理系统的形态学分析处理，其中，使用形态学运算分析输入语音信号。
参照图9，当在图3的步骤304确定不使用谐波峰值时，在步骤900，控制器100确定用于使形态学运算的性能最佳的最佳SSS。在步骤900确定最佳SSS之后，在步骤902，控制器100使用确定的最佳SSS执行语音信号帧的语音信号波形的形态学运算，并且执行语音信号波形的预处理。使用的形态学运算是形态学闭运算，通过膨胀和腐蚀的迭代完成所述闭运算。对于图像信号，形态学闭运算显示图像周围的“滚动球”效果，在从最外面对图像滤波的同时平滑每个角。
在步骤902执行形态学闭运算和预处理之后，在步骤904，控制器100根据形态学运算的结果提取特性频率区域。详细地说，当在执行语音信号帧的形态学闭运算之后获得图2的波形图(a)所示的波形时，通过对波形图(a)进行预处理来提取具有波形图(a)的特性频率区域。提取的特性频率区域指示表示语音信号的所有正弦频率区域，并且可从特性频率区域获得特性频率。
图10示出根据本发明的在图9所示的处理中确定用于形态学分析的最佳SSS的处理。如果输入语音信号帧，则在步骤1000，控制器100执行形态学闭运算，并且输出图2的波形图(a)。在步骤1002，控制器100执行所述波形的预处理。将所述波形的部分的测试形态学运算结果输入到SSS确定器108，以确定最佳SSS。
在步骤1004，控制器100将具有最大幅度的信号的数量定义为N，并且在步骤1006，使用N个选择的谐波峰值计算N个选择的谐波峰值的能量与剩余谐波峰值的能量比P。在步骤1008，控制器100将能量比P与当前SSS进行比较，并且在步骤1010通过根据比较结果调整N确定最佳SSS。换句话说，如果能量比P大于预定值，则减小N，如果能量比P小于预定值，则增加N。也就是说，可通过调整N来获得最佳SSS。所述SSS是用于设置形态学运算的滑动窗口的尺寸的值，并且形态学滤波器106的性能取决于滑动窗口的尺寸。
图11示出根据本发明的在图1所示的语音信号预处理系统中使用根据形态学分析结果输出的信号波形来提取语音信号的特性信息的处理。
当根据形态学分析结果输入具有信号波形的特性频率区域时，在步骤1100，控制器100确定由根据本发明的语音信号处理系统请求的语音信号特性信息是包络信息、基音信息还是浊音/清音/背景噪声确定结果信息。根据步骤1100的确定结果，将特性频率区域输入到相应的语音信号特性提取器。
也就是说，当在步骤1100确定语音信号处理系统请求的语音信号特性信息是包络信息时，在步骤1102，控制器100将特性频率区域输出到包络提取器126。在步骤1104，控制器100通过从特性频率区域的信号波形中提取谐波峰值来提取特性频率区域的包络信息。包络提取器126通过从用于第一基音周期的特性频率区域的信号波形检测最大峰值作为第一谐波峰值并检测随后搜索区域的最大谐波峰值来选择谐波峰值，并且使用内插从选择的谐波峰值提取包络信息。在提取包络信息之后，在图3的步骤316，控制器100将提取的包络信息输出到下一阶段的语音信号处理系统。
如果下一阶段的语音信号处理系统不仅请求谐波峰值的包络信息，还请求其它剩余峰值的包络信息，即，非谐波包络信息，则可从特性频率区域的信号波形提取非谐波包络信息。包络提取器126可使用特性频率区域的谐波峰值提取特性频率区域的次要谐波峰值的包络信息。所述次要谐波峰值指示从包络提取的谐波峰值，所述包络从特性频率区域的信号波形被提取。
可使用次要谐波峰值的包络信息来增加确定特性频率区域相应于浊音还是清音的处理的准确度。稍后将参照图12描述根据本发明的包络提取器126的操作，所述操作包括提取从特性频率区域的信号波形提取的次要谐波峰值的包络信息的处理。
当在步骤1100确定语音信号处理系统请求的语音信号特性信息是基音信息时，在步骤1106，控制器100将特性频率区域输出到基音提取器110。在步骤1108，控制器100使用特性频率区域的谐波峰值提取语音信号的基音信息。控制器100可使用各种方法来从特性频率区域提取基音信息。例如，控制器100可使用通过从特性频率区域检测谐波区域与噪声区域的能量比并将具有最大能量比的峰值确定为基音信息来提取基音信息的方法。在提取基音信息之后，在图3的步骤316，控制器100将提取的基音信息输出到下一阶段的语音信号处理系统。
当在步骤1100确定语音信号处理系统请求的语音信号特性信息是浊音/清音/背景噪声确定结果信息时，在步骤1110，控制器100将特性频率区域输出到语音信号特性信息提取器，以确定浊音/清音。在步骤1112，控制器100使用特性频率区域确定输入语音信号是浊音还是清音。可通过使用神经网络系统124的识别结果(前者)或使用由包络提取器126提取的次要谐波峰值包络信息和非谐波峰值包络信息(后者)执行浊音/清音确定。
在前一种情况下，控制器100将特性频率区域输出到神经网络系统124。根据神经网络系统124的识别结果，控制器100确定输入语音信号是浊音、清音还是背景噪声。在后一种情况下，控制器100将特性频率区域输出到包络提取器126。控制器100通过包络提取器126提取次要谐波峰值包络信息和非谐波峰值包络信息，并且将提取的次要谐波峰值包络信息和非谐波峰值包络信息输出到浊音度计算器118。浊音度计算器118计算次要谐波峰值包络信息与非谐波峰值包络信息的能量比，并将计算的包络信息能量比与预设浊音阈值进行比较。如果包络信息能量比大于或等于预设浊音阈值，则浊音度计算器118确定输入语音信号是浊音，如果包络信息能量比小于预设浊音阈值，则浊音度计算器118确定输入语音信号是清音或背景噪声。
当设置浊音阈值和清音阈值时，如果包络信息能量比大于浊音阈值，则浊音度计算器118可确定输入语音信号是浊音，如果包络信息能量比小于预设浊音阈值，并且大于或等于清音阈值，则浊音度计算器118可确定输入语音信号是清音，如果包络信息能量比小于清音阈值，则浊音度计算器118确定输入语音信号是背景噪声。在提取步骤1112的确定结果之后，在图3的步骤316，控制器100将提取的确定结果输出到下一阶段的语音信号处理系统。
随后将参照图13来描述当下一阶段的语音信号处理系统请求的语音信号特性信息是浊音/清音确定结果信息时的处理。
图12示出根据本发明的在图1所示的语音信号预处理系统中使用根据形态学分析结果输出的信号波形来提取语音信号的包络信息的处理。当在图11的步骤1112使用特性频率区域的包络信息执行语音信号的浊音/清音确定时，或在图11的步骤1102将特性频率区域输入到包络提取器126时，在步骤1102，控制器100确定次要谐波峰值是否必要。如果下一阶段的语音信号处理系统请求次要谐波峰值，或者如果在图11的步骤1112的输入语音信号的浊音/清音确定中使用次要谐波峰值，则在步骤1200，控制器100确定次要谐波峰值必要。
然而，当在步骤1200确定次要谐波峰值不必要时，在步骤1208，控制器100通过从特性频率区域选择谐波峰值并将内插应用于选择的谐波峰值来提取包络信息。在步骤1210，控制器100通过将内插应用于没有被选择为谐波峰值的剩余峰值来提取所述剩余峰值的包络信息作为非谐波峰值包络信息。如果非谐波峰值包络信息不必要，即，如果下一阶段的语音信号处理系统仅请求谐波峰值包络信息，则步骤1210可以省略。
当在步骤1200确定次要谐波峰值必要时，在步骤1202，控制器100从特性频率区域提取谐波峰值的包络信息。在步骤1204，控制器100从提取的包络信息提取次要谐波峰值。在步骤1206，控制器100通过将内插应用于选择的次要谐波峰值来提取次要谐波峰值的包络信息。在步骤1210，控制器100通过将内插应用于当提取主要谐波峰值的包络信息时没有被选择为谐波峰值的剩余峰值来提取所述剩余峰值的包络信息作为非谐波峰值包络信息。如果非谐波峰值包络信息不必要，即，如果使用包络信息能量比确定浊音/清音不必要或如果下一阶段的语音信号处理系统仅请求次要谐波峰值包络信息，则步骤1210可以省略。
图13示出根据本发明的在图1所示的语音信号预处理系统中使用根据形态学分析结果输出的信号波形来确定语音信号是浊音还是清音的处理。
基于与使用谐波峰值执行浊音/清音确定的图7中相同的原因，用于浊音/清音确定的浊音/清音确定器可以是神经网络系统124或一组包络提取器126和浊音度计算器118，。因此，当控制器100进行到图10的步骤1012时，在步骤1300，控制器100确定是使用从特性频率区域提取的包络信息还是使用神经网络系统124执行浊音/清音确定。控制器100根据下一阶段的语音信号处理系统请求的信息的特性或语音信号的浊音/清音确定的计算量，确定是使用包络信息还是使用神经网络系统124执行与特性频率区域相应的语音信号的浊音/清音确定。
当在步骤1300确定使用从特性频率区域提取的包络信息执行与特性频率区域相应的语音信号的浊音/清音确定时，在步骤1302，控制器100根据形态学分析结果将特性频率区域输出到包络提取器126，并且通过包络提取器126提取次要谐波峰值包络信息和非谐波峰值包络信息。可通过图12所示的处理提取次要谐波峰值包络信息和非谐波峰值包络信息。
在步骤1304，控制器100将次要谐波峰值包络信息和非谐波峰值包络信息输出到浊音度计算器118，并且通过浊音度计算器118计算与特性频率区域相应的语音信号的浊音度。在步骤1306，控制器100通过将计算的浊音度与预设浊音阈值进行比较或与预设浊音阈值和预设清音阈值两者进行比较来确定输入语音是浊音、清音还是背景噪声。
当在步骤1300确定使用神经网络系统124执行与特性频率区域相应的语音信号的浊音/清音确定时，控制器100根据形态学分析结果将特性频率区域输出到神经网络系统124，并且在步骤1308确定是否使用第二神经网络。神经网络系统124可使用单个神经网络或至少两个神经网络确定与特性频率区域相应的语音信号相应于浊音、清音还是背景噪声。如果使用两个神经网络，则神经网络系统124使用从第一神经网络得到的特性频率区域的浊音/清音/背景噪声确定结果和从特性频率区域提取的各种特性信息的次要统计值来执行第二神经网络识别，并且将通过执行第二神经网络识别而获得的浊音/清音/背景噪声确定结果返回到控制器100。
在这种情况下，即，在使用两个神经网络确定输入语音信号是浊音、清音还是背景噪声的情况下，当在步骤1300确定使用神经网络系统124执行与特性频率区域相应语音信号的浊音/清音确定时，在步骤1308，控制器100确定是否使用第二神经网络。也就是说，控制器100根据下一阶段的语音信号处理系统请求的信息的特性或与特性频率区域相应的语音信号的浊音/清音确定的计算量，确定将一个还是两个神经网络用于语音信号的浊音/清音确定。例如，如果语音信号处理系统请求正确区分输入语音信号是清音还是背景噪声，则控制器100使用第二神经网络确定与特性频率区域相应的语音信号相应于浊音、清音还是背景噪声，所述第二神经网络能够比使用第一神经网络更加准确地从背景噪声中区分出清音。
当在步骤1308确定不使用第二神经网络时，在步骤1310，控制器100通过神经网络系统124仅执行第一神经网络识别，并且将通过第一神经网络识别获得的浊音/清音/背景噪声确定结果输出到下一阶段的语音信号处理系统。当在步骤1308确定使用第二神经网络时，在步骤1312，控制器100执行第二神经网络识别，并且将与特性频率区域相应的语音信号的浊音/清音/背景噪声确定结果输出到语音信号处理系统。
图14示出根据本发明的在图13所示的处理中使用第二神经网络的情况。参照图14，当在图13的步骤1308确定使用第二神经网络时，在步骤1400，神经网络系统124通过根据形态学分析结果分析特性频率区域来提取语音信号的特性信息。语音信号特性信息可以是信号的均方根能量(RMSE)。
在步骤1400提取特性频率区域的特性信息之后，神经网络系统124使用提取的特性信息执行第一神经网络识别。在步骤1402，神经网络系统124确定第一神经网络识别的结果是否指示浊音。当在步骤1402确定第一神经网络识别结果不指示浊音时，在步骤1416，神经网络系统124保留与当前特性频率区域相应的语音信号相应于浊音、清音还是背景噪声的确定。其后，神经网络系统124接收新的特性频率区域。
当在步骤1402确定第一神经网络识别结果指示浊音时，在步骤1404，神经网络系统124将第一神经网络识别的确定结果输出到控制器100。控制器100将确定结果输出到下一阶段的语音信号处理系统。
在步骤1406，神经网络系统124确定是否存在保留确定的特性频率区域。当在步骤1406确定不存在保留确定的特性频率区域时，神经网络系统124接收新的特性频率区域。当在步骤1406确定存在保留确定的特性频率区域，在步骤1408，神经网络系统124存储从当前特性频率区域提取的特性信息。在步骤1410，神经网络系统124确定是否存储对与保留确定的特性频率区域的语音信号执行确定所需的预设数量的特性频率区域的特性信息。
当在步骤1410确定不存储预设数量的特性频率区域的特性信息时，神经网络系统124接收新的特性频率区域。当在步骤1410确定存储预设数量的特性频率区域的特性信息时，在步骤1412，神经网络系统124将预设数量的特性频率区域的特性信息提供给第二神经网络，并且执行与保留确定的特性频率区域相应的语音信号的第二神经网络识别。在步骤1414，神经网络系统124根据第二神经网络识别结果确定与保留确定的特性频率区域相应的语音信号是清音还是背景噪声，并且将确定结果输出到控制器100。控制器100将根据第二神经网络识别结果的确定结果输出到下一阶段的语音信号处理系统，作为与保留确定的特性频率区域相应的语音信号的确定结果。
如上所述，根据本发明，通过合成地从输入语音信号提取语音信号的特性信息，根据使用或不使用谐波峰值的各种语音信号处理系统的特性，可选择性地提供语音信号处理系统请求的语音信号的特性。
尽管已经参照其特定的优选实施例显示和描述了本发明，但本领域的技术人员应该理解，在不脱离本发明的精神和范围的情况下，可以对其进行形式和细节的各种改变。具体地说，尽管在本发明的实施例中假定下一阶段的语音信号处理系统向语音信号预处理系统请求包络信息、基音信息和浊音/清音/背景噪声确定结果信息，但是本发明不限于此。另外，尽管建议了提取包络信息、基音信息和浊音/清音/背景噪声确定结果信息的各种方法，但是可将执行相同功能的其它方法作为建议的方法应用于本发明。因此，本领域的技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以对其进行形式和细节的各种改变。
权利要求
1.一种语音信号预处理系统，包括语音信号识别单元，用于从输入信号中识别语音，并且输出所述输入信号作为语音信号；语音信号转换器，用于通过接收语音信号并且将接收的时域的语音信号转换为频域的语音信号来产生语音信号帧；形态学分析器，用于接收语音信号帧，并且通过形态学运算产生具有基于形态学分析的信号波形的特性频率区域；语音信号特性信息提取器，用于接收语音信号帧或基于形态学分析的特性频率区域，并且提取下一阶段的语音信号处理系统请求的语音信号特性信息；以及控制器，用于根据预设确定条件确定是否使用语音信号帧的谐波峰值提取语音信号的特性信息，并且当使用谐波峰值时通过将语音信号帧输出到语音信号特性信息提取器或者当不使用谐波峰值时通过输出语音信号帧的基于形态学分析的特性频率区域，来提取语音信号处理系统请求的语音信号特性信息。
2.如权利要求1所述的语音信号预处理系统，其中，所述预设确定条件是输入信号的特性或语音信号处理系统的特性。
3.如权利要求1所述的语音信号预处理系统，还包括谐波峰值提取器，用于从语音信号帧搜索和提取谐波峰值。
4.如权利要求1所述的语音信号预处理系统，还包括噪声消除器，用于从语音信号帧中消除噪声。
5.如权利要求1所述的语音信号预处理系统，其中，所述形态学分析器包括形态学滤波器，用于基于预设窗口尺寸执行语音信号帧的形态学运算，并且通过对转换的语音信号波形执行形态学闭运算和预处理从形态学运算的结果提取特性频率；以及结构组尺寸确定器，用于确定形态学滤波器的最佳结构组尺寸，所述形态学滤波器对语音信号帧执行形态学闭运算。
6.如权利要求1所述的语音信号预处理系统，其中，所述语音信号特性信息提取器包括包络提取器，用于根据形态学分析结果从语音信号帧或特性频率区域提取谐波峰值的包络信息和非谐波峰值的包络信息中的至少一个；基音提取器，用于根据形态学分析结果使用语音信号帧或特性频率区域提取基音信息；以及神经网络系统，用于根据形态学分析结果从语音信号帧或特性频率区域检测特性信息，将预设权重赋予每条检测的特性信息，并且根据神经网络识别结果确定语音信号帧相应于浊音、清音还是背景噪声。
7.如权利要求6所述的语音信号预处理系统，其中，所述神经网络系统具有两个神经网络。
8.如权利要求7所述的语音信号预处理系统，其中，如果根据第一神经网络识别，语音信号帧或与特性频率区域相应的语音信号的确定结果不指示浊音，则神经网络系统保留语音信号帧或特性频率区域的确定，使用第一神经网络的对至少一个不同的语音信号帧或特性频率区域的浊音/清音/背景噪声确定结果和从不同的语音信号帧或特性频率区域提取的各种特性信息的次要统计值，来执行第二神经网络识别，并且根据第二神经网络识别的结果来确定输入语音信号帧相应于浊音、清音还是背景噪声。
9.如权利要求6所述的语音信号预处理系统，其中，所述基音提取器通过从特性频率区域检测谐波区域与噪声区域的能量比并将具有最大能量比的峰值确定为基音信息来提取基音信息。
10.如权利要求5所述的语音信号预处理系统，其中，所述包络提取器通过在第一基音周期从语音信号帧或特性频率区域检测最大峰值作为第一谐波峰值，通过检测后来的搜索区域的最大谐波峰值的处理选择谐波峰值，并且将内插应用于选择的谐波峰值，来提取谐波峰值包络信息。
11.如权利要求10所述的语音信号预处理系统，其中，所述包络提取器通过选择没有被选为谐波峰值的峰值并将内插应用于选择的峰值来提取非谐波峰值包络信息。
12.如权利要求11所述的语音信号预处理系统，所述控制器使用谐波峰值包络信息和非谐波峰值包络信息确定语音信号帧相应于浊音还是清音。
13.如权利要求12所述的语音信号预处理系统，还包括浊音度计算器，用于通过计算谐波峰值包络信息与非谐波峰值包络信息的能量比来计算浊音度。
14.如权利要求13所述的语音信号预处理系统，其中，所述控制器通过将计算的浊音度与预设浊音阈值进行比较或与预设浊音阈值和预设清音阈值两者进行比较，来确定语音信号帧或与特性频率区域相应的语音信号是浊音、清音还是背景噪声。
15.如权利要求13所述的语音信号预处理系统，其中，所述包络提取器通过使用谐波峰值包络信息从选择的谐波峰值选择次要谐波峰值并将内插应用于选择的次要谐波峰值，来提取次要谐波峰值包络信息。
16.如权利要求15所述的语音信号预处理系统，其中，所述浊音度计算器通过计算次要谐波峰值包络信息与非谐波峰值包络信息的能量比来计算浊音度。
17.如权利要求13所述的语音信号预处理系统，其中，所述控制器通过将计算的浊音度与预设浊音阈值进行比较或与预设浊音阈值和预设清音阈值两者进行比较，来确定语音信号帧或与特性频率区域相应的语音信号是浊音、清音还是背景噪声。
18.一种提取语音信号的特性信息的方法，所述方法包括步骤通过从输入信号中识别语音，提取所述语音，将接收的时域的语音信号转换为频域的语音信号，并且输出语音信号，从而产生语音信号帧；根据预设确定条件确定是否使用语音信号帧的谐波峰值提取语音信号的特性信息；根据谐波峰值使用确定结果执行语音信号帧的形态学分析，并且根据形态学分析结果提取特性频率区域；根据谐波峰值使用确定结果使用特性频率区域或语音信号帧来提取下一阶段的语音信号处理系统请求的语音信号特性信息；以及将提取的语音信号特性信息输出到语音信号处理系统。
19.如权利要求18所述的方法，其中，产生语音信号帧的步骤包括从输入信号中识别语音信号；通过将接收的时域的语音信号转换为频域的语音信号来产生语音信号帧；以及从语音信号帧消除噪声。
20.如权利要求19所述的方法，其中，消除噪声的步骤包括通过根据语音信号帧的幅度设置权重，基于设置的权重执行每个幅度的平方运算，并且基于预设阈值将(+)或(-)符号赋予平方运算的结果，来设置较大的具有小于预设阈值的幅度的信号与具有大于或等于预设阈值的幅度的信号的幅度比。
21.如权利要求18所述的方法，其中，确定步骤还包括根据语音信号的特性或下一阶段的语音信号处理系统的特性确定是否使用语音信号帧的谐波峰值提取语音信号的特性信息。
22.如权利要求18所述的方法，其中，执行步骤包括确定形态学滤波器的最佳结构组尺寸，所述形态学滤波器对语音信号帧执行形态学闭运算；根据确定的最佳结构组尺寸基于窗口尺寸对语音信号帧执行形态学运算；以及通过使用形态学运算结果执行语音信号帧的形态学闭运算并执行预处理来提取特性频率，在所述预处理中，通过从转换的语音信号中去除阶梯信号仅获得谐波信号。
23.如权利要求22所述的方法，其中，确定最佳结构组尺寸的步骤由下面的等式表示窗口尺寸＝(最佳结构组尺寸×2+1)。
24.如权利要求18所述的方法，其中，提取语音信号特性信息的步骤包括从语音信号帧或特性频率区域提取包络信息。
25.如权利要求24所述的方法，其中，提取包络信息的步骤包括接收语音信号帧或特性频率区域；在第一基音周期从语音信号帧或特性频率区域检测最大峰值作为第一谐波峰值；选择后来的搜索区域的谐波峰值；以及通过将内插应用于选择的谐波峰值来提取谐波峰值包络信息。
26.如权利要求25所述的方法，还包括通过选择没有被选为谐波峰值的峰值并将内插应用于选择的没有被选为谐波峰值的峰值，来提取非谐波峰值包络信息。
27.如权利要求18所述的方法，其中，提取语音信号特性信息的步骤包括从语音信号帧或特性频率区域提取基音信息。
28.如权利要求27所述的方法，其中，提取基音信息的步骤包括从语音信号帧或特性频率区域检测谐波区域与噪声区域的能量比；以及通过将具有最大能量比的峰值确定为基音信息来提取基音信息。
29.如权利要求18所述的方法，其中，提取语音信号特性信息的步骤包括确定语音信号帧或与特性频率区域相应的语音信号相应于浊音、清音还是背景噪声。
30.如权利要求29所述的方法，其中，确定步骤包括根据预设条件确定使用从语音信号帧或特性频率区域提取的包络信息还是使用利用从语音信号帧或特性频率区域提取的特性信息的神经网络识别方法；以及通过根据依照预设条件的确定结果选择使用包络信息的方法或神经网络识别方法，来确定语音信号帧或与特性频率区域相应的语音信号相应于浊音、清音还是背景噪声。
31.如权利要求30所述的方法，其中，使用包络信息的方法包括接收语音信号帧或特性频率区域；从语音信号帧或特性频率区域选择谐波峰值；通过将内插应用于选择的谐波峰值提取谐波峰值包络信息；通过选择没有被选为谐波峰值的峰值并将内插应用于选择的没有被选为谐波峰值的峰值，来提取非谐波峰值包络信息；计算谐波峰值包络信息与非谐波峰值包络信息的能量比作为浊音度；以及根据浊音度确定语音信号帧或与特性频率区域相应的语音信号相应于浊音还是清音。
32.如权利要求31所述的方法，其中，提取谐波峰值包络信息的步骤包括使用提取的谐波峰值包络信息从选择的谐波峰值中选择次要谐波峰值；以及通过将内插应用于选择的次要谐波峰值并且提取次要谐波峰值的信息作为次要谐波峰值包络信息，来提取次要谐波峰值的包络信息。
33.如权利要求32所述的方法，其中，计算浊音度的步骤包括计算次要谐波峰值包络信息与非谐波峰值包络信息的能量比作为浊音度。
34.如权利要求31所述的方法，其中，确定步骤包括将计算的浊音度与预设浊音阈值进行比较，并且根据比较结果确定语音信号帧或与特性频率区域相应的语音信号相应于浊音还是清音。
35.如权利要求31所述的方法，其中，确定步骤包括将计算的浊音度与预设浊音阈值和预设清音阈值两者进行比较，并且根据比较结果确定语音信号帧或与特性频率区域相应的语音信号是浊音、清音还是背景噪声。
36.如权利要求30所述的方法，其中，神经网络识别方法包括从语音信号帧或特性频率区域提取特性信息；以及通过将预设权重赋予提取的特性信息并基于赋予的权重执行神经网络操作，来确定语音信号帧或与特性频率区域相应的语音信号是浊音、清音还是背景噪声。
37.如权利要求30所述的方法，其中，神经网络识别方法包括从语音信号帧或特性频率区域提取特性信息；通过将提取的特性信息和赋予提取的特性信息的权重输入到第一神经网络，来确定语音信号帧或与特性频率区域相应的语音信号是否是浊音；如果由第一神经网络识别结果确定语音信号帧或与特性频率区域相应的语音信号是浊音，则输出第一神经网络识别结果作为语音信号帧或与特性频率区域相应的语音信号的确定结果，如果由第一神经网络识别结果确定语音信号帧或与特性频率区域相应的语音信号不是浊音，则保留语音信号帧或与特性频率区域相应的语音信号的确定；如果由第一神经网络识别结果确定语音信号帧或与特性频率区域相应的语音信号是浊音，则检查是否存在保留确定的语音信号；如果由检查结果确定存在保留确定的语音信号，则存储从多于预设数量的语音信号帧或特性频率区域提取的特性信息；通过将保留确定的语音信号的第一神经网络识别结果、从多于预设数量的语音信号帧或特性频率区域提取的信息的次要统计值、和对第一神经网络识别结果和次要统计值设置的权重输入到第二神经网络，来确定语音信号帧或与特性频率区域相应的语音信号是清音还是背景噪声；以及根据第二神经网络识别结果确定保留确定的语音信号是浊音、清音还是背景噪声。
全文摘要
提供一种语音信号预处理系统和一种用于提取语音信号的特性信息的方法。为此，确定是否使用谐波峰值提取输入语音信号的特性信息。根据确定结果，将根据形态学分析结果得到的语音信号帧或特性频率区域输入到语音信号特性信息提取器，所述语音信号特性信息提取器用于提取下一阶段的语音信号处理系统请求的语音信号特性信息。通过控制器选择的语音信号特性信息提取器接收语音信号帧或根据形态学分析结果得到的特性频率区域，并且提取下一阶段的语音信号处理系统请求的语音信号特性信息。
文档编号G10L25/30GK101051460SQ200710079190
公开日2007年10月10日申请日期2007年2月15日优先权日2006年4月5日
发明者金炫秀申请人:三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金炫秀
技术所有人：三星电子株式会社
我是此专利的发明人

上一篇：具有第二歌词显示装置的计算机伴唱系统的制作方法
上一篇：一种利用网络提供语音辨识引擎的系统及其方法