语音的频谱波峰的检测以及语音识别方法和系统的制作方法

文档序号：2837542阅读：401来源：国知局

专利名称：语音的频谱波峰的检测以及语音识别方法和系统的制作方法
技术领域：
本发明涉及信息处理技术，具体地，涉及语音的频谱波峰的检测以及利用语音的频语波峰信息的语音识别技术。
背景技术：
自动语音识另'J (Automatic Speech Recognition, ASR)才支术的目标是使计算机能够识别出人所说出的连续语音。通常，自动语音识别过程包括模板生成和匹配识别两个阶段。在模板生成阶段，根据样本语音的频谱特征建立供比对的才莫板；在识别阶段，当说话人的语音被输入到计算机内部后，计算机的自动语音识别系统便对这些语音进行特征提取，并以此与事先存储好的语音模板进行比对，以找出最匹配、最接近的语音样本，从而据此获知所输入的语音的含义，进而据此执行命令或转换为用户希望的识别格式。
目前，针对自动语音识别技术提出了很多的算法，但是这些算法基本都是基于较为纯净的语音环境的。也就是说，在目前的自动语音识别系统中，大多数语音才莫板都是在无噪声的"纯净，，环境中采集/转换而成的。
但是，实际的语音环境不可避免地存在干扰和噪声。从而，一旦语音识别的环境中有噪声和干扰，并且这些噪声很强时，上述的自动语音识别系统便很难准确地从含噪语音中识别出说话者的语音，从而识别准确率将会大大降低。
从而，目前的自动语音识别系统虽然在安静环境下可以获得比较令人满意的识别准确率，但是其性能在噪声环境下会急剧下降。
8因此，抗噪稳健性对于一个自动语音识别系统的应用来说是十分关键的。并且，随着自动语音识别技术的t艮和广泛应用，对于语音识别的抗噪稳健性的要求愈加严格。因为，实际的应用环境要求自动语音识别系统必须能够应付千差万别的噪声环境。
目前，自动语音识别的抗噪稳健性方面的工作主要集中在前端设计，目的是减少噪声所引起的特征空间的失配。因为，诸如梅尔倒谱系数
(Mel-Frequency Cepstral Coefficient, MFCC )的传统i吾音识别前端主要使用语音信号的功率谱信息，但是，在噪声环境下，语音信号的功率谱常常会被噪声所破坏，所以，采用这样受到噪声破坏的功率i普来进行语音识别，其准确性势必会受到影响。
所以，目前有一些改进的前端利用了语音频i普波峰的信息来提高抗噪稳健性，因为，通常认为语音频谱波峰受噪声影响比较小。虽然目前这些基于频镨波峰的前端对提高抗噪稳健性有一定的积极作用，但是仍然存在一些问题需要解决
(1) 需要从语音频i普中去掉那些噪声所引起的频语波峰。含噪语音频镨中一些波峰是由噪声引起的，如果将噪声引起的波，认为是语音引起的，则会导致识别性能下降。
(2) 语音特征的维数不能增加太多。目前，大部分利用频镨波峰信息的稳健前端是将单纯利用频傳波峰信息的特征与传统的梅尔刻度倒i普系数结合起来，因此特征维数会增多。
从而，需要一种能够可靠地检测语音的频傳波峰并在语音识别中使用语音频语波峰的信息、以便在不增加语音特征维数的情况下提高语音识别的抗噪稳健性的技术。

发明内容
本发明正是鉴于上述现有技术中的问题而提出的，其目的在于提供一种语音的频i脊波峰的检测方法和装置以及语音识别方法和系统，以便在语可靠的语音频i普波峰，进而在语音识别中利用可靠的语音频谱波峰的能量
值代替整个功率谱来提取语音的梅尔倒谱系数MFCC特征，从而在不增加语音特征维数的情况下提高语音识别的抗噪稳健性。
根据本发明的一个方面，提供了一种检测语音的频谱波峰的方法，包括从上述语音的功率i普中检测出语音频镨波峰候选；以及根据波峰间距和/或相邻帧的波峰位置，去除上述语音频i普波峰候选中的噪声波峰，以检测出语音频语波峰。
根据本发明的另一个方面，提供了一种语音识别方法，包括利用上述的检测语音的频i普波峰的方法，从待识别语音的功率语中检测出语音频谱波峰；以及利用上述语音频镨波峰的信息获得上述待识别语音的梅尔倒谱系数特征。
根据本发明的另一个方面，提供了一种语音识别方法，包括从待识别语音的功率镨中检测出语音频谦波峰；利用上述语音频谱波峰的信息，从上述待识别语音的功率镨计算基于频i普波峰的向量序列；以及将上述基于频语波峰的向量序列输入到梅尔滤波器组，以获得该待识别语音的梅尔倒谱系数特征。
根据本发明的另一个方面，提供了一种语音的频语波峰的检测装置，包括频镨波峰候选检测单元，用于从上述语音的功率谱中检测出语音频谦波峰候选；以及噪声波峰去除单元，用于根据波峰间距和/或相邻帧的波峰位置，去除上述语音频镨波峰候选中的噪声波峰，以检测出语音频镨波峰。
根据本发明的另一个方面，提供了一种语音识别系统，包括上述的语音的频i普波峰的检测装置，其从待识别语音的功率镨中检测出语音频谱波峰；梅尔倒镨系数特征获取单元，用于利用上述语音频镨波峰的信息获得上述待识别语音的梅尔倒谱系数特征。
根据本发明的另一个方面，提供了一种语音识别系统，包括频镨波峰检测单元，用于从待识别语音的功率i普中检测出语音频镨波峰；基于频镨波峰的向量获取单元，用于利用上述语音频镨波峰的信息，从上述待识别语音的功率镨计算基于频i普波峰的向量序列；以及梅尔滤波器組，用于根据上述基于频i普波峰的向量序列获得该待识别语音的梅尔倒谱系数特征。

相信通过以下结合附图对本发明具体实施方式
的说明，能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明实施例的检测语音的频谱波峰的方法的流程图；图2是根据本发明一个实施例的语音识别方法的流程图；图3是根据本发明另一个实施例的语音识别方法的流程图；图4是根据本发明实施例的语音的频谱波峰的检测装置的方框图；图5是才艮据本发明一个实施例的语音识别系统的方框图；以及图6是根据本发明另一个实施例的语音识别系统的方框图。
具体实施例方式
下面就结合附图对本发明的各个优选实施例进行详细说明。
首先，描述本发明的检测语音的频语波峰的方法。本发明的检测语音的频i普波峰的方法的主要思想是，利用波峰间距以及相邻帧的波峰位置限制，去除语音的功率谱中的噪声波峰，从而检测出可靠的语音频镨波峰。
图1是根据本发明实施例的检测语音的频i普波峰的方法的流程图。如图1所示，首先，在步骤105，利用语音增强才支术对语音的功率傳进行增强。对于含噪的语音信号而言，由于在某些情况下噪声和有效语音的频语差异不大，所以如果直接进行语音频镨波峰的检测，则检测结果将不是很准确。而对语音信号进行增强处理后，则可使有效语音信号与噪声信号之间的差异变得明显，从而可以有助于检测出有效语音频谙波峰而去除其中的噪声波峰。所以，在检测语音的频i普波峰之前，首先利用本步骤对语音的功率i普进行增强，以在一定程度上确保语音频镨波峰的检测的可靠性。
在本步骤中，为了实现语音信号的增强，可以采用谱减法(SpectralSubtraction, SS )、最小均方误差法(Minimum Mean-Square Error, MMSE)或维纳滤波法(Winer Fliter， WF)等任何现在已知或将来可知的语音增强技术，本发明对此并没有特别的限制。
接着，在步骤110,从语音的功率i普中检测出语音频语波峰候选。本步骤110的目的是要确定出语音信号的功率傳中所有可能的语音波峰位置。对于语音信号而言，其功率i普是有着许多代表波峰位置的"拐点"的波状曲线。从而，在本步骤中，通过确定语音功率i普中的这些"拐点"，来确定可能的语音频谱波峰位置。之所以称之为可能的语音频谱波峰，是因为其中有可能包含着因噪声而产生的波峰。因而，在本步骤中确定的可能的语音频i瞽波峰，仅是作为语音频i普波峰候选，而有待于后面的步骤进一步从中筛选出可靠的语音频镨波峰。
接着，在步骤115，根据语音的功率i普中的波峰间距，去除步骤110 所确定的语音频镨波峰候选中的噪声波峰。
在本步骤中，去除语音频镨波峰候选中的噪声波峰，是基于语音信号的功率谱的特性之一来进行的。也就是说，在语音信号的功率镨中，两个相邻的语音频镨波峰的距离通常都是大于某一阈值的。从而，根据该特性，如果语音频镨波峰候选中的一个或几个波峰被确定为是语音频语波峰，那么在这个/这些语音频谱波峰的左右阈值距离内出现的波峰将极有可能是噪声信号的波峰。从而，在本步骤中，便将这些不可靠的波峰认为是噪声波峰而从语音频镨波峰候选中去除。
具体地，在本步骤的实现中，考虑这样的事实在语音频i普波峰候选中，一般能量最大的波峰都是语音信号的频语波峰。所以，在本步骤中，首先假定语音频谱波峰候选中拥有最高能量的波峰是由语音产生的，从而确定这个/这些具有最高能量的波峰的位置；然后，以这个/这些具有最高能量的波峰为中心，利用搜索算法沿频率轴向左右搜索，以找出与前一波峰的距离小于设定波峰间距阈值的波峰，并认为其是噪声波峰而将其从语音频镨波峰候选中去除。需要指出的是，在本步骤中，所采用的搜索算法可以是任意一种现在已知或将来可知的动态规划算法，本发明对此并没有特
12别的限制。
此外，在本步骤中，也可将语音的功率镨分段，分别针对各段中的语音频镨波峰候选、利用上述过程进行噪声波峰的去除。例如，可逐帧确定该帧内的语音频谱波峰候选中具有最高能量的波峰，并以其为中心去除该帧中与前一波峰的距离小于设定波峰间距阈值的噪声波峰。此外，在本步骤中，也可才艮据具体情况，以能量超过设定阈值的多个波峰同时作为具有最高能量的波峰，并以这些波峰的位置为基准分别利用波峰间距阈值限制去除噪声波峰。
在步骤120，根据语音的功率i普中相邻帧的波峰位置，去除上述语音频镨波峰候选中的噪声波峰。
在本步骤中，去除语音频谱波峰候选中的噪声波峰，是基于语音信号的功率i普的另一特性来进行的。也就是说，在语音信号的功率语中，相邻两帧之间的语音频i普波峰的位置不会有很大差别，即在相邻两帧之间，语音频谱波峰的位置应该是对应或近似对应的。帧是指在计算机技术中，信号处理或信号传输的基本单元。如动画中，每一个静止的画面就是一帧。数据传输中，每一次传输的数据称为一帧。在语音识别中，由于语音信号是一个短时平稳信号，在对其进行分析处理时，将其分割成比较小的单元，对逐个单元进行分析处理。在语音识别领域中，语音识别处理中的这一基本单元我们称之为帧。在语音识别中，通常一帧的时长为几十毫秒。
从而，在本步骤中，对语音频i脊波峰候选中处于相邻帧内的语音频语波峰候选的位置进行相互比对，去除在该相邻帧的其中一帧中出现、而在另一帧中的相同位置或相同位置附近并未出现的波峰。即对语音频i普波峰候选中每两个相邻帧内的语音频语波峰候选进行波峰位置比对，并将那些与相邻帧相比波峰位置偏差超过阈值的波峰认为是噪声波峰，而将其从语音频谱波峰候选中去除。
以上就是对本实施例的检测语音的频镨波峰的方法的详细描述。在本实施例中，通过在语音频谱波峰的检测中利用波峰间距以及相邻帧的波峰位置限制来去除噪声波峰，能够检测出可靠的语音频谱波峰。并且，通过在进行语音频镨波峰的检测之前首先对语音信号的功率语进行增强，能够进一步确保语音频傳波峰的检测的可靠性。
此外，需要说明的是，在本实施例中，虽然包括了利用语音增强技术
对语音的功率谱进行增强的步骤105，但是，本发明并不限于此。在其他实施例中，即使不对语音信号的功率谱进行增强，也可得到可靠的有效语音频语波峰的检测效果。
还需要说明的是，在本实施例中，虽然同时包括了根据波峰间距限制去除噪声波峰的步骤115和根据相邻帧的波峰位置限制去除噪声波峰的步骤120这两种噪声波峰去除方式，但是，本发明并不限于此。在其他实施例中，也可仅使用这两种噪声波峰去除方式中的一种，在此情况下，也可达到一定的噪声波峰去除效果。另外，虽然本实施例是依步骤115、步骤 120的顺序而描述的，但是并不限于此。在其他实施例中，也可以先利用步骤120的方式才艮据相邻帧的波峰位置限制去除噪声波峰，在此基础上再利用步骤115的方式根据波峰间距限制去除噪声波峰。
下面描述本发明的基于语音频语波峰信息的语音识别方法。
本发明的基于语音频谱波峰信息的语音识别方法的主要思想是，在语音识别中，利用语音频谱波峰的能量值代替传统技术中的整个功率谱的采样序列来提取语音的梅尔倒镨系数特征，从而在不增加语音特征维数的情况下提高语音识别的抗噪稳健性。
首先，结合附图描述本发明的采用了上面结合图l描述的实施例的检测语音的频谱波峰的方法的语音识别方法。
图2是根据本发明一个实施例的语音识别方法的流程图。如图2所示，首先，在步骤205，输入待识别语音。一般地，待识别的语音信号可利用麦克风进行采集，并通过快速傅立叶变换(FFT)得到功率语。
在步骤210，利用结合图1描述的实施例的检测语音的频i普波峰的方法，从待识别语音的功率语中检测出语音频谱波峰。在本步骤中，利用结合图l描述的实施例的检测语音的频i普波峰的方法，通过波峰间距限制以及相邻帧的波峰位置限制，在一定程度上去除噪声波峰的干扰，从而检测出对于语音识别来说更加可靠的语音频谱波峰。
接着，在下面的步骤215-230的过程中，利用在步骤210中检测出的语音频镨波峰的信息，获得待识别语音的基于频谱波峰的向量序列
具体地，在步骤215，获得待识别语音的功率i普的采样序列咖)(^i,2，...)。对于本领域的技术人员来说所公知的，语音的功率谱的采样序列就是，语音的功率i普上的一系列点的能量值所组成的数字序列，其用来代表该模拟语音的功率i普。
在步骤220,利用在步骤210中检测出的语音频谙波峰的信息，判断上述采样序列中的各采样点"是否位于波峰点。如果是，则前进到步骤225，否则前进到步骤230。
在步骤225，对于在步骤220被判断为位于波峰点位置的采样点"，直接利用该点的采样值(能量值)vW计算该点的基于频镨波峰的向量值。W 。
也就是说，由于在步骤210中检测出的频谱波J^皮认为是可靠的语音的频镨波峰，所以对于位于这样的波峰位置上的采样点，〗更能够确定其是语音信号上的一点，从而能够可靠地直接采用该采样点的采样值(能量值)。
具体地，作为步骤225的一种实现方式，使该位于波峰点位置上的采样点n的基于频谱波峰的向量值。W直接等于该采样点"的采样值v(")，即
作为步骤225的另一种实现方式，对于该位于波峰点位置上的采样点 M，进一步判断该点的采样值咖)是否大于预先设定的能量阈值；在大于预先设定的能量阈值时才可信地认为该点确实是语音信号上的一点，从而使用该点的采样值+)来获得该点的基于频镨波峰的向量值。^ ，否则，不采
用该点的采样值，而使该点的向量值。^等于o，即。(")n，，:2 。
在步骤230，对于在步骤220被判断为不处于波峰点位置上的采样点"，不利用该点的釆样值咖)计算该点的基于频镨波峰的向量值。W 。
也就是说，由于仅在步骤210中检测出的频i普波J^^皮认为是可靠的语音的频镨波峰，而对于除了这些波峰点位置之外的其他点，并不能可靠地确保其是语音的功率谱上的点，所以避免直接使用这些不可靠点的采样值。
具体地，作为步骤230的一种实现方式，使该不处于波峰点位置上的采样点"的基于频谱波峰的向量值。W直接等于0,即。^ = 0 。
作为步骤230的另一种实现方式，对于该不处于波峰点位置上的采样点n ，利用分别与该采样点左右相邻的两个波峰点的采样值的插值来得到该采样点的基于频语波峰的向量值。W ,即
= ,、〃乂 *(" -+难,)
其中，&和、分别代表该不处于波峰点位置上的采样点"左边和右边最近的语音功率镨上的波峰点。从而，利用该实现方式，即使对于不处于波峰点位置上的采样点，也能够根据波峰点的能量值来得到其基于频谱波峰的向量值。
从而，利用步骤225和230，便可得到待识别语音的基于频语波峰的向量序列
并且，如果对于上述步骤225和230的不同实现方式进行归纳总结，则可得出本发明以下四种不同的、根据待识别语音的采样序列获得基于频谱波峰的向量序列 0(^" = 1,2,..」的方案
方案一对于采样序列咖)( =1,2,...)中的各采样点"，如果该采样点"位于波峰点，则该采样点的基于频镨波峰的向量值为其中HW是该采样点的采样值；否则，。w = o。
方案二对于采样序列v(")(^u，…)中的各采样点n,如果该采样点"位于
波峰点，则该采样点的基于频镨波峰的向量值为其中 vw是该采样点的采样值；否则，。(")=o。
方案三对于采样序列v(")(^u.,.)中的各采样点"，如果该采样点"位于
波峰点，则该采样点的基于频i普波峰的向量值为。w"(n)，其中咖)是该采
样点的采样值；否则，该采样点的基于频语波峰的向量值。w等于分别与
该采样点n左右相邻的两个波峰点的采样值的插值，即
,、(v .) 一 v(&,))。，，、，，、
16其中，&和^分别代表不处于波峰点位置上的该采样点"左边和右边最近的语音功率镨上的波峰点。
方案四对于采样序列v(咖^2,…)中的各采样点"，如果该采样点"位于
波峰点，则该采样点的基于频谱波峰的向量值为。(—d:，:，，其中
Lo 如果vO)引萄f直
vw是该采样点的采样值；否则，该采样点的基于频谱波峰的向量值。w等于分别与该采样点w左右相邻的两个波峰点的采样值的插值，即
0(")=(v(
—A,
其中，^和、分别4戈表不处于波峰点位置上的该采样点"左边和右边最近的语音功率镨上的波峰点。
接着，在步骤235,代替传统技术中的待识别语音的功率i普的采样序列v( )("=u...)，将在步骤225和230计算得到的待识别语音的基于频谱波峰的向量序列..)输入到梅尔滤波器组，以获得待识别语音的梅尔倒i瞽系数MFCC特征。在本步骤中，MFCC特征的提取过程是首先利用梅尔滤波器组对所输入的基于频镨波峰的向量序列—X2,.;进行巻积；然后对各个滤波器的输出构成的能量向量进行离散余弦变换(DCT)，得到最终的该待识别语音的梅尔倒语系数MFCC特征。
以上就是对本实施例的语音识别方法的详细描述。在本实施例中，首先利用图1的检测语音的频镨波峰的方法从待识别语音的功率镨中检测出语音频语波峰，然后利用这些语音频镨波峰的信息来计算待识别语音的基于频语波峰的向量序列，并将该向量序列代替传统的采样序列而作为梅尔滤波器组的输入，来获得梅尔倒镨系数特征。从而，本实施例通过利用图 1的方法检测出可靠的语音频语波峰，并在语音特征的提取中仅利用这些可靠的语音频谱波峰的能量值，使得所获得的语音特征更加准确，语音识别的准确性更高。具体而言，本实施例的优点如下
(1)在噪声环境中，语音识别的性能通过在语音的MFCC特征提取中仅采用可靠的有效语音频镨波峰的能量值而得到提高。
17(2 )稳健的频i普波峰检测算法保证了语音频谱波峰信息的可靠性。 (3)特征维数没有增加，避免了计算和内存资源消耗的增加。
下面结合附图描述本发明的未采用上面结合图1所描述的实施例的检测语音的频i普波峰的方法的语音识别方法。
图3是根据本发明另一个实施例的语音识别方法的流程图。在本实施例中，除了步骤310之夕卜，其余的步骤205、215-235均与图2中的步骤205、 215-235相同，所以在此省略对这些步骤的重复说明。
在图3的步骤310，从待识别语音的功率i普中检测出语音频i普波峰。在该步骤中，并不利用结合图1所描述的实施例的检测语音的频谱波峰的方法，而是，除了该方法之外，任何能够从待识别语音的功率谱中可靠地检测出语音频语波峰的、现在已知或将来可知的手段都是可以使用的，本实施例对此并没有特别的限制。
以上就是对本实施例的语音识别方法的详细描述。虽然未采用图l的方法，但本实施例通过仅利用可靠的语音频镨波峰的能量值来提取待识别语音的MFCC特征，同样能够得到在不增加语音特征维数的情况下提高语音识别的抗噪稳健性的效果。
在同一发明构思下，本发明提供一种语音的频谱波峰的检测装置。下面结合附图对其进行描述。
图4是根据本发明实施例的语音的频镨波峰的检测装置的方框图。如图4所示，本实施例的语音的频谦波峰的检测装置40包括语音信号增强单元401、频谱波峰候选检测单元402以及噪声波峰去除单元403。
其中，语音信号增强单元401，用于利用语音增强技术对语音的功率谱进行增强。其所采用的语音增强技术可以是谦减法、最小均方误差法及维纳滤波法等任何现在已知或将来可知的语音增强技术，本发明对此并没有特别的限制。
频镨波峰候选检测单元402，用于从增强后的语音的功率语中检测出语音频语波峰候选。具体地，频语波峰候选检测单元402检测出语音的功率镨中的各个拐点，作为语音频语波峰候选。
18噪声波峰去除单元403，用于根据波峰间距和/或相邻帧的波峰位置限制，去除频镨波峰候选检测单元402所检测出的语音频谱波峰候选中的噪声波峰。
如图4所示，噪声波峰去除单元403可进一步包括波峰间距限制单元4031和相邻帧的波峰位置限制单元4032。
其中，波峰间距限制单元4031，用于根据语音的功率谱，确定语音频镨波峰候选中具有最高能量的波峰，并以该具有最高能量的波峰为中心，利用搜索算法沿频率轴去除语音频谱波峰候选中与前一波峰的距离小于设定波峰间距阈值的波峰。此外，波峰间距限制单元4031也可按帧来确定具有最高能量的波峰，并进而以其为中心去除该帧内的语音频谱波峰候选中不满足波峰间距阈值限制的噪声波峰。此外，波峰间距限制单元4031也可在一帧内的语音频谱波峰候选中将能量超过阈值的多个波峰同时作为具有最高能量的波峰。此外，波峰间距限制单元4031所采用的搜索算法可以是任意一种现在已知或将来可知的动态规划算法。
相邻帧的波峰位置限制单元4032，用于对上述语音频i普波峰候选中相邻帧内的语音频傳波峰候选的位置进行比对，并去除在其中一帧中出现、而在另一帧中的相同位置或相同位置附近并未出现的波峰。也就是说，相邻帧的波峰位置限制单元4032对语音频镨波峰候选中每两个相邻帧内的语音频镨波峰候选进行波峰位置比对，并将那些与相邻帧相比波峰位置偏差超过阈值的波峰认为是噪声波峰，而将其从语音频谱波峰候选中去除。
以上就是对本实施例的语音的频语波峰的检测装置的详细描述。在本实施例中，通过在语音频镨波峰的检测中利用波峰间距以及相邻帧的波峰位置限制来去除噪声波峰，能够检测出可靠的语音频镨波峰。并且，通过对语音信号的功率镨进行增强，能够进一步确保语音频i普波峰的检测的可靠性。
本实施例的语音的频谱波峰的检测装置40及其各个组成部分，可以由专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的检测装置40，操作上可以实现前面结合图l说明的实施例的检测语音的频语波峰的方法。
此外，需要说明的是，在本实施例中，虽然同时包括了波峰间距限制
单元4031和相邻帧的波峰位置限制单元4032,但是，在其他实施例中，也可仅包括这两个单元中的一个，在此情况下，也可达到一定的噪声波峰去除效果。
下面结合附图描述本发明的采用了上面的语音的频谱波峰的检测装置40的语音识别系统。
图5是才艮据本发明一个实施例的语音识别系统的方框图。如图5所示，本实施例的语音识别系统50包括结合图4所描述的实施例的语音的频谱波峰的检测装置40，用于从待识别语音的功率i普中检测出语音频谱波峰；以及梅尔倒镨系数特征获取单元51,用于利用语音的频语波峰的检测装置40获得的语音频谱波峰的信息，获得待识别语音的梅尔倒谱系数MFCC特征。
如图5所示，梅尔倒语系数特征获取单元51可以进一步包括基于频i普波峰的向量获取单元511，用于利用上述语音频i普波峰的信息，从待识别语音的功率谱计算基于频谱波峰的向量序列—X2,.);以及梅尔滤波器组512，用于根据上述基于频谱波峰的向量序列—x2,.;获得待识别语音的梅尔倒i普系数MFCC特征。
如图5所示，基于频镨波峰的向量获取单元511可以进一步包括采样序列获取单元5111，用于获得上述待识别语音的功率语的采样序列v(wxn=i,2,...r，向量计算单元5112，用于利用上述语音频谱波峰的信息，根据上述采样序列= 1>2,...)获得待识别语音的基于频谱波峰的向量序列
具体地，向量计算单元5112可以才艮据本发明的以下四种方案中的任意
一种来根据待识别语音的采样序列v( )( = i,2,...)获得基于频谱波峰的向量序列
方案一判断上述采样序列中的各采样点"是否为波峰点
如果该采样点是波峰点，则将该采样点的基于频谱波峰的向量
20值设置为。(")"w，其中vw是该采样点的采样值；否则为一)=0 。方案二判断上述采样序列v(咖d,2,...)中的各采样点"是否为波峰点
如果该采样点是波峰点，则将该釆样点的基于频谱波峰的向量值设置为其中+)是该采样点的采样值；否则为
o(") = 0 。
方案三判断上述采样序列—^=1，2,...)中的各采样点"是否为波峰点
如果该采样点"是波峰点，则将该采样点的基于频谱波峰的向量值设置为。(")=咖)，其中vw是该采样点的采样值；否则，。(")等于分别与该采样点左右相邻的两个波峰点的采样值的插值，即
。(")，r'))""'),
其中，、和、分别代表采样点n左边和右边最近的语音功率谱上的波峰点。
方案四判断上述采样序列k")( = i,2,...)中的各采样点是否为波峰点
如果该采样点"是波峰点，则将该采样点的基于频镨波峰的向量
值设置为。(")—，其中一是该采样点的采样值；否则，
。( )等于分别与该采样点左右相邻的两个波峰点的采样值的插值，即
其中，/t,和、分别代表采样点"左边和右边最近的语音功率语上的波峰点。
以上就是对本实施例的语音识别系统的详细描述。在本实施例中，通过利用结合图4所描述的语音的频镨波峰的检测装置40，能够检测出可靠的语音频i普波峰，进而，通过在语音特征的提取中仅利用这些可靠的语音频镨波峰的能量值，使得所获得的语音特征更加准确，语音识别的准确性更高。具体而言，本实施例的优点如下
(1)在噪声环境中，语音识别的性能通过在语音的MFCC特征提取中仅采用可靠的有效语音频i普波峰的能量值而得到提高。
21(2 )稳健的频谱波峰检测算法保证了语音频谱波峰信息的可靠性。(3)特征维数没有增加，避免了计算和内存资源消耗的增加。下面结合附图描述本发明的未采用上面的语音的频谱波峰的检测装置40的语音识别系统。
图6;14艮据本发明另一个实施例的语音识别系统的方框图。如图6所示，本实施例的语音识别系统60包括频谱波峰检测单元601、基于频谱波峰的向量获取单元511和梅尔滤波器组512。并且，基于频谱波峰的向量获取单元511还可以进一步包括采样序列获取单元5111和向量计算单元5112。
其中，本实施例中的基于频谱波峰的向量获取单元511、梅尔滤波器组512、采样序列获取单元5111和向量计算单元5112分别与图5中的基于频i普波峰的向量获取单元511、梅尔滤波器组512、采样序列获取单元5111和向量计算单元5112相同，所以在此省略对这些单元的重复说明。
此外，本实施例中的频谱波峰检测单元601，用于从待识别语音的功率镨中检测出语音频镨波峰。与上述结合图l描述的实施例的语音的频镨波峰的检测装置40不同，本实施例中的频谱波峰检测单元601可以使用任何能够从待识别语音的功率谱中可靠地检测出语音频傳波峰的、现在已知或将来可知的手段来获得语音频谱波峰信息，本实施例对其并没有特别的限制。
以上就是对本实施例的语音识别系统的详细描述。虽然未包括图4的语音的频镨波峰的检测装置40，但本实施例通过仅利用可靠的语音频镨波峰的能量值来提取待识别语音的MFCC特征，同样能够得到在不增加语音特征维数的情况下提高语音识别的抗噪稳健性的效果。
以上虽然通过一些示例性的实施例对本发明的语音的频镨波峰的检测方法和装置以及语音识别方法和系统进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅以所附权利要求为准。
权利要求
1. 一种检测语音的频谱波峰的方法，包括从上述语音的功率谱中检测出语音频谱波峰候选；以及根据波峰间距和/或相邻帧的波峰位置，去除上述语音频谱波峰候选中的噪声波峰，以检测出语音频谱波峰。
2. 根据权利要求l所述的检测语音的频镨波峰的方法，其中从上述语音的功率镨中检测出语音频谱波峰候选的步骤进一步包括求出上述语音的功率镨中的各个拐点，作为该语音的频镨波峰候选。
3. 根据权利要求l所述的检测语音的频镨波峰的方法，其中上述根据波峰间距和/或相邻帧的波峰位置，去除上述语音频语波峰候选中的噪声波峰的步骤进一步包括根据上述语音的功率语，确定上述语音频语波峰候选中具有最高能量的波峰；以及以该具有最高能量的波峰为中心，去除上述语音频镨波峰候选中与前一波峰的距离小于波峰间距阈值的波峰。
4. 根据权利要求1或3所述的检测语音的频语波峰的方法，其中上述根据波峰间距和/或相邻帧的波峰位置，去除上述语音频语波峰候选中的噪声波峰的步骤进一步包括对上述语音频i普波峰候选中相邻帧内的语音频谙波峰候选的位置进行比对；以及对于上述相邻帧内的语音频i普波峰候选，去除在其中一帧中出现、而在另一帧中的相同位置或相同位置附近并未出现的波峰。
5. 根据权利要求l所述的检测语音的频i普波峰的方法，其中在从上述语音的功率语中检测出语音频镨波峰候选的步骤之前还包括利用语音增强技术对上述语音的功率谱进行增强。
6. —种语音识别方法，包括利用权利要求1 ~ 5中任意一项所述的检测语音的频i普波峰的方法，从待识别语音的功率谱中检测出语音频谱波峰；以及利用上述语音频i普波峰的信息获得上述待识别语音的梅尔倒谱系数特征。
7. 根据权利要求6所述的语音识别方法，其中利用上述语音频语波峰的信息获得上述待识别语音的梅尔倒谱系数特征的步骤进一步包括利用上述语音频i普波峰的信息，从上述待识别语音的功率谱计算基于频镨波峰的向量序列；以及将上述基于频镨波峰的向量序列输入到梅尔滤波器组，以获得该待识别语音的梅尔倒谱系数特征。
8. —种i吾音识别方法，包括从待识别语音的功率镨中检测出语音频i普波峰；利用上述语音频镨波峰的信息，从上述待识别语音的功率谗计算基于频i普波峰的向量序列；以及将上述基于频语波峰的向量序列输入到梅尔滤波器组，以获得该待识别语音的梅尔倒谱系数特征。
9. 根据权利要求7或8所述的语音识别方法，其中利用上述语音频语波峰的信息，从上述待识别语音的功率语计算基于频i普波峰的向量序列的步骤进一步包括获得上述待识别语音的功率谱的采样序列；根据上述语音频镨波峰的信息，判断上述采样序列中的各采样点是否为波峰点；以及如果该采样点是波峰点，则将该采样点的基于频镨波峰的向量值设置为。(")"(")，其中v(w)是该采样点的采样值；否则为。(")=0 。
10. 根据权利要求7或8所述的语音识别方法，其中利用上述语音频 i普波峰的信息，从上述待识别语音的功率谱计算基于频i普波峰的向量序列的步骤进一步包括获得上述待识别语音的功率镨的采样序列；根据上述语音频镨波峰的信息，判断上述采样序列中的各采样点是否为波峰点；以及如果该采样点是波峰点，则将该采样点的基于频谱波峰的向量值设置为咖卜l"""卩，w〉？？，其中咖)是该采样点的采样值；否则为一)=。。
11. 根据权利要求7或8所述的语音识别方法，其中利用上述语音频镨波峰的信息，从上述待识别语音的功率i普计算基于频i脊波峰的向量序列的步骤进一步包括获得上述待识别语音的功率谙的采样序列；根据上述语音频语波峰的信息，判断上述采样序列中的各采样点是否为波峰点；以及如果该采样点是波峰点，则将该采样点的基于频语波峰的向量值设置为。w"(")，其中v(")是该采样点的采样值；否则，。(")等于分别与该采样点左右相邻的两个波峰点的采样值的插值。
12. 根据权利要求7或8所述的语音识别方法，其中利用上述语音频 i普波峰的信息，从上述待识别语音的功率镨计算基于频i普波峰的向量序列的步骤进一步包括获得上述待识别语音的功率镨的采样序列；根据上述语音频i普波峰的信息，判断上述采样序列中的各采样点是否为波峰点；以及如果该采样点是波峰点，则将该采样点的基于频谱波峰的向量值设置为。(")={r=:(:=，其中一是该采样点的采样值；否则，。(")等于分别与该采样点左右相邻的两个波峰点的采样值的插值。
13. —种语音的频谱波峰的检测装置，包括频i普波峰候选检测单元，用于从上述语音的功率镨中检测出语音频i普波峰候选；以及噪声波峰去除单元，用于根据波峰间距和/或相邻帧的波峰位置，去除上述语音频谱波峰候选中的噪声波峰，以检测出语音频傳波峰。
14. 根据权利要求13所述的语音的频镨波峰的检测装置，其中上述频谱波峰候选检测单元求出上述语音的功率镨中的各个拐点，作为该语音的频镨波峰候选。
15. 根据权利要求13所述的语音的频谱波峰的检测装置，其中上述噪声波峰去除单元进一步包括波峰间距限制单元，用于根据上述语音的功率谱，确定上述语音频谱波峰候选中具有最高能量的波峰，并以该具有最高能量的波峰为中心，去除上述语音频i普波峰候选中与前一波峰的距离小于波峰间距阈值的波峰。
16. 根据权利要求13或15所述的语音的频镨波峰的检测装置，其中上述噪声波峰去除单元进一步包括相邻帧的波峰位置限制单元，用于对上述语音频语波峰候选中相邻帧内的语音频谱波峰候选的位置进行比对，并去除在其中一帧中出现、而在另一帧中的相同位置或相同位置附近并未出现的波峰。
17. 根据权利要求13所述的语音的频i普波峰的检测装置，还包括语音信号增强单元，用于利用语音增强技术对上述语音的功率语进行增强。
18. —种语音识别系统，包括根据权利要求13 ~ 17中任意一项所述的语音的频傳波峰的检测装置，用于从待识别语音的功率谱中检测出语音频谱波峰；梅尔倒镨系数特征获取单元，用于利用上述语音频i普波峰的信息获得上述待识别语音的梅尔倒i普系数特征。
19. 根据权利要求18所述的语音识别系统，其中上*尔倒镨系数特征获取单元进一步包括基于频镨波峰的向量获取单元，用于利用上述语音频i普波峰的信息，从上述待识别语音的功率镨计算基于频语波峰的向量序列；以及梅尔滤波器组，用于根据上述基于频谱波峰的向量序列获得该待识别语音的梅尔倒i普系数特征。
20. —种语音识别系统，包括频镨波峰检测单元，用于从待识别语音的功率镨中检测出语音频谱波峰；基于频谱波峰的向量获取单元，用于利用上述语音频谱波峰的信息，从上述待识别语音的功率谱计算基于频镨波峰的向量序列；以及梅尔滤波器组，用于根据上述基于频谱波峰的向量序列获得该待识别语音的梅尔倒谱系数特征。
21. 根据权利要求19或20所述的语音识别系统，其中上述基于频谱波峰的向量获取单元进一步包括采样序列获取单元，用于获得上述待识别语音的功率镨的采样序列；以及向量计算单元，用于根据上述语音频谱波峰的信息，判断上述采样序列中的各采样点是否为波峰点，并且如果该采样点是波峰点，则将该采样点的基于频镨波峰的向量值设置为。( )=+),其中v(")是该采样点的采样值；否则为。( ) = 0 。
22. 才艮据权利要求19或20所述的语音识别系统，其中上述基于频i瞽波峰的向量获取单元进一步包括采样序列获取单元，用于获得上述待识别语音的功率谱的采样序列；以及向量计算单元，用于根据上述语音频i普波峰的信息，判断上述采样序列中的各采样点是否为波峰点，并且如果该采样点是波峰点，则将该采样点的基于频i普波峰的向量值设置为，其中,是该采样点的采样值；否则为o(w) = 0 。
23. 根据权利要求19或20所述的语音识别系统，其中上述基于频i瞽波峰的向量获取单元进一步包括采样序列获取单元，用于获得上述待识别语音的功率镨的采样序列；以及向量计算单元，用于根据上述语音频谱波峰的信息，判断上述采样序列中的各采样点是否为波峰点，并且如果该采样点是波峰点，则将该采样点的基于频镨波峰的向量值设置为。(")"w，其中v(")是该采样点的采样值;否则，。^等于分别与该采样点左右相邻的两个波峰点的采样值的插值。
24.根据权利要求19或20所述的语音识别系统，其中上述基于频i普波峰的向量获取单元进一步包括采样序列获取单元，用于获得上述待识别语音的功率语的采样序列；以及向量计算单元，用于根据上述语音频谱波峰的信息，判断上述采样序列中的各采样点是否为波峰点，并且如果该采样点是波峰点，则将该采样点的基于频i普波峰的向量值设置为—4n:Il!T:S ，其中一是该采样点的采样值；否则，, 等于分别与该采样点左右相邻的两个波峰点的采样值的插值。
全文摘要
本发明提供了一种语音的频谱波峰的检测方法和装置以及语音识别方法和系统。该检测语音的频谱波峰的方法包括从上述语音的功率谱中检测出语音频谱波峰候选；以及根据波峰间距和/或相邻帧的波峰位置，去除上述语音频谱波峰候选中的噪声波峰，以检测出语音频谱波峰。在本发明中，通过在语音频谱波峰的检测中利用波峰间距以及相邻帧的限制去除噪声波峰，能够得到可靠的语音频谱波峰。进而，通过将所得到的语音频谱波峰的能量值代替整个功率谱用于提取语音的梅尔倒谱系数特征，能够在不增加语音特征维数的情况下提高语音识别的抗噪稳健性。
文档编号G10L15/00GK101465122SQ20071019919
公开日2009年6月24日申请日期2007年12月20日优先权日2007年12月20日
发明者沛丁, 磊何, 蕤赵, 杰郝, 翔鄢申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁沛;郝杰;何磊;鄢翔;赵蕤
技术所有人：株式会社东芝
我是此专利的发明人