一种语音识别方法及语音识别系统与流程

文档序号:18731284发布日期:2019-09-21 00:33阅读:201来源:国知局
一种语音识别方法及语音识别系统与流程

本发明涉及语音识别技术领域,特别涉及一种语音识别方法及语音识别系统。



背景技术:

随着计算机技术和信息技术的发展,语音交互已经成为人机互动的必要手段,在这种形势下,如何让计算机智能化地与人通信,使人机交流更加自然方便成为现代计算机科学的一个重要研究课题。

完整的语音识别系统包括了预处理、特征参数提取、相似比较以及识别成功的后续步骤。在预处理中,分帧、端点检测等都是重要的处理手段,对语音信号进行预处理能够加大系统的识别成功率;端点检测技术能够提取信号中的语音部分,在减少系统计算量的同时,提高了整体的识别精度。同时,语音识别系统采用特征值对比来识别命令,将频域内的语音信号进行处理后取其系数表示该段信号的特征值。

然而现有技术中,对端点检测提取语音数据部分,效果较差,难以提取有效的语音数据,造成语音识别出现错误。

动态时间规整是特征匹配算法里的一种重要的方法,现有技术中,语音识别的过程中,每段语音信号的时间长度不会保持相同,而且每个词内部各个部分的相对时长也是随机变化的,因此现有技术中采用的特征矢量来进行相似性的比较,其效果往往较差。

因此,为了解决现有技术中出现的上述问题,需要一种语音识别方法及语音识别系统,来提高语音识别的准确性。



技术实现要素:

本发明的一个方面在于提供一种语音识别方法,所述方法包括:

获取语音信号,转换为语音数据,对语音数据进行预处理剔除无关噪声;

从剔除无关噪声后的语音数据中提取线性预测倒谱系数,得到语音数据的特征部分;

将提取的语音数据特征与模板库中的语音数据进行相似度匹配,其中,对提取的语音数据特征进行动态时间规整,包括:

定义代价函数Φ[(ni,mi)]=(ni-1,mi-1),表示动态时间规整路径当前点(ni,mi)的前一网格点(ni-1,mi-1),

动态时间规整路径上的点满足如下约束:

a、动态时间规整路径上的起始点(1,1),终止点(N,M);

b、以所述起始点和终止点作为某一平行四边形相对的顶点,动态时间规整路径上的点全部落入所述平行四边形内;

不断迭代所述代价函数,使提取的语音数据特征与模板库中的语音数据匹配。

优选地,所述预处理包括,语音数据进行采样和量化,语音数据预加重处理,语音数据加窗、分帧处理,

以及通过语音数据端点检测剔除无关噪声。

优选地,所述语音数据端点检测通过短时能量判断语音数据端点,短时能量通过如下方法表述:

其中,o(j)为第帧语音数据,j为帧数,g(t)为对数化的一维短时能量,I窗长,n为当前窗内第一帧语音数据。

优选地,所述语音数据端点检测通过短时能量判断语音数据端点,将短时能量与端点检测滤波器卷积:

其中,H(i)为端点检测滤波器,g(t)为对数化的一维短时能量,F(t)为短时能量与端点检测滤波器卷积后得到的语音数据,

当F(t)小于某一阈值,则将该语音数据作为无关噪声剔除。

优选地,所述模板库的语音数据通过如下方法训练得到:

获取训练语音,转换为训练语音数据,对训练语音数据进行预处理剔除无关噪声;

从剔除无关噪声后的训练语音数据中提取线性预测倒谱系数,得到训练语音数据的特征部分;

将得到的训练语音的特征部分送入模板库。

本发明的另一个方面在于提供一种语音识别系统,所述系统包括:

预处理模块,用于将获取语音信号转换为语音数据,对语音数据进行预处理剔除无关噪声;

特征提取模块,用于从剔除无关噪声后的语音数据中提取线性预测倒谱系数,得到语音数据的特征部分;

模板库,用于存储训练语音的特征部分;

语音识别模块,用于将提取的语音数据特征与模板库中的语音数据进行相似度匹配,其中,对提取的语音数据特征进行动态时间规整,包括:

定义代价函数Φ[(ni,mi)]=(ni-1,mi-1),表示动态时间规整路径当前点(ni,mi)的前一网格点(ni-1,mi-1),

动态时间规整路径上的点满足如下约束:

a、动态时间规整路径上的起始点(1,1),终止点(N,M);

b、以所述起始点和终止点作为某一平行四边形相对的顶点,动态时间规整路径上的点全部落入所述平行四边形内;

不断迭代所述代价函数,使提取的语音数据特征与模板库中的语音数据匹配。

优选地,所述预处理包括,语音数据进行采样和量化,语音数据预加重处理,语音数据加窗、分帧处理,

以及通过语音数据端点检测剔除无关噪声。

优选地,所述语音数据端点检测通过短时能量判断语音数据端点,短时能量通过如下方法表述:

其中,o(j)为第帧语音数据,j为帧数,g(t)为对数化的一维短时能量,I窗长,n为当前窗内第一帧语音数据。

优选地,所述语音数据端点检测通过短时能量判断语音数据端点,将短时能量与端点检测滤波器卷积:

其中,H(i)为端点检测滤波器,g(t)为对数化的一维短时能量,F(t)为短时能量与端点检测滤波器卷积后得到的语音数据,

当F(t)小于某一阈值,则将该语音数据作为无关噪声剔除。

优选地,所述模板库的语音数据通过如下方法训练得到:

获取训练语音,转换为训练语音数据,对训练语音数据进行预处理剔除无关噪声;

从剔除无关噪声后的训练语音数据中提取线性预测倒谱系数,得到训练语音数据的特征部分;

将得到的训练语音的特征部分送入模板库。

本发明提供的一种语音识别方法及语音识别系统,从剔除无关噪声后的语音数据中提取线性预测倒谱系数,作为语音数据的特征值,在预处理后提取特征矩阵进行动态时间规整过程中,采用对特征参数序列模式重新进行时间的校准,可以有效提高特征匹配的准确性。

本发明提供的一种语音识别方法及语音识别系统,识别结准确,计算快速,应用范围广,在通信、自动语音识别等领域有着极为广阔的应用前景。

应当理解,前述大体的描述和后续详尽的描述均为示例性说明和解释,并不应当用作对本发明所要求保护内容的限制。

附图说明

参考随附的附图,本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明,其中:

图1示意性示出了本发明一种语音识别方法的流程框图。

图2示出了本发明一个实施例中采样的语音信号时域波形示意图。

图3示出本本发明一个实施例中短时能量波形的示意图。

图4示出了本发明一个实施例中通过端点检测剔除无关噪声后的语音数据。

图5示出了本发明一个实施例中动态时间规整路径的示意图。

图6示出了本发明一种语音识别系统的结构框图。

具体实施方式

通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。

下面通过具体的实施例对本发明提供的一种语音识别方法进行阐释,如图1所示本发明一种语音识别方法的流程框图,根据本发明的的实施例,一种语音识别方法包括以下方法步骤:

步骤S101、语音数据预处理。

根据本发明的实施例,以自动驾驶识别为例,获取语音信号(例如:左转),对获取的语音信号经过AD转换后,转换为语音数据。

对于语音数据进行预处理,剔除无关噪声。无关噪声是指与获取语音信号无关的数据,例如汽车行驶的噪声,环境噪声等。

如图2所示本发明一个实施例中采样的语音信号时域波形示意图。由于语音信号的激励方式、口鼻辐射,以及其非平稳特性和录制音频时长问题,一段语音无法直接进行特征提取和匹配,在特征提取前需要进行预处理。

根据本发发明的实施例,预处理过程包括:语音数据进行采样和量化,语音数据预加重处理,语音数据加窗、分帧处理,以及通过语音数据端点检测剔除无关噪声。

在对获取的语音信号进行语音数据预加重处理,语音数据加窗、分帧处理,保证信号平稳性的同时使信号的统计特性更加明显,突出语音信号的短时特征,加大系统的识别成功率。

预加重的目的是提高语音信号的高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或者参数分析。根据本发明的实施例,预加重处理通过如下数字滤波器实现:

H(z)=1-uz-1,·0.93<u<0.97,

其中,u为滤波器系数,z为输入信号。

由于语音信号属于典型的非平稳信号,其统计特性在整个语音时段是不可知的,但其在10ms–30ms内是平稳的,因此,要得到一段平滑过渡并且具有较强自相关性的信号,在进行特征提取前就需要进行加窗、分帧处理来达到分析任一时刻信号的目的。对语音进行分帧处理后需要去除信号中的无关噪声。

预处理过程中,通过语音数据端点检测剔除无关噪声(不重要的信息以及背景噪声)。

根据本发明的实施例,语音数据端点检测通过短时能量判断语音数据端点,短时能量通过如下方法表述:

其中,o(j)为第帧语音数据,j为帧数,g(t)为对数化的一维短时能量,I窗长,n为当前窗内第一帧语音数据。图3示出本本发明一个实施例中短时能量波形的示意图。

语音数据端点检测通过短时能量判断语音数据端点,将短时能量与端点检测滤波器卷积:

其中,H(i)为端点检测滤波器,g(t)为对数化的一维短时能量,F(t)为短时能量与端点检测滤波器卷积后得到的语音数据,

当F(t)小于某一阈值,则将该语音数据作为无关噪声剔除。如图4所示本发明一个实施例中通过端点检测剔除无关噪声后的语音数据。

步骤S102、语音数据特征部分提取。

根据本发明的实施例,从剔除无关噪声后的语音数据中提取线性预测倒谱系数,得到语音数据的特征部分。

本发明通过线性预测分析得到语音的全极点模型后,对其求偏导得到线性预测系数。在一些实施例中,为了获得更好的识别效果,常常对线性倒谱系数进行一定的后处理,比如对倒谱系数的各个分量乘以适当的加权系数,或者在当前倒谱系数的基础上求一阶、二阶差分等。

步骤S103、语音数据匹配。

根据本发明的实施例,将提取的语音数据特征与模板库中的语音数据进行相似度匹配,其中,对提取的语音数据特征进行动态时间规整,包括:

定义代价函数Φ[(ni,mi)]=(ni-1,mi-1),表示动态时间规整路径当前点(ni,mi)的前一网格点(ni-1,mi-1)。

动态时间规整路径上的点满足如下约束:

a、动态时间规整路径上的起始点(1,1),终止点(N,M);

b、以所述起始点和终止点作为某一平行四边形相对的顶点,动态时间规整路径上的点全部落入所述平行四边形内。

如图5所示本发明一个实施例中动态时间规整路径的示意图,动态时间规整路径上的起始点A(1,1),终止点B(N,M),动态时间规整路径上的点全部落入平行四边形内ACBD中(图5中实线的平行四边形)。在一些实施例中,动态时间规整路径上的点全部落入是AC’BD’中(图5中虚线的平行四边形)。应当理解只要满足本发明的动态时间规整路径上的点满足的束条件即可。

语音识别的过程中,用户进行训练/识别时,即使每次尽量以相同的方式说同一个词汇,但其持续时间的长度也会随机改变,而且每个词内部各个部分的相对时长也是随机变化的。本发明通过上述语音数据匹配的方式,有效解决使用特征矩阵来进行相似性比较的匹配度差,识别误差大,识别效果不佳佳的一系列问题。

步骤S104、完成语音识别。

根据本发明的实施例,不断迭代代价函数Φ[(ni,mi)]=(ni-1,mi-1),使提取的语音数据特征与模板库中的语音数据匹配。匹配过程中,提取的语音数据特征与模板库中的语音数据特征对比所得值最小,则此时取的语音数据特征作为识别后的输出结果。

根据本发明的实施例,模板库的语音数据通过如下方法训练得到:

获取训练语音,转换为训练语音数据,对训练语音数据进行预处理剔除无关噪声。

从剔除无关噪声后的训练语音数据中提取线性预测倒谱系数,得到训练语音数据的特征部分。

将得到的训练语音的特征部分送入模板库。

实施例中,通过测试语音识别进行试验,显示本发明提供的语音识别方法,能够有效提高识别的准确率。

表一:七条测试语音与模板语音的特征部分的对比结果。

表一七条测试语音与模板库中训练语音的特征部分的对比结果,

表中前七列为模板语音,最后一列“测试”为录取其他说话人说出相同测试语音的语音。系统的判定标准为,选取与模板语音进行特征比对所得值最小的测试语音为最终结果。

可以看出,由于测试语音与自身对比时不需要规整操作,故其距离为0,除去相同的命令。

实验表明系统可以识别出与某一测试语音最相似的语音。实验中有意选取了“笔记本”(三个字)和“把灯打开”(四个字),与其他包含两个字的测试语音对比,可以看出虽然存在特别情况,但“笔记本”、“把灯打开”与其他测试语音的对比值通常较大。

如图6所示本发明一种语音识别系统的结构框图,根据本发明的实施例,一种语音识别系统包括:

预处理模块101,用于将获取语音信号转换为语音数据,对语音数据进行预处理剔除无关噪声。

预处理包括,语音数据进行采样和量化,语音数据预加重处理,语音数据加窗、分帧处理,以及通过语音数据端点检测剔除无关噪声。

语音数据端点检测通过短时能量判断语音数据端点,短时能量通过如下方法表述:

其中,o(j)为第帧语音数据,j为帧数,g(t)为对数化的一维短时能量,I窗长,n为当前窗内第一帧语音数据。

语音数据端点检测通过短时能量判断语音数据端点,将短时能量与端点检测滤波器卷积:

其中,H(i)为端点检测滤波器,g(t)为对数化的一维短时能量,F(t)为短时能量与端点检测滤波器卷积后得到的语音数据,

当F(t)小于某一阈值,则将该语音数据作为无关噪声剔除。

特征提取模块102,用于从剔除无关噪声后的语音数据中提取线性预测倒谱系数,得到语音数据的特征部分。

本发明通过线性预测分析得到语音的全极点模型后,对其求偏导得到线性预测系数。在一些实施例中,为了获得更好的识别效果,常常对线性倒谱系数进行一定的后处理,比如对倒谱系数的各个分量乘以适当的加权系数,或者在当前倒谱系数的基础上求一阶、二阶差分等。

模板库103,用于存储训练语音的特征部分。

模板库的语音数据通过如下方法训练得到:

获取训练语音,转换为训练语音数据,对训练语音数据进行预处理剔除无关噪声;

从剔除无关噪声后的训练语音数据中提取线性预测倒谱系数,得到训练语音数据的特征部分;

将得到的训练语音的特征部分送入模板库。

语音识别模块104,用于将提取的语音数据特征与模板库中的语音数据进行相似度匹配,其中,对提取的语音数据特征进行动态时间规整,包括:

定义代价函数Φ[(ni,mi)]=(ni-1,mi-1),表示动态时间规整路径当前点(ni,mi)的前一网格点(ni-1,mi-1),

动态时间规整路径上的点满足如下约束:

a、动态时间规整路径上的起始点(1,1),终止点(N,M);

b、以所述起始点和终止点作为某一平行四边形相对的顶点,动态时间规整路径上的点全部落入所述平行四边形内;

不断迭代所述代价函数,使提取的语音数据特征与模板库中的语音数据匹配。

匹配过程中,提取的语音数据特征与模板库中的语音数据特征对比所得值最小,则此时取的语音数据特征作为识别后的输出结果。

本发明提供的一种语音识别方法及语音识别系统,从剔除无关噪声后的语音数据中提取线性预测倒谱系数,作为语音数据的特征值,在预处理后提取特征矩阵进行动态时间规整过程中,采用对特征参数序列模式重新进行时间的校准,可以有效提高特征匹配的准确性。

本发明提供的一种语音识别方法及语音识别系统,识别结准确,计算快速,应用范围广,在通信、自动语音识别等领域有着极为广阔的应用前景。

结合这里披露的本发明的说明和实践,本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的,本发明的真正范围和主旨均由权利要求所限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1