基于车联网的语音识别方法

文档序号：10657694阅读：743来源：国知局

基于车联网的语音识别方法
【专利摘要】本发明提供了一种基于车联网的语音识别方法，该方法包括：对带噪语音信号进行频域分离，以获得纯净的语音信号；选择待端点检测的语音信号、将检测到的有效语音段保存为语音文件，选择多个语音文件导入车载语音识别系统中识别。本发明提出了一种基于车联网的语音识别方法，减弱了背景噪声对车载语音识别系统的干扰，有效地改善了在噪声环境下车载语音识别系统的性能。
【专利说明】
基于车联网的语音识别方法
技术领域
[0001] 本发明设及语音信号处理，特别设及一种基于车联网的语音识别方法。
【背景技术】
[0002] 语音识别是通过利用识别算法让机器能够准确地识别出人类所发出的语音命令并执行相应的操作。目前，随着语音信号处理技术的发展，一些较成熟的语音识别系统相继诞生。然而在车载现场环境下使用时，其识别性能会急剧下降。假设一个孤立词识别系统是由纯净语音训练得到的，那么它在相对安静环境下进行语音识别，其识别率可达到100%，但是如果在W90Km/h行驶的汽车内，其识别率下降到了30%。从上述对比数据中可W发现，在行驶中的车辆等噪声环境下语音识别系统性能无法满足人们的需求。在真实环境中，语音信号不可避免地受到各种外部噪声的干扰，而运些噪声的存在会使得带噪语音与原先由纯净语音训练出的模型之间失配，从而影响车载语音识别系统性能。

【发明内容】

[0003] 为解决上述现有技术所存在的问题，本发明提出了一种基于车联网的语音识别方法，包括：
[0004] 对带噪语音信号进行频域分离，W获得纯净的语音信号;选择待端点检测的语音信号，将检测到的有效语音段保存为语音文件，选择多个语音文件导入车载语音识别系统中识别。
[0005] 优选地，所述对带噪语音信号进行频域分离，W获得纯净的语音信号，进一步包括：
[0006] 利用短时FFT将带噪语音信号XI，a = l，2)从时域变换到频域，生成LXM点采样信号矩阵，其中L表示FFT变换后频域下的频点个数，M表示对信号加窗分帖后的帖数;然后实现混合信号的频域分离，对提取出的频域分量进行FFT逆变换得到时域独立成分;最后对获得的Mni或特征和其对应的一阶差分系数进行线性组合，并将组合后的特征用于后续识别过程；
[0007] 其中所述短时FFT将带噪语音信号Xi从时域变换到频域，进一步包括：
[000引对语音信号加窗，并让该窗在时间轴上平移，卷积混合过程描述为：
[0009]
[0010] 其中P为卷积混合滤波器阶数，au为第j个声源到第i个传感器的冲激响应，N为声源数量，Sj为源信号;对上式进行短时FFT变换，得到的信号表示为：
[0011]
[0012]其中，win表示在预处理过程中所加的窗口函数，T为窗口函数的位置;fs为采样频率，f为离散频点，其取值为f = fsl/L;l = 0，l，…レl;
[001引对输入的语音进行短时FFT变换之后，将时域采样信号Xi(t)变换到时频域，得到一个L*M点的采样信号矩阵：
[0014]
[0015] 将同频点fk(kG[0，L-l])的Xi(fk)作为该频点进行独立成分提取的新采样数据，对新采样数据进行频域分离矩阵w(f O的估计，进而实现对信号频域分量Yi (f O的提取;对各频点进行频域分离得到短时频域分量Yi(f，T)，再消除模糊性后得到化(f，T)，作为对纯净频域源信号Si(f，T)的逼近；
[0016] 所述混合信号的频域分离，进一步包括：
[0017] 对Ui (f，T)进行短时FFT逆变换，即按列对Ui (f，T)时频矩阵求逆离散FFT运算，得到在不同时窗位置Tm，（m = 0，l，. . .M-1)上的时间信号Ui(f，Tm):
[0018；
[0019] 然后按Tm从小到大的顺序对Ui(f ,Tm)进行拼接，得到源的完整时间信号，即：
[0020] Ui(t)=Ui(t,T〇)+Ui(t-Tl,T：i) + ...+Ui(t-TM-l,TM-l)
[0021] 如果进行拼接处理时，相邻窗口内的时间信号出现部分重叠，则对重叠区域的数据采用相加求平均的处理方法。
[0022] 本发明相比现有技术，具有W下优点：
[0023] 本发明提出了一种基于车联网的语音识别方法，减弱了背景噪声对车载语音识别系统的干扰，有效地改善了在噪声环境下车载语音识别系统的性能。
【附图说明】
[0024] 图1是根据本发明实施例的基于车联网的语音识别方法的流程图。
【具体实施方式】
[0025] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合运样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节W 提供对本发明的透彻理解。出于示例的目的而提供运些细节，并且无运些具体细节中的一些或者所有细节也可W根据权利要求书实现本发明。
[0026] 本发明的一方面提供了一种基于车联网的语音识别方法。图1是根据本发明实施例的基于车联网的语音识别方法流程图。
[0027] 本发明首先在车载语音识别系统的前端处理过程中增加了成分分析，对带噪语音信号进行频域分离从而获得纯净的语音信号;对所获得的纯净语音信号进行端点检测；最后提取所获语音段的特征参数，并导入车载语音识别系统中进行识别。
[0028] 车载语音识别系统包括四个单元。卷积混合单元，进行语音信号与噪声的仿真卷积混合，W获得带噪语音信号；分离单元:对带噪语音信号进行频域分离，W获得纯净的语音信号;端点检测单元，采用语音端点检测算法，并选择待检测的语音信号、调整端点检测参数、并在检测后将检测到的有效语音段保存为语音文件。语音识别单元，用于语音识别、显示识别结果和计算识别率，可W选择多个语音文件导入车载语音识别系统中识别。
[0029] 本发明利用基于动态峰度和能量双阔值的端点检测算法。首先计算出语音信号的滑动窗峰度值，记为Kt(n)，并同时记录下中间值S2(n)，其中n是语音信号的长度。利用公式 th=max化t)/10来计算整个语音信号的峰度阔值。
[0030] 将n记为起点start,在n不断递增的过程中，开始向后检索，若n为空白段，则判断空白段样本点数nc与空白段所允许的最大样本点常数maxnc，W及语音段样本点数SC与语音段所允许的最小样本点常数minsc ;仅当满足nc〉maxnc并且sc>minsc，输入语音段
[St曰rt,St曰rt+sc+nc-1]C
[0031] 考虑到混合系统对源信号产生的延迟和卷积效应，本发明采用W下方法提取相对纯净的语音特征参数。首先利用短时FF門尋带噪语音信号XI，a = l，2)从时域变换到频域，生成LXM点采样信号矩阵，其中L表示FFT变换后频域下的频点个数，M表示对信号加窗分帖后的帖数;然后实现混合信号的频域分离，对提取出的频域分量进行FFT逆变换得到时域独立成分;最后对获得的MHi或特征和其对应的一阶差分系数进行线性组合，并将组合后的特征用于后续识别过程中。在特征提取前端，独立成分分析可W有效地减少噪声对源语音信号的干扰，使得在卷积噪声环境下所提取的语音特征参数也能较好地反映语音信号的本质特征。
[0032] 本发明对语音信号进行FFT变换时是逐段进行的。对语音信号加窗，并让该窗在时间轴上平移。卷积混合过程可W描述为：
[0033]
[0034] 其中P为卷积混合滤波器阶数，曰1功第j个声源到第i个传感器的冲激响应，N为声源数量。对上式进行短时FFT变换，所得信号可W表示为：
[0035]
1;:=1，2; T=To, ..Tm-I
[0036] 具甲，win巧不巧顶处埋巧巧甲所加的簡U幽数，T为窗口函数的位置；fS为采样频率，f为离散频点，其取值为f = fsl/L; 1 = 0，1，…心！。
[0037] 对输入的语音进行短时FFT变换之后，将时域采样信号xi(t)变换到时频域，得到一个L*M点的采样信号矩阵：
[00；3 引
[0039] 将同频点fk(kG[0，L-l])的Xi(fk)作为该频点进行独立成分提取的新采样数据，对新采样数据进行频域分离矩阵W(fk)的估计，进而实现对信号频域分量Yi(fk)的提取。
[0040] 其中独立成分分析算法对各频点进行频域分离，得到了短时频域分量Yi(f，T)，再消除幅值和排序模糊性之后得到化(f，T)，它们是对纯净频域源信号Si(f，T)的逼近。
[0041] 接下来就是将信号从频域转换到时域，则对化(f，T)进行短时FFT逆变换，即按列对化(f，T)时频矩阵求逆离散FFT运算，得到在不同时窗位置（而，111 = 0，1，...1-1)上的时间 f曰号Ui(f , Tm);
[0042]
[0043] 然后按Tm从小到大的顺序对m(f ,Tm)进行拼接，得到源的完整时间信号，即：
[0044] Ui(t；)=Ui(t,T〇；)+Ui(t-Tl,T：i；) + ...+Ui(t-TM-l,TM-l)
[0045] 如果进行拼接处理时，相邻窗口内的时间信号出现部分重叠，则对重叠区域的数据采用相加求平均的处理方法。
[0046] 为了提取语音M化参数，首先对经过频域去卷积的处理的语音信号进行预加重处理，再使其通过M化滤波器组，对每组输出结果做对数运算后再进行DCT变换，最后输出即为语音信号的MFL域特征。
[0047] 此外，为了获得语音信号的动态信息，算法对提取出的M化参数进行了差分运算，计算过程如下：
[004引
[0049] 其中R是ffiL系数的阶数，d反映信号的动态特征，a表示加权因子，K为进行一阶差分求取的帖的长度，Cm表示信号倒谱。经过上式计算可W获得与MHi或特征参数阶数R相同的差分MEL参数。最后将所得MEL参数和差分MEL参数进行组合得到2*R维的新组合特征作为语音信号特征矢量。
[0050] 其中，频域去卷积处理是用于实现卷积混合信号的分离，具体包括，首先利用短时 FFT将时域下的卷积混合变换成频域下的瞬时混合，然后采用独立成分分析对其中每个频点进行频域分离。最后为了获得时域下对应的语音信号，还通过短时FFT逆变换将频域信号变换成时域信号。
[0051] 首先对采样信号进行FFT变换，可得：
[0052] X(f)=A(f)S(f)
[0053] 其中，X(f)和S(f)分别表示采样信号和源信号经FFT变换后得到的频域信号，A(f) 是各混合滤波器频率响应构成的矩阵，经过FFT之后，语音信号从时域下的卷积混合变成了频域下的瞬时混合。对每个频点fk(k = 0，l，…，i-1)利用瞬时独立成分分析算法进行频域分离，如下所示
[0054] X化）=4化)5化），4 = 0，1，...心化为频点序号
[0055] 经过FFT变换后，采样信号从时域变到频域，同时也使得待处理数据的数值从实数域变到了复数域，对于复数域的独立成分分析，本发明引入了多变量数据的四维累加量矩阵，并对其做特征分解，从而实现对信号的分离。
[0056] 令;义=[义1，义2-別]为一组采样信号，对其进行白化处理，即找到一个使得的自相关矩阵为单位矩阵I的线性变换矩阵B。其中，
[0化7] Z = Bx = BAs = Vs
[005引令M是NXN维的矩阵，则Z的四阶累加矩阵为化(M)，其第ij个元素定义如下：
[0化9]
[0060]式中，Cu为四阶累加量矩阵中第化，I)个位置的累加量子矩阵的第i行第j列的元素。mki为矩阵M中化，1)个元素。
[0061 ] 令V=[Vi，V2-Vn]，取矩阵M=[Mi，M2-Mp]，对每个Mi求取化(Mi),计算使得化(Mi)非对角元素平方和即yH化(Mi)V出现极小值的矩阵V，最后提取独立成分u=W'x = vHbx
[0062] 对于幅值模糊性的出现，本发明通过幅值补偿来消除运种幅值模糊性问题，补偿算法如下：
[0063] 设W(fk)是对频点fk对应的频域采样信号进行独立成分提取过程中计算得到的分离矩阵，则所提取的各通道独立成分构成向量:Y(fk，T)，其中T表示滑动窗的位置，则该频点上的混合矩阵A(fk)可计算为
[0064] A(fk)=W_i(fk)
[0065] 利用混合矩阵A(fk)对对应频点独立成分进行补偿，计算如下：
[0066]
[0067] 其中Y^fk, T)表示幅值补偿前所提取的第j通道频域分量，Vu(fk，T)表示经过幅值补偿后第i个频域采样信号中实际上属于第j通道频域分量的部分。经过幅值补偿后，fk频点对应的独立成分会产生N个补偿分量，经过一系列的后续处理，最终可W得到N个对应于同一个信号源的纯净语音信号。最后从N个信号求取平均作为最终输出信号。
[0068] 在对各频点进行频域分离后得到的对应频点的分离结果是随机分配的，所W在分离之后对各频点的分离结果进行重新组合时可能会出现不同频点分离信号对应不同的源信号。本发明采用一种基于相邻频点相关性检测的方法来消除排序模糊性的问题。假设经独立成分提取后得到的信号分量为Y(fk) =化化，T)，Y2(fk，T)]T
[0069] 则根据幅值补偿公式可得
[0070]
[0071]
[0072]
[0073]
[0074] 式中d表示平均宽度。根据上式可得包络函数3也，1)=[虹化，1)，1?2化，1)]。通过对相邻频点的包络函数R(fk，T)和R(fk+1，T)进行匹配，并根据匹配结果对频域分量进行排序。
[00巧]排序算法如下：
[0076] 首先根据选定的匹配方法计算包络参数。定义相邻频点fk和fk+i之间的包络参数 Pij定义如下：
[0077]
[0078] 式中M表示在对信号进行加窗FFT变换后的语音帖数。
[0079] 根据所定义的包络参数构造调整矩阵P。对于相邻频点fk和fk+i的包络系数m构成一个如下调整矩阵
[0080；
[0081]根据调整矩阵判断是否要进行重新排序。若P11+P22〉P12+P21，则表示相邻频点中，同源独立成分位置一致，则无需调整。若P11+P22小于P12+P21，则表示相邻频点中，同源独立成分的位置不一致，需要重新进行排序。若经过幅值补偿后的输出成分为 [00 剧 V(fk) = [Vl(fk，T)，V2(fk，T)]T
[008；3 ] V 化+1) = [ Vl 化+1，T )，V2 ( f k+1，T ) ] T
[0084] 贝恃U用P对后一个频点fk+i的V(fk+i)进行左乘，即
[0085] PXV(fk+i)^V(fk+i)
[0086] 综上所述，本发明提出了一种基于车联网的语音识别方法，减弱了背景噪声对车载语音识别系统的干扰，有效地改善了在噪声环境下车载语音识别系统的性能。
[0087] 显然，本领域的技术人员应该理解，上述的本发明的各单元或各步骤可W用通用的计算系统来实现，它们可W集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可W用计算系统可执行的程序代码来实现，从而，可W将它们存储在存储系统中由计算系统来执行。运样，本发明不限制于任何特定的硬件和软件结合。
[0088] 应当理解的是，本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者运种范围和边界的等同形式内的全部变化和修改例。
【主权项】
1. 一种基于车联网的语音识别方法，其特征在于，包括：对带噪语音信号进行频域分离，以获得纯净的语音信号;选择待端点检测的语音信号，将检测到的有效语音段保存为语音文件，选择多个语音文件导入车载语音识别系统中识别。2. 根据权利要求1所述的方法，其特征在于，所述对带噪语音信号进行频域分离，以获得纯净的语音信号，进一步包括：利用短时FFT将带噪语音信号Xl，（i = l，2)从时域变换到频域，生成LXM点采样信号矩阵，其中L表示FFT变换后频域下的频点个数，M表示对信号加窗分帧后的帧数;然后实现混合信号的频域分离，对提取出的频域分量进行FFT逆变换得到时域独立成分;最后对获得的 MFL域特征和其对应的一阶差分系数进行线性组合，并将组合后的特征用于后续识别过程；其中所述短时FFT将带噪语音信号^从时域变换到频域，进一步包括：对语音信号加窗，并让该窗在时间轴上平移，卷积混合过程描述为：其中P为卷积混合滤波器阶数，为第j个声源到第i个传感器的冲激响应，N为声源数量，为源信号;对上式进行短时FFT变换，得到的信号表示为：其中，win表示在预处理过程中所加的窗口函数，τ为窗口函数的位置;fs为采样频率，f 为离散频点，其取值为f = f sI/L; I = O，1，…L-1; 对输入的语音进行短时FFT变换之后，将时域采样信号Xl(t)变换到时频域，得到一个L* M点的采样信号矩阵：将同频点fk(ke[〇，L-l])的XJfk)作为该频点进行独立成分提取的新采样数据，对新采样数据进行频域分离矩阵W(fk)的估计，进而实现对信号频域分量Ydfk)的提取;对各频点进行频域分离得到短时频域分量Y 1(Lt)，再消除模糊性后得到IMf，τ)，作为对纯净频域源信号SKfj)的逼近；所述混合信号的频域分离，进一步包括：对Ui (f，τ)进行短时FFT逆变换，即按列对Ui (f，τ)时频矩阵求逆离散FFT运算，得到在不同时窗位置Tm，（m=0，l，· · ·Μ-1)上的时间信号m(f，τη):然后按Tm从小到大的顺序对m(f，Tm)进行拼接，得到源的完整时间信号，即： Ui(t) = Ui(t, T〇)+Ui(t-Tl, Ti) + -"+Ui(t-TM-l, Tm-I) 如果进行拼接处理时，相邻窗口内的时间信号出现部分重叠，则对重叠区域的数据采用相加求平均的处理方法。
【文档编号】G10L15/04GK106023984SQ201610280673
【公开日】2016年10月12日
【申请日】2016年4月28日
【发明人】谢欣霖, 陈波
【申请人】成都之达科技有限公司, 成都同创合科技有限公司, 成都同创合一科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢欣霖;陈波;
技术所有人：成都之达科技有限公司;成都同创合一科技有限公司;
我是此专利的发明人