语音识别方法及装置的制造方法

文档序号:10625460阅读:614来源:国知局
语音识别方法及装置的制造方法
【专利摘要】一种语音识别方法及装置,所述方法包括:将采集到的输入声音信号进行处理,得到输入声音数据;对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别。上述的方案可以节约语音识别的时间和计算资源。
【专利说明】
语音识别方法及装置
技术领域
[0001] 本发明设及语音识别技术领域,特别是设及一种语音识别方法及装置。
【背景技术】
[0002] 移动终端,是指可W在移动中使用的计算机设备,广义地讲包括手机、笔记本、平 板电脑、P0S机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的 处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,运也给移动终端 增加了更加宽广的发展空间。
[0003] 移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备 有触摸屏,用户需要触摸所述触摸屏,W执行相应的操作。但是,用户无法触碰到移动终端 设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时 候。 阳004] 语音识别方法和总听系统(Always Listening System)的使用,使得可W对移动 终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活, 并对检测到的声音信号进行识别。之后,移动终端便会根据所识别出的声音信号执行相应 的操作。例如,当用户输入"拨打XX的手机"的语音时,移动终端便可W对用户输入的"拨 打XX的手机"的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的 信息,并拨打。 阳0化]但是,现有技术中的语音识别方法,采用高斯混合模型(Gaussian mixture model,GMM)进行语音识别,但是,在采用GMM进行声音训练数据的训练时,为了获取更好的 性能,通常需要很多的声音训练数据,因此,现有技术中的语音识别方法存在着浪费时间和 计算资源的问题。

【发明内容】

[0006] 本发明实施例解决的问题是如何在进行语音识别时,节约时间和计算资源。
[0007] 为解决上述问题,本发明实施例提供了一种语音识别方法,所述语音识别方法包 括:
[0008] 将采集到的输入声音信号进行处理,得到输入声音数据;
[0009] 对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征 数据;
[0010] 采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维 表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通 过对所述声音训练数据进行几何重塑得到;
[0011] 当确定计算得出的VAD分值大于预设的分值阔值时,对所述声音数据进行语音识 别。
[0012] 可选地,所述对所述声音数据进行几何重塑,得到所述声音数据的低维表征数据, 包括:
[0013] 获取所述输入声音数据的MFCC,及其对应的MFCC频带数量的信息;
[0014] 将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得到的MFCC 频带数量的信息,计算得出所述输入声音数据的对数似然比;
[0015] 采用计算得出的所述输入声音数据的对数似然比,构建所述输入声音数据的特征 矩阵;
[0016] 构建所述输入声音数据的特征矩阵对应的相似矩阵;
[0017] 对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取,得到拉 普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述输入 声音数据的低维表征数据。
[0018] 可选地,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重 塑得到,包括:
[0019] 采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯 净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的 MFCC频带数量的信息,W及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息;
[0020] 根据得到纯净语音数据、非稳态噪声数据,W及稳态噪声信息对应的MFCC及其对 应的MFCC频带数量的信息,分别得到第一、第二、第Ξ、第四和第五声音数据训练集的MFCC 及其对应的MFCC频带数量的信息;
[0021] 将所述第一、第二、第Ξ、第四和第五声音数据训练集的MFCC分别划分成为不同 的时隙,并根据所得到的第一、第二、第Ξ、第四和第五声音数据训练集的MFCC及对应的 MFCC频带数量的信息,分别计算得出所述第一、第二、第Ξ、第四和第五声音数据训练集的 对数似然比;
[0022] 根据计算得出的所述第一、第二、第Ξ、第四和第五声音数据训练集的对数似然 比,分别计算得出第一、第二、第Ξ、第四和第五声音数据训练集的特征矩阵;
[0023] 为第一、第二、第Ξ、第四和第五声音数据训练集的特征矩阵分配相应的权重并相 加,得到所述声音训练数据的相似矩阵;
[0024] 对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵 和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维 表征数据。
[00巧]可选地,采用如下的公式计算对数似然比,包括:
[0026]
[0027] 其中,I表示对数似然比,XS表示MFCC对应的MFCC频带数量,PriSNR表示先噪 声比,PostSNR表示后噪声比。
[0028] 可选地,所述采用计算得出的所述输入声音数据的对数似然比,得到所述输入声 音数据的特征矩阵,包括:
[0029]
[0030] 其中,X表示特征矩阵,t表示声音数据帖的位序,且t = (1,2…脚,I表示对数 似然比。
[0031] 可选地,所述为第一、第二、第Ξ、第四和第五声音数据训练集的特征矩阵分配相 应的权重并相加,得到所述声音训练数据的相似矩阵,包括:
[0032]
[003引其中,T表示所述声音训练数据的相似矩阵,i、j分别表示所述声音训练数据集的 位序,P表示计算所述声音训练数据的相似矩阵的持续时间,且:
[0034]
[0035] 其中,X(i)表示第i个声音数据训练集的特征矩阵,X(j)表示第j个声音数据训 练集的特征矩阵。
[0036] 可选地,所述计算输入声音数据特征矩阵的特征向量与所述声音数据训练集特征 矩阵的特征向量之间的似然距离,包括:
[0037]
[0038] 其中,祭表示所述似然距离,S0J)表示所述输入声音数据特征矩阵的特征向量的 光谱灵敏度,S(K)表示所述声音数据训练集特征矩阵的特征向量的光谱灵敏度,0。、^分 别表示S〇J)、S似的预测误差。
[0039] 可选地,所述计算得出所述输入声音数据的VAD分值,包括:
[0040]
[0041] 其中,VAD score表示所述输入声音数据的VAD分值,f(ipj表示为具有数个预设阔 值的比较函数。
[0042] 本发明实施例还提供了一种语音识别装置,所述装置包括:
[0043] 数据处理单元,适于将采集到的输入声音信号进行处理,得到输入声音数据;
[0044] 几何重塑单元,适于对所述输入声音数据进行几何重塑,得到降维后的所述输入 声音数据的低维表征数据;
[0045] 计算单元,适于采用所述输入声音数据的低维表征数据与预设的降维后的声音训 练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低 维数据表征通过对所述声音训练数据进行几何重塑得到;
[0046] 语音识别单元,适于当确定计算得出的VAD分值大于预设的分值阔值时,对所述 声音数据进行语音识别。
[0047] 可选地,所述几何重塑单元适于获取所述输入声音数据的MFCC,及其对应的MFCC 频带数量的信息;将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得到 的MFCC频带数量的信息,计算得出所述输入声音数据的对数似然比;采用计算得出的所述 输入声音数据的对数似然比,构建所述输入声音数据的特征矩阵;构建所述输入声音数据 的特征矩阵对应的相似矩阵;对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉 斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特 征向量作为所述输入声音数据的低维表征数据。
[0048] 可选地,所述装置还包括训练单元,适于通过对所述声音训练数据进行几何重塑 得到所述声音训练数据的低维数据表征,包括:
[0049] 采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯 净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的 MFCC频带数量的信息,W及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息;
[0050] 根据得到纯净语音数据、非稳态噪声数据,W及稳态噪声信息对应的MFCC及其对 应的MFCC频带数量的信息,分别得到第一、第二、第Ξ、第四和第五声音数据训练集的MFCC 及其对应的MFCC频带数量的信息;
[005U 将所述第一、第二、第Ξ、第四和第五声音数据训练集的MFCC分别划分成为不同 的时隙,并根据所得到的第一、第二、第Ξ、第四和第五声音数据训练集的MFCC及对应的 MFCC频带数量的信息,分别计算得出所述第一、第二、第Ξ、第四和第五声音数据训练集的 对数似然比;
[0052] 根据计算得出的所述第一、第二、第Ξ、第四和第五声音数据训练集的对数似然 比,分别计算得出第一、第二、第Ξ、第四和第五声音数据训练集的特征矩阵;
[0053] 为第一、第二、第Ξ、第四和第五声音数据训练集的特征矩阵分配相应的权重并相 加,得到所述声音训练数据的相似矩阵;
[0054] 对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵 和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维 表征数据。
[0055] 与现有技术相比,本发明的技术方案具有W下的优点:
[0056] 通过几何重塑的方法,得到声音训练数据的低维表征数据,仅采用较少的声音训 练数据,便可W得到所述声音训练数据的低维表征数据,因此,可W节约时间和计算资源。
[0057] 进一步地,在采用拉普拉斯特征提取对声音训练数据和输入声音数据进行特征提 取,分别得到声音训练数据对应的分块矩阵和输入声音数据对应的分开矩阵时,分别使用 到了声音数据的MFCC和对数似然比的信息,不仅适于稳态噪声环境中的语音识别,也可W 在非稳态噪声环境中进行语音识别,因此,可W提高提高语音识别的可靠性和适用范围。
【附图说明】
[005引图1是本发明实施例中的一种语音识别方法的流程图;
[0059] 图2是本发明实施例中的所述对所述声音训练数据进行几何重塑,得到所述声音 训练数据的低维表征数据的流程图;
[0060] 图3是本发明实施例中的所述对所述声音数据进行几何重塑,得到所述声音数据 的低维表征数据的流程图;
[0061] 图4是本发明实施例中的一种语音识别装置的结构示意图。
【具体实施方式】
[0062] 现有的语音识别方法,经常使用VAD来进行声音检巧U,如动态时间弯折法 (Dynamic Time Warping, DTW)等。
[0063] DTW的优点是使用标准的特征提取算法提取输入的声音数据的特征量,再将输入 数据与预设的已注册数据之间进行比较,根据二者之间的差异确定是否需要对输入数据进 行检测。
[0064] 当移动终端的使用环境与已注册的环境数据相似时,DTW可W具有较好的识别和 触发(声音检测功能的触发)性能。而当移动终端的使用环境变化时,DTW的触发性能将会 降低。甚至当记录所述已注册的环境数据所使用的移动终端设备改变时,也会引起DTW性 能的下降。 W65] 为解决上述问题,现有的一种语音识别方法,采用高斯混合模型 (Gaussianmix化re model, GMM)进行语音识别,但是,为了获取更好的语音识别性能,在采 用GMM进行声音训练数据的训练时,通常需要很多的声音训练数据。因此,现有技术中的语 音识别方法存在着浪费时间和计算资源的问题。
[0066] 为解决现有技术中存在的上述问题,本发明实施例采用的技术方案通过采用几何 重塑的方法,得到声音训练数据的低维表征数据,仅使用较少的声音训练数据便可W得到 所述声音训练数据的低维表征数据,可W节约语音识别的时间和计算资源。
[0067] 为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明 的具体实施例做详细的说明。 W側图1示出了本发明实施例中的一种语音识别方法的流程图。如图1所示的语音识 别方法,可W包括:
[0069] 步骤S101 :将采集到的输入声音信号进行处理,得到输入声音数据。
[0070] 在具体实施中,可W使用麦克风(MIC)来对外界的声音信号进行采集当采集到 声音信号时,并将所采集到的声音信号进行相应的处理,如时域(Time domain)和频域 (化equency domain)处理等,得到相应的声音数据。
[0071] 步骤S102 :对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据 的低维表征数据。
[0072] 在具体实施中,可W采用多种方法对输入声音数据进行几何重塑,例如,拉普拉斯 特征提取(L曰pi曰ci曰η eigenm曰ps)。
[0073] 步骤S103 :采用所述输入声音数据的低维表征数据与预设的降维后的声音训练 数据的低维表征数据,计算得出所述输入声音数据的VAD分值。
[0074] 在具体实施中,所述声音训练数据的低维数据表征也可W通过对所述声音训练数 据进行几何重塑得到,例如,拉普拉斯特征提取等。
[0075] 在本发明一实施例中,当得到所述输入声音数据的低维表征数据时,可W采用如 下的公式计算得到输入声音数据的低维表征数据与预设的声音训练数据的低维表征数据 之间的似然距离:
[0076]
(1)
[0077] 其中,巧表示所述似然距离,U、K分别表示所述输入声音数据的低维表征数据(分 块矩阵)和所述声音训练数据的低维表征数据(分块矩阵),S0J)表示所述输入声音数据 的低维表征数据的光谱灵敏度,s(κ)表示所述声音数据训练集的低维表征数据的光谱灵敏 度,〇u、分别表示S0J)、S似的预测误差。
[0078] 接着,当计算得到输入声音数据的低维表征数据和预设的声音训练数据的低维表 征数据之间的似然距离之后,可W采用如下的公式计算得到所述输入声音数据的VAD分 值,包括:
[0079] (2)
[0080] 其中,VAD score表示所述VAD分值,巧聲).表示为具有数个预设阔值的比较函数。 其中,f((p)中的预设阔值可W根据实验结果进行确定。
[0081] 步骤S104 :当确定计算得出的VAD分值大于预设的分值阔值时,对所述声音数据 进行语音识别。
[0082] 在具体实施中,当计算得到的VAD分值大于预设的分值阔值大于预设的分值阔值 时,说明输入声音数据的低维表征数据与声音训练数据的低维表征数据之间具有较大的相 似性,进而可W表明所述输入声音数据中包括有语音信息,此时,可W对输入声音数据进行 语音识别。
[0083] 在具体实施中,当识别出所述输入声音数据时,移动终端可W执行与所识别出的 输入声音数据对应的操作,例如,拨打XX的电话,打开微博,打开化cebook等。
[0084] 在具体实施中,为了进行VAD检测,首先可W通过声音训练数据的训练得到声音 训练数据的低维数据表征,W便在采集到输入声音数据时,确定是否需要对输入声音数据 进行语音检测。
[0085] 图2示出了本发明实施例中的所述对所述声音训练数据进行几何重塑,得到所述 声音训练数据的低维表征数据的流程图。如图2所示的所述对所述声音训练数据进行几何 重塑,得到所述声音训练数据的低维表征数据,可W包括:
[0086] 步骤S201 :采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库, 分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC 及其对应的MFCC频带数量的信息,W及稳态噪声信息对应的MFCC及其对应的MFCC频带数 量的信息。
[0087] 在具体实施中,为了获取相应的声音训练数据,首先需要构建纯净语音数据库、非 稳态噪声数据库和稳态噪声数据库。从所构建的纯净语音数据库、非稳态噪声数据库和稳 态噪声数据库中相应的纯净语音数据、非稳态噪声数据和稳态噪声数据,可W分别得到对 应的纯净语音数据、非稳态噪声数据和稳态噪声数据的化频率的信息。
[0088] Mel频率是基于人耳听觉特性提出来的,它与化频率成非线性对应关系。Mel频 率倒谱系数(MFCC)则是利用Mel频率与化频率成之间的运种非线性对应关系,计算得到 的化频谱特征。因此,利用化频率与MFCC之间的对应关系,便可W得到纯净语音数据的 MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量 的信息,W及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息。
[0089] 步骤S202 :根据得到纯净语音数据、非稳态噪声数据,W及稳态噪声信息对应的 MFCC及其对应的MFCC频带数量的信息,分别得到第一、第二、第Ξ、第四和第五声音数据训 练集的MFCC及其对应的MFCC频带数量的信息。
[0090] 在具体实施中,当得到纯净语音数据、非稳态噪声数据,W及稳态噪声信息对应的 MFCC及其对应的MFCC频带数量的信息,可W采用如下的公式分别得到第一、第二、第Ξ、第 四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息:
[0091] xi(n) = χ,ρ(η) (3) 阳092]而(η) = Xsp (η) +Xst (η) (4) 阳OW] & (η) = X叩(η) +Xn〇n St (η)妨 阳094] Χ4 (η) = Xnon St (η) +Χ" (η)化) 阳095] Xs (η) = Xsp (η)+Xst (η)+Xn〇n St (η) (7)
[0096] 其中,xi(n)、X2(n)、X3(n)、x>)和X5(n)分别表示第一、第二第三第四和第五 声音训练数据的MFCC,χ,ρ(η)表示纯净语音数据的MFCC,x""",t(n)表示非稳态噪声数据的 MFCC,x,t(n)表示稳态噪声数据的MFCC。
[0097] 当得到上述的第一、第二、第Ξ、第四和第五声音数据训练集的MFCC时,并可W得 到第一、第二、第Ξ、第四和第五声音数据训练集的MFCC对应的MFCC频带数量的信息。
[0098] 步骤S203:将所述第一、第二、第Ξ、第四和第五声音数据训练集的MFCC分别划分 成为不同的时隙,并根据所得到的第一、第二第三第四和第五声音数据训练集的MFCC及 对应的MFCC频带数量的信息,分别计算得出所述第一、第二、第Ξ、第四和第五声音数据训 练集的对数似然比。
[0099] 在具体实施中,当得到上述的第一、第二、第Ξ、第四和第五声音数据训练集的 MFCC及其对应的MFCC频带数量的信息,可W采用如下的公式分别计算得到相应的对数似 然比:
[0100]
(8) 阳1〇U 其中,I表示对数似然比,XS表示相应的声音训练数据的MFCC对应的MFCC频带 数量,PriSNR表示先噪声比,PostSNR表示后噪声比。
[0102] 步骤S204 :根据计算得出的所述第一、第二、第Ξ、第四和第五声音数据训练集的 对数似然比,分别计算得出第一、第二、第Ξ、第四和第五声音数据训练集的特征矩阵。
[0103] 在具体实施中,当得到第一、第二、第Ξ、第四和第五声音数据训练集的对数似然 比时,便可W得到所述输入声音数据的特征矩阵:
[0104]
(谷)
[01化]其中,X(i)表示第i个声音训练数据集对应的特征矩阵,t表示声音数据帖的位 序,且t = (1,2…脚,I (i)表示第i个声音训练数据集对应的对数似然比。
[0106] 步骤S205 :为第一、第二第三第四和第五声音数据训练集的特征矩阵分配相应 的权重并相加,得到所述声音训练数据的相似矩阵。
[0107] 在具体实施中,当得到第一、第二、第Ξ、第四和第五声音数据训练集的特征矩阵 之后,通过为第一、第二、第Ξ、第四和第五声音数据训练集的特征矩阵分配相应的权重并 相加,可W得到所述声音训练数据对应的相似矩阵:
[0110] 其中,τ表示所述声音训练数据的相似矩阵,i、j分别表示所述声音训练数据集的 位序,P表示计算所述声音训练数据的相似矩阵的持续时间,x(i)表示第i个声音数据训练 集的特征矩阵,X(j)表示第j个声音数据训练集的特征矩阵。 阳111] 当一个特定的语音数据帖中包含有语音或者非稳态噪声时,通过公式(8)计算得 出的对数似然比就会较大,公式(11)中的指数项越等于零,那么该声音数据帖的特征向量 (低维表征数据)将会接近于该数据帖对应的MFCC。反之,当一个特定的声音数据帖中仅 包含有稳态噪声的信息时,计算得出的对数似然比就会较小,公式(11)中的指数项就会约 等于1,那么,仅包含有稳态噪声的声音数据帖的特征向量就约等于零。
[0112] 因此,将不含有非稳态噪声的声音数据帖与含有非稳态噪声的其他声音数据帖进 行区别的特征在于:不含有非稳态噪声的相邻的声音数据帖之间几乎是相同的。由于相 邻的声音数据帖之间存在较大的距离,因此,如果可W像在公式(8)中那样进行权重函数 (wei曲t化nction)的选取,即便两个声音数据帖之间非常相似,只要他们分别来自不同的 类别,那么他们之间的相似性也将会变得很小。
[0113] 步骤S206 :对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉 斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练 数据的低维表征数据。
[0114] 在具体实施中,当声音训练数据的相似矩阵进行拉普拉斯矩阵特征提取的具体过 程,可W包括:
[0115] 首先构建相似图形G,其中,例如使用k最近邻化-Nearest Nei曲bor,KNN)分类 算法,将每个点最近的K个点连上边,其中,K为预先设定的值。 阳116] 接着,确定相似图形G点与点之间的权重,例如选用热核函数来确定,如果点i和 点j相连,那么它们关系的权重设定为: 阳 117]
( 12 ) 阳11引其中Wi i表示点i和点j之间的权重。
[0119] 另外一种可选的简化设定是如果点i,j相连则Wii为1,否则W U为0。
[0120] 然后,计算拉普拉斯矩阵L的特征向量与特征值:
[0121] Ly = λ Dy (13)
[0122] 其中,D是对角矩阵,且满足: 阳 123] Dii =Σ jWji (14) 阳 124] L = D-W (巧)
[01巧]最后,使用最小的预设个数个非零特征值对应的特征向量(分块矩阵)K,作为降 维后的所述声音训练数据的低维表征数据。其中,所述特征向量K中的非零特征值的个数 可W根据实际的需要进行设置。 阳126] 在具体实施中,通过声音训练数据的训练得到降维后的声音训练数据的低维表征 数据W后,当采集到输入声音数据时,同样对输入声音数据进行几何重塑,得到降维后的输 入声音数据的几何重塑,得到输入声音数据的低维表征数据。
[0127] 运里需要指出的是,通过声音训练数据得到声音训练数据的低维表征数据的过 程,与得到输入声音数据的低维表征数据的过程相似,但仍然存在着不同之处。为了便于区 另IJ,下面将对如何得到对输入声音数据进行几何重塑,得到输入声音数据的低维表征数据 做进一步详细的介绍。
[0128] 图3示出了本发明实施例中的所述对所述声音数据进行几何重塑,得到所述声音 数据的低维表征数据的流程图。如图3所示的所述对所述声音数据进行几何重塑,得到所 述声音数据的低维表征数据,可W包括:
[0129] 步骤S301 :获取所述输入声音数据的MFCC,及其对应的MFCC频带数量的信息。
[0130] 在具体实施中,当采集到输入声音数据时,利用化频率与MFCC之间的对应关系, 便可W得到输入声音数据的MFCC及其对应的MFCC频带数量的信息。 阳13U 步骤S302 :将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得 到的MFCC频带数量的信息,计算得出所述输入声音数据的对数似然比。 阳132] 在具体实施中,可W上述的公式(8)计算得出所述输入声音数据的对数似然比。
[0133] 步骤S303 :采用计算得出的输入声音数据的对数似然比,构建所述输入声音数据 的特征矩阵。
[0134] 在具体实施中,当计算得到输入声音数据的对数似然比之后,可W构建所述输入 声音数据的特征矩阵: 阳13引
(化)
[0136] 其中,Z表示输入声音数据的特征矩阵,t表示输入声音数据帖的位序,且t = (1,2…脚,I表示输入声音数据的对数似然比。
[0137] 步骤S304 :对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征 提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量 作为所述输入声音数据的低维表征数据。
[0138] 在具体实施中,对输入声音数据的特征矩阵进行拉普拉斯矩阵特征提取可W包 括:
[0139] 首先构建相似图形G,其中,例如使用k最近邻化-Nearest Nei曲bor,KNN)分类 算法,将每个点最近的K个点连上边,其中,K为预先设定的值。
[0140] 接着,确定相似图形G点与点之间的权重,例如选用热核函数来确定,如果点i和 点j相连,那么它们关系的权重设定为: 阳14。
(巧) 阳1创其中Wi i表示点i和点j之间的权重。 阳14引另外一种可选的简化设定是如果点i,j相连则Wi,为1,否则W 1,为0。
[0144] 然后,计算拉普拉斯矩阵L的特征向量与特征值:
[0145] Ly=入 Dy (13) 阳146] 其中,D是对角矩阵,且满足: 阳147] Dii =Σ jWji (14)
[0148] L = D-W (15)
[0149] 最后,使用最小的预设个数个非零特征值对应的特征向量(分块矩阵)U,作为降 维后的所述声音训练数据的低维表征数据。其中,所述特征向量U中的非零特征值的个数 可W根据实际的需要进行设置。
[0150] 图4示出了本发明实施例中的一种语音识别装置的结构示意图。如图4所示的语 音识别装置400,可W包括数据处理单元401、几何重塑单元402、计算单元403和语音识别 单元404,其中: 阳151] 数据处理单元401,适于将采集到的输入声音信号进行处理,得到输入声音数据。 阳152] 几何重塑单元402,适于对所述输入声音数据进行几何重塑,得到降维后的所述输 入声音数据的低维表征数据。
[0153] 在具体实施中,所述几何重塑单元402适于获取所述输入声音数据的MFCC,及其 对应的MFCC频带数量的信息;将所获取的所述输入声音数据的MFCC划分成不同的时隙,并 根据所得到的MFCC频带数量的信息,计算得出所述输入声音数据的对数似然比;采用计算 得出的所述输入声音数据的对数似然比,构建所述输入声音数据的特征矩阵;构建所述输 入声音数据的特征矩阵对应的相似矩阵;对所述输入声音数据的特征矩阵对应的相似矩阵 进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征 值对应的特征向量作为所述输入声音数据的低维表征数据。
[0154] 计算单元403,适于采用所述输入声音数据的低维表征数据与预设的降维后的声 音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据 的低维数据表征通过对所述声音训练数据进行几何重塑得到。
[01巧]在具体实施中,如图4所示的语音识别装置还可W包括训练单元404,其中:
[0156] 训练单元404,适于通过对所述声音训练数据进行几何重塑得到所述声音训练数 据的低维数据表征,包括:采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据 库,分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的 MFCC及其对应的MFCC频带数量的信息,W及稳态噪声信息对应的MFCC及其对应的MFCC频 带数量的信息;根据得到纯净语音数据、非稳态噪声数据,W及稳态噪声信息对应的MFCC 及其对应的MFCC频带数量的信息,分别得到第一、第二、第Ξ、第四和第五声音数据训练集 的MFCC及其对应的MFCC频带数量的信息;将所述第一、第二、第Ξ、第四和第五声音数据训 练集的MFCC分别划分成为不同的时隙,并根据所得到的第一、第二、第Ξ、第四和第五声音 数据训练集的MFCC及对应的MFCC频带数量的信息,分别计算得出所述第一、第二、第Ξ、第 四和第五声音数据训练集的对数似然比;根据计算得出的所述第一、第二、第Ξ、第四和第 五声音数据训练集的对数似然比,分别计算得出第一、第二、第Ξ、第四和第五声音数据训 练集的特征矩阵;为第一、第二、第Ξ、第四和第五声音数据训练集的特征矩阵分配相应的 权重并相加,得到所述声音训练数据的相似矩阵;对所述声音训练数据的相似矩阵进行拉 普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应 的特征向量作为所述声音训练数据的低维表征数据。 阳157] 语音识别单元405,适于当确定计算得出的VAD分值大于预设的分值阔值时,对所 述声音数据进行语音识别。
[0158] 本领域普通技术人员可W理解上述实施例的各种方法中的全部或部分步骤是可 w通过程序来指令相关的硬件来完成,该程序可w存储于计算机可读存储介质中,存储介 质可W包括:ROM、RAM、磁盘或光盘等。 阳159] W上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本 领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保 护范围应当W权利要求所限定的范围为准。
【主权项】
1. 一种语音识别方法,其特征在于,包括: 将采集到的输入声音信号进行处理,得到输入声音数据; 对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数 据; 采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征 数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对 所述声音训练数据进行几何重塑得到; 当确定计算得出的VAD分值大于预设的分值阔值时,对所述声音数据进行语音识别。2. 根据权利要求1所述的语音识别方法,其特征在于,所述对所述声音数据进行几何 重塑,得到所述声音数据的低维表征数据,包括: 获取所述输入声音数据的MFCC,及其对应的MFCC频带数量的信息; 将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得到的MFCC频带 数量的信息,计算得出所述输入声音数据的对数似然比; 采用计算得出的所述输入声音数据的对数似然比,构建所述输入声音数据的特征矩 阵; 构建所述输入声音数据的特征矩阵对应的相似矩阵; 对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取,得到拉普拉 斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述输入声音 数据的低维表征数据。3. 根据权利要求1所述的语音识别方法,其特征在于,所述声音训练数据的低维数据 表征通过对所述声音训练数据进行几何重塑得到,包括: 采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯净语 音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC 频带数量的信息,W及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息; 根据得到纯净语音数据、非稳态噪声数据,W及稳态噪声信息对应的MFCC及其对应的 MFCC频带数量的信息,分别得到第一、第二、第S、第四和第五声音数据训练集的MFCC及其 对应的MFCC频带数量的信息; 将所述第一、第二、第S、第四和第五声音数据训练集的MFCC分别划分成为不同的时 隙,并根据所得到的第一、第二、第S、第四和第五声音数据训练集的MFCC及对应的MFCC频 带数量的信息,分别计算得出所述第一、第二、第=、第四和第五声音数据训练集的对数似 然比; 根据计算得出的所述第一、第二、第=、第四和第五声音数据训练集的对数似然比,分 别计算得出第一、第二、第=、第四和第五声音数据训练集的特征矩阵; 为第一、第二、第=、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加, 得到所述声音训练数据的相似矩阵; 对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特 征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征 数据。4. 根据权利要求2或3所述的语音识别方法,其特征在于,采用如下的公式计算对数似 然比,包括:其中,I表示对数似然比,XS表示MFCC对应的MFCC频带数量,PriSNR表 示先噪声比,PostSNR表示后噪声比。5. 根据权利要求4所述的语音识别方法,其特征在于,所述采用计算得出的所述输入 声音数据的对数似然比,得到所述输入声音数据的特征矩阵,包括:其中,X表示特征矩阵,t表示声音数据帖的位序,且t= (1,2...脚,I表示对数似然 比。6. 根据权利要求5所述的语音识别方法,其特征在于,所述为第一、第二、第=、第四和 第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩 阵,包括:其中,T表示所述声音训练数据的相似矩阵,i、j分别表示所述声音训练数据集的位 序,P表示计算所述声音训练数据的相似矩阵的持续时间,且:其中,X(i)表示第i个声音数据训练集的特征矩阵,X(j)表示第j个声音数据训练集 的特征矩阵。7. 根据权利要求6所述的语音识别方法,其特征在于,所述计算输入声音数据特征矩 阵的特征向量与所述声音数据训练集特征矩阵的特征向量之间的似然距离,包括:其中,解表示所述似然距离,S0J)表示所述输入声音数据特征矩阵的特征向量的光谱 灵敏度,S (K)表示所述声音数据训练集特征矩阵的特征向量的光谱灵敏度,0。、〇><分别表 示S扣)、S化)的预测误差。8. 根据权利要求7所述的语音识别方法,其特征在于,所述计算得出所述输入声音数 据的VAD分值,包括:其中,VAD score表示所述输入声音数据的VAD分值,f(q))表示为具有数个预设阔值的 比较函数。9. 一种语音识别装置,其特征在于,包括: 数据处理单元,适于将采集到的输入声音信号进行处理,得到输入声音数据; 几何重塑单元,适于对所述输入声音数据进行几何重塑,得到降维后的所述输入声音 数据的低维表征数据; 计算单元,适于采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数 据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数 据表征通过对所述声音训练数据进行几何重塑得到; 语音识别单元,适于当确定计算得出的VAD分值大于预设的分值阔值时,对所述声音 数据进行语音识别。10. 根据权利要求9所述的语音识别装置,其特征在于,所述几何重塑单元适于获取所 述输入声音数据的MFCC,及其对应的MFCC频带数量的信息;将所获取的所述输入声音数据 的MFCC划分成不同的时隙,并根据所得到的MFCC频带数量的信息,计算得出所述输入声音 数据的对数似然比;采用计算得出的所述输入声音数据的对数似然比,构建所述输入声音 数据的特征矩阵;构建所述输入声音数据的特征矩阵对应的相似矩阵;对所述输入声音数 据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值, 将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。11. 根据权利要求9所述的语音识别装置,其特征在于,还包括训练单元,适于通过对 所述声音训练数据进行几何重塑得到所述声音训练数据的低维数据表征,包括: 采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯净语 音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC 频带数量的信息,W及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息; 根据得到纯净语音数据、非稳态噪声数据,W及稳态噪声信息对应的MFCC及其对应的 MFCC频带数量的信息,分别得到第一、第二、第S、第四和第五声音数据训练集的MFCC及其 对应的MFCC频带数量的信息; 将所述第一、第二、第S、第四和第五声音数据训练集的MFCC分别划分成为不同的时 隙,并根据所得到的第一、第二、第S、第四和第五声音数据训练集的MFCC及对应的MFCC频 带数量的信息,分别计算得出所述第一、第二、第=、第四和第五声音数据训练集的对数似 然比; 根据计算得出的所述第一、第二、第=、第四和第五声音数据训练集的对数似然比,分 别计算得出第一、第二、第=、第四和第五声音数据训练集的特征矩阵; 为第一、第二、第=、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加, 得到所述声音训练数据的相似矩阵; 对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特 征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征 数据。
【文档编号】G10L15/14GK105989838SQ201510051345
【公开日】2016年10月5日
【申请日】2015年1月30日
【发明人】孙廷玮, 林福辉
【申请人】展讯通信(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1