语音识别方法和装置的制造方法

文档序号：10625461阅读：530来源：国知局

语音识别方法和装置的制造方法
【专利摘要】本发明公开了一种语音识别方法和装置，该方法和装置通过在语音信号中提取多个语音数据包，对每个语音数据包进行语音识别，并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量，无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程，使得语音识别效率和准确性均达到很高水准。
【专利说明】
语音识别方法和装置
技术领域
[0001] 本发明实施例设及语音信号处理技术领域，尤其设及一种语音识别方法和装置。
【背景技术】
[0002] 语音识别是语音信号处理技术领域中一个重要的研究方向，是将采集到的语音信号中反映说话人生理和行为特征的语音特征与已有声学模型做比对，从而得出语音内容的过程，随着当前电话语音、在线视频语音等语音产品的快速发展，语音识别的需求越来越多。
[0003] 在进行语音识别的过程中，由于不同说话人的说话习惯不一样，说话速度也会有较大差异，而已有声学模型多是基于正常语速的自然语音产生的，在说话速度过快时，常会产生语音与声学模型的失配，导致语音识别准确率低。
[0004] 现有技术中，一般采用如下方法来解决说话速度过快时，语音与声学模型易失配的问题，该方法具体包括如下步骤：阳0化]1、采集用户所说的全部语音信号。
[0006] 2、语音信号的语速评估，分为后端评估和前端评估两个步骤，后端评估是指利用人工标注或者利用识别器对语音信号进行识别和标注，使用标注信息来计算语速，前端评估是指在信号层面，比如利用声学信号在时域上的能量包络的变化率，作为语速的参考值。
[0007] 3、语音信号或声学模型的语速适应，也分为前端适应和后端适应两个步骤，在说话速度过快时，前端适应是指对语音信号进行拉伸W放慢语速，后端适应是指调整声学模型的结构或参数和调节识别参数来匹配说话速度。
[0008] 4、完成语速适应后，对整句语音进行语音识别。
[0009] 然而，在实现本发明过程中，该现有技术中至少存在如下问题：
[0010] 由于在语音识别过程中需收集当前用户请求的全部语音信号并对全部语音信号进行语速评估和预设适应之后，才能进行语音识别，在全部语音信号的数据量较大时，使得语音识别前的处理周期较长，该处理周期所产生的系统延时甚至大于全部语音的时长，降低了语音识别的效率。

【发明内容】

[0011] 本发明实施例提供一种语音识别方法和装置，用W解决现有技术中语音识别效率较低的技术问题。
[0012] 本发明实施例提供一种语音识别方法，包括：
[0013] 获取语音信号，在所述语音信号中提取多个语音数据包，所述多个语音数据包内包括在时间上连续的第一语音数据包和第二语音数据包；
[0014] 从所述第一语音数据包中提取第一数量的第一语音特征向量；
[0015] 根据各第一语音特征向量与预设的马尔科夫声学模型，确定所述第一语音数据包的第一语音语速；
[0016] 根据所述第一语音语速与标准语音语速，确定第二数量；
[0017] 从所述第二语音数据包提取第二数量的第二语音特征向量；
[0018] 根据所述第二语音特征向量与预设马尔科夫声学模型，确定第二语音数据包的第二识别结果。
[0019] 本发明实施例还提供一种语音识别装置，包括：该语音识别装置包括：
[0020] 语音数据包提取模块，获取语音信号，在所述语音信号中提取多个语音数据包，所述多个语音数据包中包括在时间上连续的第一语音数据包和第二语音数据包；
[0021] 第一特征向量提取模块，从所述第一语音数据包中提取第一数量的第一语音特征向量；
[0022] 第一语音语速确定模块，根据各第一语音特征向量与预设的马尔科夫声学模型，确定所述第一语音数据包的第一语音语速；
[0023] 第二数量确定模块，根据所述第一语音语速与标准语音语速，确定第二数量；
[0024] 第二特征向量提取模块，从所述第二语音数据包提取第二数量的第二语音特征向量；
[0025] 第二识别结果确定模块，根据所述第二语音特征向量与预设马尔科夫声学模型，确定第二语音数据包的第二识别结果。
[00%] 本发明实施例所提供的语音识别方法和装置，通过在语音信号中提取多个语音数据包，对每个语音数据包分别进行语音识别，并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量，无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程，使得语音识别效率和准确性均达到很高水准。
【附图说明】
[0027] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可W根据运些附图获得其他的附图。
[002引图1为本发明实施例中语音识别方法的过程；
[0029] 图2为本发明实施例中语音识别方法内根据各第一语音特征向量与预设的马尔科夫声学模型，确定所述第一语音数据包的第一语音语速的具体过程.
[0030] 图3为本发明实施例中语音识别方法内根据第一最优识别路径的跳转概率更新马尔科夫声学模型条状概率的具体过程；
[0031] 图4为本发明实施例中语音识别装置的结构示意图。
【具体实施方式】
[0032] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0033] 现有技术通过获取完整语音信号来进行语音识别的过程中，可能存在语音识别效率低的问题，本发明实施例提供一种解决前述问题的语音识别方法，W下结合附图详细描述本方法。
[0034] 图1为本发明实施例中语音识别方法的过程，具体包括如下步骤。
[0035] S10、获取语音信号，在语音信号中提取多个语音数据包，前述多个语音数据包中包括在时间上连续的第一语音数据包和第二语音数据包。
[0036] 由于所获取的语音信号为时域上连续的信号，W时间为基准，在该语音信号中提取多个语音数据包，并保证相邻的两个语音数据包在时间上连续。
[0037] 本发明实施例中，每个语音数据包的时长设定为0. 5秒，在获取语音信号的过程中，每隔0. 5秒便生成一个语音数据包，通过对每个语音数据包进行语音识别并获得识别结果，后续将所有语音数据包的识别结果进行汇总，则能够得到语音信号的完整识别结果。
[0038] 值得注意的是，第一语音数据包和第二语音数据包是泛指从语音信号中提取的在时间上连续的任意两个语音数据包，并非特指从语音信号中提取出的第一个和第二个语音数据包，在此不做寶述。
[0039] S20、从第一语音数据包中提取第一数量的第一语音特征向量。
[0040] 本发明实施例中，在获取第一语音数据包后，通过傅里叶转换和采样处理将时域上连续的第一语音数据包转换为在频域上离散的、第一数量的第一语音特征向量。
[0041] 前述第一语音特征向量可W是预设帖长的语音频谱信号，也可W是梅尔频率倒谱系数（Mel-Frequen巧 Cepstral Coefficients, MFCCs)。
[0042] 其中，通过傅里叶转换和采样处理来得到第一语音特征向量为业内常规手段，在此不做寶述。
[0043] S30、根据各第一语音特征向量与预设的马尔科夫声学模型，确定第一语音数据包的第一语音语速。
[0044] 预设的马尔科夫声学模型通过大量的自然语音语料训练得到的统计模型，并根据目标区域的人种、发音习惯进行了调整，W确保后续语音识别的准确性。
[0045] 通过将第一语音特征向量与马尔科夫声学模型作比对，得到第一语音数据包中各个第一语音特征向量的第一识别子结果。
[0046] 将运些第一识别子结果进行对比，明确其中发生了多少次自跳和跳转，从而得到第一识别子结果中跳转概率，将跳转概率与第一语音数据包的时长做比对，则可得出第一语音语速。
[0047] S40、根据所述第一语音语速与标准语音语速，确定第二数量。
[0048] 标准语音语速为预先设定，一般W普通自然人的常规语速做标准。
[0049] 本发明实施例中，第一语音数据包和第二语音数据包的时长相同，前述第二数量为将第一语音语速和标准语音语速的比值与第一数量作乘积的结果。
[0050] W根据第一语音特征向量得到第一语音语速是标准语速的2倍为例，第二数量为第一数量的2倍，即在第二语音数据包中获取到的第二语音特征向量的数量是第一语音特征向量的数量2倍。
[0051] S50、从所述第二语音数据包提取第二数量的第二语音特征向量。
[0052] 本发明实施例中，步骤S50可W通过如下步骤来实现：
[0053] 获取相邻第一语音特征向量之间的第一帖移；
[0054] 根据所述第二数量和第一数量调整所述第一帖移，得到第二帖移。
[0055] 根据所述第二帖移，从所述第二语音数据包提取第二语音特征向量，W使得所述第二语音特征向量的数量为第二数量。
[0056] 其中，第二帖移根据所述第二数量和第一数量的比值来缩小第一帖移得到。仍W 根据第一语音特征向量得到第一语音语速是标准语速的2倍为例，第二数量为第一数量的 2倍，则第二帖移为第一帖移的一半，通过缩小相邻第二语音特征向量之间的第二帖移，使得在时长相同的第二语音数据包中得到第二数量的第二语音特征向量。
[0057] W第一数量等于8为例，在第二数量与第一数量一样，即等于8时，在第二识别子结果中发生了 3次自跳和5次跳转时，从而得到第二识别子结果的跳转概率为5/8 ;而第二数量为第一数量的两倍，即等于16时，由于同一语音数据包中跳转动作的数量总是确定的，则第二识别子结果中会发生了 11次自跳和5次跳转，得到第二识别子结果的跳转概率为5/16。在第二语音数据包的时长确定时，则能实现根据第二语音特征向量得到第二语音数据包的第二语音语速修正为其真实语速的一半，即使得第二语音语速被修正为与标准语速相同。
[0058] 通过第一语音语速来修正第二数量，在第二语音数据包的时长和语音数据一定时，使得每个第二语音特征向量的所含词素变少，使其接近标准语音语速，提高第二语音特征向量和马尔科夫声学模型比对得到识别结果的精度。
[0059] 当然，在对第二语音数据包后的第Ξ语音数据包进行识别时，根据第二数量所得到的第二语音语速来得到在第Ξ语音数据包中提取的第Ξ语音特征向量的数量。
[0060] W第二语音数据包的真实语速为标准语速的2倍为例，由于第二数量相对于第一数量翻倍，则根据第二数量得到的第二语速被修正为与标准语速相同，则第Ξ数量为1*20 =20 第二语音数据包的真实语速为标准语速的4倍为例，则根据第二数量得到的第二语速被修正为是标准语速的2倍，则第Ξ数量为2*20 = 40。
[0061] 本发明的实施例中，还可对语音特征向量的数量设定上限，避免语音特征向量的数量不断膨胀，导致语音识别系统出现异常。
[0062] 当然，本发明的其他实施例中，步骤S50还可W通过如下步骤来实现：
[0063] 从所述第二语音数据包中提取第一数量的第二语音特征向量；
[0064] 在相邻的第二语音特征向量之间插入特定数量的第二语音特征向量，将所述第二语音特征向量的数量调整为第二数量。
[0065] 仍W根据第一语音特征向量得到第一语音语速是标准语速的2倍，且第一数量等于8为例，预先在第二语音数据包中提取8个第二语音特征向量，并在相邻的第二语音特征向量之间插入1个第二语音特征向量，使得得到16个第二语音特征向量。
[0066] 通过前述方式来提高语音识别精确性的原理与前述实施例相同，在此不做寶述。
[0067] S60、根据第二语音特征向量与马尔科夫声学模型，确定第二语音数据包的第二识别结果。
[0068] 当然，完整的语音信号还包括后续的其他语音数据包，均可通过本发明实施例所提供的方式来逐一得到其识别结果，后续将所有语音数据包的识别结果进行汇总，则能够得到语音信号的完整识别结果
[0069] 本发明实施例所提供的语音识别方法，通过在语音信号中提取多个语音数据包，分别对每个语音数据包进行语音识别，并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量，无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程，使得语音识别效率和准确性均达到很高水准。
[0070] 本发明实施例中，语音识别方法还包括：在有第一识别子结果为新词的首个词素时，在该第一识别子结果的参考概率值上更新预设的插入惩罚概率值，作为新的参考概率值。
[0071] 通过马尔科夫声学模型来判断第一识别子结果为新词的首个词素为本领域普通技术人员所熟知的技术，在此不做寶述。
[0072] 预设的插入惩罚概率值可根据需求设定，例如在噪声较大的环境，可提供为负值得预设的插入惩罚概率值，第一识别子结果的参考概率值加上负的插入惩罚概率值，使得识别出新词的概率降低，降低出现由于噪声所产生的新词的概率；而在噪声较小的环境，可提供为正值得预设的插入惩罚概率值，第一识别子结果的参考概率值加上正的插入惩罚概率值，使得识别出新词的概率增加。
[0073] 通过设定插入惩罚概率值，降低环境噪声对语音识别的影响，提高语音识别的准确性。
[0074] 参图2所示，本发明实施例中，步骤S30具体包括如下步骤。
[0075] S31、将各第一语音特征向量与马尔科夫声学模型做比对，得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值。
[0076] 在将各个第一语音特征向量与马尔科夫声学模型比对后，每个第一语音特征向量均能够得到至少一个可能的第一识别子结果，马尔科夫声学模型对于每个可能的第一识别子结果均贴有参考概率值，运些参考概率值用于体现马尔科夫声学模型所输出的第一识别子结果是真实识别结果的概率。
[0077] S32、获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻，得到位于收敛时刻的第一语音特征向量，作为第一收敛特征向量。
[007引仍W第一数量等于8为例，第一语音数据包被转换为8个第一语音特征向量；在将 8个第一语音特征向量与马尔科夫声学模型比对后，得到每个第一语音特征向量的第一识别子结果的数量如表1所示，其中，随着第一语音特征向量序号的增加，第一语音特征向量在第一语音数据包的时刻越晚。
[00791 阳080] 衷i
[0081] 参表1，序号为4和7的第一语音特征向量在数量上收敛，序号为4和7的第一语音特征向量为第一收敛特征向量，其所在的时刻即为前述收敛时刻；位于第一收敛特征向量中第一识别子结果的数量小于前一、后一第一语音特征向量中第一识别子结果的数量。
[0082] 其中，在第一数量较大时，可通过对第一识别子结果的数量所构成的数列进行多项式拟合，并对拟合后多项式进行求导，W求导后的波谷值所在时刻来得到前述收敛时刻。
[0083] 本发明实施例中，在获取第一语音特征向量的第一识别子结果的数量上的收敛时刻之前，语音识别方法还包括：仅保留每个第一语音特征向量中参考概率值大于预设概率阔值的第一识别子结果。
[0084] 通过预设概率阔值对第一语音特征中第一识别子结果的数量进行限缩，降低确定收敛时刻所需运算量，提高确定第一收敛特征向量的效率。
[00化]S33、获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果。
[0086] 仍参表1，序号为4和7上的第一收敛特征向量，最晚收敛时刻即为序号7所对应时刻，获得序号7上的第一收敛特征向量中1988个第一识别子结果中参考概率值最大的一个。
[0087] 由于特征向量的识别精确度与识别子结果的数量相关，识别子结果的数量越少，则特征向量的识别精确度越高；显然可得，相对于其他序号上的语音特征向量的识别子结果，序号为4和7上第一收敛特征向量中参考概率值最大的第一识别子结果的识别精确度更局。
[0088] 最晚收敛时刻上的第一收敛特征向量，相对于其他第一收敛特征向量更接近第二语音数据包，基于最晚收敛时刻上的第一收敛特征向量得到的第一语音语速与第二语音数据包的第二语音语速更接近。
[0089] S34、根据马尔科夫声学模型对参考概率值最大的第一识别子结果做回溯，得到第一最优识别路径。
[0090] 本发明实施例中，W参考概率值最大的第一识别子结果为基准，根据马尔科夫声学模型得到跳转至该第一识别子结果的参考概率值最大的前一第一语音特征向量的第一识别子结果。
[0091] 仍然W参考概率值最大的第一识别子结果为基准，根据马尔科夫声学模型得到该第一识别子结果跳转的参考概率值最大的后一第一语音特征向量的第一识别子结果。
[0092] 重复前述操作，直到已经得到所有第一语音特征向量的第一识别子结果，再将得到的所有第一语音特征向量的第一识别子结果做汇总，作为第一最优识别路径，该第一最优识别路径中每个第一语音特征向量仅有一个第一识别子结果。
[0093] S35、获取第一最优识别路径的跳转概率。
[0094] S36、根据第一最优识别路径的跳转概率和第一语音数据包的时长得到第一语音语速。
[00巧]本发明实施例中，第一最优识别路径包括8个第一识别子结果，若通过比对第一识别子结果发现其中发生了 2次跳转，6次自跳，则可出跳转概率为25%，而第一语音数据包的时长为0. 5S，基于该跳转概率和时长则可得出第一语音语速。
[0096] 参图3所示，本发明实施例中，步骤S60之前，语音识别方法还包括如下步骤。
[0097] S71、获取第一最优识别路径中的跳转概率；
[0098] S72、W第一最优识别路径中的跳转概率作为马尔科夫声学模型的跳转概率。
[0099] 由于第一最优识别路径中跳转概率与第二语音数据包中跳转概率接近，通过跳转概率作为马尔科夫声学模型的跳转概率，使得马尔科夫声学模型与第二语音数据包的跳转概率更接近，而跳转概率体现了语速水平，使得第二语音数据包和马尔科夫声学模型的语速更接近，从而提高语音识别的精确性。
[0100] S73、根据预设S型曲线函数对马尔科夫声学模型的跳转概率进行修正。阳101] 通过预设S型曲线函数能够对更新后马尔科夫声学模型的跳转概率进行修正，避免该马尔科夫声学模型的跳转概率出现极值，导致跳转异常。阳102] 图4为本发明实施例提供的语音识别装置的机构示意图，本发明实施例所提供的语音识别装置基于W上语音识别方法，故该装置的具体细节可参照W上识别方法，本文不再予W寶述。阳103] 前述语音识别装置，用于解决现有技术中语音识别效率较低的技术问题，具体包括：
[0104] 语音数据包提取模块10,获取语音信号，在语音信号中提取多个语音数据包，多个语音数据包包括在时间上连续的第一语音数据包和第二语音数据包；
[01化]第一特征向量提取模块20，从第一语音数据包中提取第一数量的第一语音特征向量；
[0106] 第一语音语速确定模块30,根据各第一语音特征向量与预设的马尔科夫声学模型，确定第一语音数据包的第一语音语速；阳107] 第二数量确定模块40,根据所述第一语音语速与标准语音语速，确定第二数量；
[0108] 第二特征向量提取模块50,从所述第二语音数据包提取第二数量的第二语音特征向量；
[0109] 第二识别结果确定模块60,根据第二语音特征向量与预设马尔科夫声学模型，确定第二语音数据包的第二识别结果。
[0110] 本发明实施例提供的语音识别装置，通过在语音信号中提取多个语音数据包，对每个语音数据包分别进行语音识别，并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量，无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程，使得语音识别效率和准确性均达到很高水准。阳111] 本发明实施例中可W通过硬件处理器化ardware processor)来实现上述相关功能模块。
[0112] 本发明实施例中，第一语音语速确定模块30具体用于：
[0113] 将各第一语音特征向量与预设马尔科夫声学模型做比对，得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值；
[0114] 获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻，得到位于收敛时刻的第一语音特征向量，作为第一收敛特征向量；
[0115] 获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果；
[0116] 根据马尔科夫声学模型对参考概率值最大的第一识别子结果做回溯，得到第一最优识别路径；
[0117] 获取第一最优识别路径的跳转概率；
[0118] 根据第一最优识别路径的跳转概率和第一语音数据包的时长得到第一语音语速。
[0119] 本发明实施例中，第一收敛特征向量中第一识别子结果的数量小于前一、后一第一语音特征向量中第一识别子结果的数量。
[0120] 本发明实施例中，语音识别装置还包括：阳121] 第一子结果过滤模块，仅保留每个第一语音特征向量中参考概率值大于预设概率阔值的第一识别子结果。
[0122] 本发明实施例中，第二数量确定模块40具体用于：
[0123] 将第一语音语速和标准语音语速的比值与所述第一数量作乘积的结果，作为第二数量。
[0124] 本发明实施例中，第二特征向量提取模块50具体用于：
[01巧]根据所述第二数量和第一数量调整所述第一帖移，得到第二帖移；
[0126] 根据所述第二帖移，从所述第二语音数据包提取第二语音特征向量，W使得所述第二语音特征向量的数量为第二数量。
[0127] 本发明实施例中，第二特征向量提取模块50具体用于：
[0128] 从所述第二语音数据包中提取第一数量的第二语音特征向量；
[0129] 在相邻的第二语音特征向量之间插入特定数量的第二语音特征向量，将所述第二语音特征向量的数量调整为第二数量。
[0130] 本发明实施例中，语音识别装置还包括模型跳转概率更新模块，具体用于：阳131] 获取第一最优识别路径中的跳转概率；阳132] W第一最优识别路径中的跳转概率作为马尔科夫声学模型的跳转概率。
[0133] 本发明实施例中，模型跳转概率更新模块还用于：根据预设S型曲线函数对马尔科夫声学模型的跳转概率进行修正。
[0134] 本发明实施例中，语音识别装置还包括插入惩罚模块，具体用于：
[0135] 在有第一识别子结果为新词的首个词素时，在该第一识别子结果的参考概率值上更新预设插入惩罚概率值，作为新的参考概率值。阳136] W上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可 W是或者也可W不是物理上分开的，作为单元显示的部件可W是或者也可W不是物理单元，即可W位于一个地方，或者也可W分布到多个网络单元上。可W根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可W理解并实施。
[0137] 通过W上的实施方式的描述，本领域的技术人员可W清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可W通过硬件。基于运样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可软件产品的形式体现出来，该计算机软件产品可W存储在计算机可读存储介质中，如R0M/RAM、磁碟、光盘等，包括若干指令用W使得一台计算机设备（可W是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。
[0138] 最后应说明的是：W上实施例仅用W说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可W对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而运些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1. 一种语音识别方法，其特征在于，包括：获取语音信号，在所述语音信号中提取多个语音数据包，所述多个语音数据包内包括在时间上连续的第一语音数据包和第二语音数据包；从所述第一语音数据包中提取第一数量的第一语音特征向量；根据各第一语音特征向量与预设的马尔科夫声学模型，确定所述第一语音数据包的第一语音语速；根据所述第一语音语速与标准语音语速，确定第二数量；从所述第二语音数据包提取第二数量的第二语音特征向量；根据所述第二语音特征向量与预设马尔科夫声学模型，确定第二语音数据包的第二识别结果。2. 根据权利要求1所述的语音识别方法，其特征在于，根据各第一语音特征向量与预设的马尔科夫声学模型，确定所述第一语音数据包的第一语音语速，具体包括：将各第一语音特征向量与预设马尔科夫声学模型做比对，得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值；获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻，得到位于所述收敛时刻的第一语音特征向量，作为第一收敛特征向量；获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果；根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯，得到第一最优识别路径；获取所述第一最优识别路径的跳转概率；根据所述第一最优识别路径的跳转概率和所述第一语音数据包的时长得到第一语音语速。3. 根据权利要求2所述的语音识别方法，其特征在于，所述第一收敛特征向量中第一识别子结果的数量小于前一、后一第一语音特征向量中第一识别子结果的数量。4. 根据权利要求3所述的语音识别方法，其特征在于，获取所述第一语音特征向量的第一识别子结果的数量上的收敛时刻之前，所述语音识别方法还包括：仅保留每个第一语音特征向量中参考概率值大于预设概率阈值的第一识别子结果。5. 根据权利要求2述的语音识别方法，其特征在于，根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯，得到第一最优识别路径，具体包括：以所述参考概率值最大的第一识别子结果为基准，根据马尔科夫声学模型得到跳转至所述第一识别子结果的参考概率值最大的前一第一语音特征向量的第一识别子结果；以第一识别子结果为基准，根据马尔科夫声学模型得到所述第一识别子结果跳转的参考概率值最大的后一第一语音特征向量的第一识别子结果；判断是否已经得到所有第一语音特征向量的第一识别子结果；将得到所有第一语音特征向量的第一识别子结果做汇总，作为第一最优识别路径。6. 根据权利要求1所述的语音识别方法，其特征在于，根据所述第一语音语速与标准语音语速，确定第二数量，具体包括：将第一语音语速和标准语音语速的比值与所述第一数量作乘积的结果，作为第二数量。7. 根据权利要求1所述的语音识别方法，其特征在于，从所述第二语音数据包提取第二数量的第二语音特征向量，具体包括：获取相邻第一语音特征向量之间的第一帧移；根据所述第二数量和第一数量调整所述第一帧移，得到第二帧移；根据所述第二帧移，从所述第二语音数据包提取第二语音特征向量，以使得所述第二语音特征向量的数量为第二数量。8. 根据权利要求1所述的语音识别方法，其特征在于，从所述第二语音数据包提取第二数量的第二语音特征向量，具体包括：从所述第二语音数据包中提取第一数量的第二语音特征向量；在相邻的第二语音特征向量之间提取特定数量的第二语音特征向量，将所述第二语音特征向量的数量调整为第二数量。9. 根据权利要求1所述的语音识别方法，其特征在于，将所述第二语音特征向量与预设马尔科夫声学模型做比对，得到第二语音数据包的第二识别结果之前，所述语音识别方法还包括：获取所述第一最优识别路径中的跳转概率；以所述第一最优识别路径中的跳转概率作为马尔科夫声学模型的跳转概率。10. 根据权利要求9所述的语音识别方法，其特征在于，根据所述第一最优识别路径中第一识别子结果的跳转概率来调整马尔科夫声学模型的跳转概率之后，所述语音识别方法还包括：根据预设S型曲线函数对所述马尔科夫声学模型的跳转概率进行修正。11. 根据权利要求1所述的语音识别方法，其特征在于，所述语音识别方法还包括：在有第一识别子结果为新词的首个词素时，在所述第一识别子结果的参考概率值上更新预设的插入惩罚概率值，作为新的参考概率值。12. -种语音识别装置，其特征在于，所述语音识别装置包括：语音数据包提取模块，获取语音信号，在所述语音信号中提取多个语音数据包，所述多个语音数据包中包括在时间上连续的第一语音数据包和第二语音数据包；第一特征向量提取模块，从所述第一语音数据包中提取第一数量的第一语音特征向量；第一语音语速确定模块，根据各第一语音特征向量与预设的马尔科夫声学模型，确定所述第一语音数据包的第一语音语速；调速参数确定模块，根据所述第一语音语速与标准语音语速，确定调速参数；第二特征向量提取模块，根据所述调速参数，从所述第二语音数据包提取第二语音特征向量；第二识别结果确定模块，根据所述第二语音特征向量与预设马尔科夫声学模型，确定第二语音数据包的第二识别结果。13. 根据权利要求12所述的语音识别装置，其特征在于，第一语音语速确定模块具体用于：将各第一语音特征向量与预设马尔科夫声学模型做比对，得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值；获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻，得到位于所述收敛时刻的第一语音特征向量，作为第一收敛特征向量；获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果；根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯，得到第一最优识别路径；获取所述第一最优识别路径的跳转概率；根据所述第一最优识别路径的跳转概率和所述第一语音数据包的时长得到第一语音语速。14. 根据权利要求12所述的语音识别装置，其特征在于，第二数量确定模块具体用于：将第一语音语速和标准语音语速的比值与所述第一数量作乘积的结果，作为第二数量。15. 根据权利要求12所述的语音识别装置，其特征在于，第二特征向量提取模块具体用于：根据所述第二数量和第一数量调整所述第一帧移，得到第二帧移；根据所述第二帧移，从所述第二语音数据包提取第二语音特征向量，以使得所述第二语音特征向量的数量为第二数量。16. 根据权利要求12所述的语音识别装置，其特征在于，第二特征向量提取模块具体用于：从所述第二语音数据包中提取第一数量的第二语音特征向量；在相邻的第二语音特征向量之间插入特定数量的第二语音特征向量，将所述第二语音特征向量的数量调整为第二数量。17. 根据权利要求12所述的语音识别装置，其特征在于，语音识别装置还包括插入惩罚模块，具体用于：在有第一识别子结果为新词的首个词素时，在所述第一识别子结果的参考概率值上更新预设的插入惩罚概率值，作为新的参考概率值。
【文档编号】G10L15/14GK105989839SQ201510298789
【公开日】2016年10月5日
【申请日】2015年6月3日
【发明人】王育军
【申请人】乐视致新电子科技（天津）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王育军;
技术所有人：乐视致新电子科技（天津）有限公司;
我是此专利的发明人

上一篇：自然语言语音服务环境中的混合处理的系统及方法
上一篇：语音识别方法及装置的制造方法