一种语音识别方法及装置

文档序号:33619836发布日期:2023-03-25 10:59阅读:51来源:国知局
一种语音识别方法及装置

1.本技术涉及语音识别技术领域,特别涉及一种语音识别方法及装置。


背景技术:

2.在当今信息爆炸的时代,互联网和电话信道中无时无刻不在产生海量语音数据,为了更加高效地对大规模语音信号进行识别,自动语音识别(automatic speech recognition,asr)的需求变得更加的迫切。其中,端到端语音识别模型通过建模编码端(encoder)和解码端(decoder),把声学模型、发音字典和语音模型全部融合在一套神经网络中,让模型变得简洁的同时也更便于对模型参数直接优化,通用性强,颇受业界青睐。
3.目前,一般通过有标注的语音数据对端到端语音识别模型进行训练,但是,有标注的语音数据通常是在特定场景下采集的真实数据,获取难度大,导致端到端语音识别模型的训练数据量少,导致端到端语音识别模型得不到充分训练,影响语音识别的准确度。


技术实现要素:

4.本技术提供如下技术方案:
5.本技术一方面提供一种语音识别方法,包括:
6.获取待识别音频,从所述待识别音频中提取声学特征;
7.将所述声学特征输入预先训练的端到端语音识别模型,得到所述端到端语音识别模型获得的语音识别文本,所述端到端语音识别模型为基于第一合成音频、第二合成音频和真实音频训练得到的;
8.其中,所述第一合成音频为对表征所述真实音频的标注文本进行合成得到的,所述第二合成音频为对不同于所述标注文本的训练文本进行合成得到的。
9.可选的,所述端到端语音识别模型通过以下方式训练得到:
10.获取真实音频和表征所述真实音频的标注文本;
11.对所述标注文本进行语音合成,得到第一合成音频;
12.将所述真实音频输入到端到端语音识别模型,得到所述端到端语音识别模型的编码端获得的第一输出特征和解码端获得的第一语义识别文本;
13.将所述第一合成音频输入到所述端到端语音识别模型,得到所述端到端语音识别模型的编码端获得的第二输出特征;
14.确定第一损失函数值,所述第一损失函数值表征所述第一语音识别文本与所述标注文本之间的差异;
15.确定第二损失函数值,所述第二损失函数值表征所述第一输出特征和所述第二输出特征之间的差异;
16.基于所述第一损失函数值和所述第二损失函数值,确定第三损失函数值;
17.确定所述第三损失函数值是否收敛;
18.若收敛,从海量语料文本集中获取不同于所述标注文本的训练文本,对所述训练
文本进行语音合成,得到第二合成音频,利用所述第二合成音频对所述端到端语音识别模型进行微调训练;
19.若未收敛,更新所述端到端语音识别模型的参数,并返回执行所述对所述标注文本进行语音合成,得到第一合成音频的步骤。
20.可选的,所述确定第二损失函数值,包括:
21.基于第一损失函数关系式计算第二损失函数值;
22.其中,loss
kld
表示第二损失函数值,y是端到端语音识别模型的编码端对真实音频进行处理得到的第一输出特征,p(y)表示真实音频在编码端的输出概率分布,是所述编码端对所述第一合成音频进行处理得到的第二输出特征,表示所述第一合成音频在所述编码端的输出概率分布,n表示输出特征为n维向量,i表示特征当前的维数。
23.可选的,所述基于所述第一损失函数值和所述第二损失函数值,确定第三损失函数值,包括:
24.基于第一加权关系式loss=(1-λ)
·
loss
ed

·
loss
kld
,计算得到第三损失函数值;
25.其中,loss表示第三损失函数值,λ表示加权系数,loss
ed
表示第一损失函数值,loss
kld
表示第二损失函数值。
26.可选的,所述确定第二损失函数值,包括:
27.确定所述真实音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征;
28.确定所述第一合成音频中与所述特定语义特征对应的音频时间段内的平均输出特征;
29.基于第二损失函数关系式计算第二损失函数值;
30.其中,loss
kld

表示第二损失函数值,表示所述真实音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征,表示所述第一合成音频中与所述特定语义特征对应的音频时间段内的平均输出特征,表示在编码端的输出概率分布,表示在所述编码端的输出概率分布,n表示输出特征为n维向量,i表示特征当前的维数。
31.可选的,所述基于所述第一损失函数值和所述第二损失函数值,确定第三损失函数值,包括:
32.基于第二加权关系式loss=(1-λ)
·
loss
ed

·
loss
kld

,计算得到第三损失函数值;
33.其中,loss表示第三损失函数值,λ表示加权系数,loss
ed
表示第一损失函数值,loss
kld

表示第二损失函数值。
34.本技术另一方面提供一种语音识别装置,包括:
35.获取模块,用于获取待识别音频;
36.提取模块,用于从所述待识别音频中提取声学特征;
37.识别模块,用于将所述声学特征输入预先训练的端到端语音识别模型,得到所述端到端语音识别模型获得的语音识别文本,所述端到端语音识别模型为基于第一合成音频、第二合成音频和真实音频训练得到的;
38.其中,所述第一合成音频为对表征所述真实音频的标注文本进行合成得到的,所述第二合成音频为对不同于所述标注文本的训练文本进行合成得到的。
39.可选的,所述装置还包括:
40.训练模块,用于:
41.获取真实音频和表征所述真实音频的标注文本;
42.对所述标注文本进行语音合成,得到第一合成音频;
43.将所述真实音频输入到端到端语音识别模型,得到所述端到端语音识别模型的编码端获得的第一输出特征和解码端获得的第一语义识别文本;
44.将所述第一合成音频输入到所述端到端语音识别模型,得到所述端到端语音识别模型的编码端获得的第二输出特征;
45.确定第一损失函数值,所述第一损失函数值表征所述第一语音识别文本与所述标注文本之间的差异;
46.确定第二损失函数值,所述第二损失函数值表征所述第一输出特征和所述第二输出特征之间的差异;
47.基于所述第一损失函数值和所述第二损失函数值,确定第三损失函数值;
48.确定所述第三损失函数值是否收敛;
49.若收敛,从海量语料文本集中获取不同于所述标注文本的训练文本,对所述训练文本进行语音合成,得到第二合成音频,利用所述第二合成音频对所述端到端语音识别模型进行微调训练;
50.若未收敛,更新所述端到端语音识别模型的参数,并返回执行所述对所述标注文本进行语音合成,得到第一合成音频的步骤。
51.可选的,所述训练模块确定第二损失函数值的过程,具体包括:
52.基于第一损失函数关系式计算第二损失函数值;
53.其中,loss
kld
表示第二损失函数值,y是端到端语音识别模型的编码端对真实音频进行处理得到的第一输出特征,p(y)表示真实音频在编码端的输出概率分布,是所述编码端对所述第一合成音频进行处理得到的第二输出特征,表示所述第一合成音频在所述编码端的输出概率分布,n表示输出特征为n维向量,i表示特征当前的维数。
54.可选的,所述训练模块确定第二损失函数值的过程,具体包括:
55.确定所述真实音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征;
56.确定所述第一合成音频中与所述特定语义特征对应的音频时间段内的平均输出
特征;
57.基于第二损失函数关系式计算第二损失函数值;
58.其中,loss
kld

表示第二损失函数值,表示所述真实音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征,表示所述第一合成音频中与所述特定语义特征对应的音频时间段内的平均输出特征,表示在编码端的输出概率分布,表示在所述编码端的输出概率分布,n表示输出特征为n维向量,i表示特征当前的维数。
59.与现有技术相比,本技术的有益效果为:
60.在本技术中,端到端语音识别模型为基于第一合成音频、第二合成音频和真实音频训练得到的,所述第一合成音频为对表征所述真实音频的标注文本进行合成得到的,所述第二合成音频为对不同于所述标注文本的训练文本进行合成得到的,可以使端到端语音识别模型的训练数据更加丰富,保证端到端语音识别模型能够学习到缩小真实音频和合成音频之间的特征分布差异,提高端到端语音识别模型的精度。在此基础上,获取待识别音频,从待识别音频中提取声学特征,将声学特征输入预先训练的端到端语音识别模型,可以保证端到端语音识别模型获得的语音识别文本的准确度。
附图说明
61.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
62.图1是本技术实施例1提供的一种语音识别方法的流程示意图;
63.图2是现有端到端语音识别模型的encoder端的输出特征分布示意图;
64.图3是本技术提供的端到端语音识别模型的encoder端的输出特征分布示意图;
65.图4是本技术提供的一种语音识别装置的结构示意图。
具体实施方式
66.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
67.在端到端语音识别模型的训练数据量少的技术背景下,本领域技术人员在端到端语音识别模型上应用语言模型浅融合(language model shallow fusion)。首先,分别用有标注语音数据训练端到端语音识别模型(以下简记为ed)和海量文本语料训练语言模型(结构可以是n-gram、rnn、transformer等,以下简记为lm);解码时,对ed和lm模型输出的概率
得分进行加权,解码获得最终的输出
[0068][0069]
其中,λ为加权得分的权重,可以在目标领域的测试集上进行自适应;通过调节得分权重λ,控制额外融合的语言模型lm对最终输出的影响程度,从而利用海量文本数据。此外,在语言模型浅融合技术中,ed和lm模型是完全独立的,可以随意地更换lm模型而不影响到ed模型。例如,当模型升级(从n-gram到rnn,再到transformer等),或者目标领域切换(通过使用不同来源的文本语料进行lm模型训练),只需要适配一个新的λ即可。
[0070]
但是,在上述语言模型浅融合技术的应用中,所融合的语言模型训练时仅使用文本语料,可以利用海量文本进行模型更新;而端到端语音识别模型的训练则需要有标注的语音文本对,无法单独通过海量文本进行模型更新。在以往训练端到端语音识别模型的实践中,可以发现端到端的语音识别系统需要大量的有标注语音数据以驱动模型训练,尤其是encoder(编码)端的训练。而且,有标注语音数据通常是在特定场景下采集的真实数据,相比海量的文本语料,有标注语音数据获取难度较大,尤其在日渐发展的小语种语音识别领域。
[0071]
为了解决上述问题,可以运用语音合成(text-to-speech,tts)技术,通过海量文本语料,生成大量可训练的合成音频来增加端到端语音识别模型的训练数据;但是,在实际运用的过程中发现,合成音频与真实音频在端到端语音识别模型的encoder端上的输出概率分布有较大差异,这表明合成音频与真实音频存在明显的特征分布差异,容易导致训练后的模型偏离真实数据的特征分布,从而造成语音识别的效果变差。
[0072]
为了解决上述问题,本技术提供了一种语音识别方法,接下来对本技术提供的语音识别方法进行介绍。
[0073]
参照图1,为本技术实施例1提供的一种语音识别方法的流程示意图,如图1所示,该方法可以包括但并不局限于以下步骤:
[0074]
步骤s11、获取待识别音频。
[0075]
步骤s12、从所述待识别音频中提取声学特征。
[0076]
步骤s13、将所述声学特征输入预先训练的端到端语音识别模型,得到所述端到端语音识别模型获得的语音识别文本,所述端到端语音识别模型为基于第一合成音频、第二合成音频和真实音频训练得到的。
[0077]
其中,所述第一合成音频为对表征所述真实音频的标注文本进行合成得到的,所述第二合成音频为对不同于所述标注文本的训练文本进行合成得到的。
[0078]
本实施例中,所述端到端语音识别模型可以通过但不局限于以下方式训练得到:
[0079]
s121、获取真实音频和表征所述真实音频的标注文本。
[0080]
s122、对所述标注文本进行语音合成,得到第一合成音频。
[0081]
s123、将所述真实音频输入到端到端语音识别模型,得到所述端到端语音识别模型的编码端获得的第一输出特征和解码端获得的第一语义识别文本。
[0082]
s124、将所述第一合成音频输入到所述端到端语音识别模型,得到所述端到端语音识别模型的编码端获得的第二输出特征。
[0083]
s125、确定第一损失函数值,所述第一损失函数值表征所述第一语音识别文本与
所述标注文本之间的差异。
[0084]
本实施例中,可以利用现有端到端识别模型中的损失函数计算第一损失函数值,在此不再赘述。
[0085]
s126、确定第二损失函数值,所述第二损失函数值表征所述第一输出特征和所述第二输出特征之间的差异。
[0086]
本步骤可以包括但不局限于:
[0087]
s1261、基于第一损失函数关系式计算第二损失函数值;
[0088]
其中,loss
kld
表示第二损失函数值,y是端到端语音识别模型的编码端对真实音频进行处理得到的第一输出特征,p(y)表示真实音频在编码端的输出概率分布,是所述编码端对所述第一合成音频进行处理得到的第二输出特征,表示所述第一合成音频在所述编码端的输出概率分布,n表示输出特征为n维向量,i表示特征当前的维数。
[0089]
第一损失函数值可以表征端到端语音识别模型的编码端对真实音频进行处理得到的第一输出特征与编码端对第一合成音频进行处理得到的第二输出特征之间的kl散度(kullback-leibler divergence,kld)。
[0090]
当的分布与p(y)完全一致时,loss
kld
等于0;当的分布与p(y)有偏差时,loss
kld
大于0,而且分布偏差越大,loss
kld
越大。
[0091]
训练时,只要最小化整个训练损失函数loss,即可在原端到端模型基础上保证同一文本对应的合成音频与真实音频在encoder端的输出概率尽可能相似,从而使得充分训练后的端到端模型对合成音频的编码能力与真实音频一致,不会因为训练数据是合成音频而造成编码偏差,并且将偏差累加到后续decoder的训练。
[0092]
然而,考虑到即使是同一标注文本,合成音频与真实音频的语义信息在时间上的分布也不一定同步;对于这种情况,使用上述方案训练端到端模型,会因为合成音频与真实音频之间本身的时间不同步造成无法计算loss
kld
,使得训练策略失效。为了解决这一问题,本步骤提供另外一种确定第二损失函数值的实施方式,具体可以包括:
[0093]
s1262、确定所述真实音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征。
[0094]
本实施例中,可以但不局限于:基于均匀平均算法或加权平均算法(中心语音帧的特征值权重越大,越靠近时段端点的语音帧特征值权重越小)确定所述真实音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征。
[0095]
s1263、确定所述第一合成音频中与所述特定语义特征对应的音频时间段内的平均输出特征。
[0096]
本实施例中,可以但不局限于:基于均匀平均算法或加权平均算法(中心语音帧的特征值权重越大,越靠近时段端点的语音帧特征值权重越小)确定所述第一合成音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征。
[0097]
其中,真实音频中与标注文本中特定语义特征对应的音频时间段与第一合成音频中与特定语义特征对应的音频时间段内可能相同或不同。
[0098]
在中文语音识别中,特定语义特征可以定义为字或词。由于语音的短时平稳特性,每个特定语义特征也应当具有短时平稳性,也即可以使用平均输出特征代表音频的整个语义特征。
[0099]
s1264、基于第二损失函数关系式计算第二损失函数值;
[0100]
其中,loss
kld

表示第二损失函数值,表示所述真实音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征,表示所述第一合成音频中与所述特定语义特征对应的音频时间段内的平均输出特征,表示在编码端的输出概率分布,表示在所述编码端的输出概率分布,n表示输出特征为n维向量,i表示特征当前的维数。
[0101]
通过最小化第二损失函数关系式,即可使端到端语音识别模型的encoder端对合成音频也能获得良好的编码能力,且与相同语义的真实音频保持一致,极大提高了模型的泛化能力和鲁棒性。
[0102]
s127、基于所述第一损失函数值和所述第二损失函数值,确定第三损失函数值。
[0103]
对应步骤s1261,本步骤可以包括:
[0104]
s1271、基于第一加权关系式loss=(1-λ)
·
loss
ed

·
loss
kld
,计算得到第三损失函数值;
[0105]
其中,loss表示第三损失函数值,λ表示加权系数,loss
ed
表示第一损失函数值,loss
kld
表示第二损失函数值。
[0106]
对应步骤s1262,本步骤可以包括:
[0107]
s1272、基于第二加权关系式loss=(1-λ)
·
loss
ed

·
loss
kld

,计算得到第三损失函数值;
[0108]
其中,loss表示第三损失函数值,λ表示加权系数,loss
ed
表示第一损失函数值,loss
kld

表示第二损失函数值。
[0109]
s128、确定所述第三损失函数值是否收敛。
[0110]
若收敛,执行步骤s129;若未收敛,执行步骤s1210。
[0111]
s129、从海量语料文本集中获取不同于所述标注文本的训练文本,对所述训练文本进行语音合成,得到第二合成音频,利用所述第二合成音频对所述端到端语音识别模型进行微调训练。
[0112]
利用所述第二合成音频对所述端到端语音识别模型进行微调训练,可以包括:利用所述第二合成音频,采用比较小的学习率,对所述端到端语音识别模型的至少一部分参数进行迭代更新。
[0113]
s1210、更新所述端到端语音识别模型的参数,并返回执行所述对所述标注文本进行语音合成,得到第一合成音频的步骤。
[0114]
需要说明的是,返回执行步骤s122时,对标注文本进行语音合成得到的第一合成音频不同于上次得到的第一合成音频。
[0115]
本实施例中,通过执行步骤s121-s1210,可以使端到端语音识别模型的编码端学
习到缩小真实音频和合成音频之间的输出特征分布的差异。例如,仅采用第一合成音频和真实音频对端到端语音识别模型进行训练,encoder端的输出特征分布如图2所示,若采用步骤s121-s1210,encoder端的输出特征分布如图3所示,如图2所示,同一标注文本对应的第一合成音频和真实音频经过encoder端编码后的输出特征分布差异较大,如图3所示,同一标注文本对应的第一合成音频和真实音频经过encoder端编码后的输出特征分布差异较小,其中,y表示端到端语音识别模型的编码端对真实音频进行处理得到的第一输出特征,p(y)表示真实音频在编码端的输出概率分布,是所述编码端对所述第一合成音频进行处理得到的第二输出特征,表示所述第一合成音频在所述编码端的输出概率分布,x表示真实音频,表示第一合成音频。
[0116]
在本技术中,端到端语音识别模型为基于第一合成音频、第二合成音频和真实音频训练得到的,所述第一合成音频为对表征所述真实音频的标注文本进行合成得到的,所述第二合成音频为对不同于所述标注文本的训练文本进行合成得到的,可以使端到端语音识别模型的训练数据更加丰富,保证端到端语音识别模型能够学习到缩小真实音频和合成音频之间的特征分布差异,提高端到端语音识别模型的精度。在此基础上,获取待识别音频,从待识别音频中提取声学特征,将声学特征输入预先训练的端到端语音识别模型,可以保证端到端语音识别模型获得的语音识别文本的准确度。
[0117]
与上述本技术提供的一种语音识别方法实施例相对应的,本技术提供了一种语音识别装置。
[0118]
请参见图4,语音识别装置包括:训练模块100、获取模块200、提取模块300和识别模块400。
[0119]
训练模块100,用于:
[0120]
获取真实音频和表征所述真实音频的标注文本;
[0121]
对所述标注文本进行语音合成,得到第一合成音频;
[0122]
将所述真实音频输入到端到端语音识别模型,得到所述端到端语音识别模型的编码端获得的第一输出特征和解码端获得的第一语义识别文本;
[0123]
将所述第一合成音频输入到所述端到端语音识别模型,得到所述端到端语音识别模型的编码端获得的第二输出特征;
[0124]
确定第一损失函数值,所述第一损失函数值表征所述第一语音识别文本与所述标注文本之间的差异;
[0125]
确定第二损失函数值,所述第二损失函数值表征所述第一输出特征和所述第二输出特征之间的差异;
[0126]
基于所述第一损失函数值和所述第二损失函数值,确定第三损失函数值;
[0127]
确定所述第三损失函数值是否收敛;
[0128]
若收敛,从海量语料文本集中获取不同于所述标注文本的训练文本,对所述训练文本进行语音合成,得到第二合成音频,利用所述第二合成音频对所述端到端语音识别模型进行微调训练;
[0129]
若未收敛,更新所述端到端语音识别模型的参数,并返回执行所述对所述标注文本进行语音合成,得到第一合成音频的步骤。
[0130]
所述训练模块100确定第二损失函数值的过程,具体包括:
[0131]
基于第一损失函数关系式计算第二损失函数值;
[0132]
其中,loss
kld
表示第二损失函数值,y是端到端语音识别模型的编码端对真实音频进行处理得到的第一输出特征,p(y)表示真实音频在编码端的输出概率分布,是所述编码端对所述第一合成音频进行处理得到的第二输出特征,表示所述第一合成音频在所述编码端的输出概率分布,n表示输出特征为n维向量,i表示特征当前的维数。
[0133]
本实施例中,所述训练模块100基于所述第一损失函数值和所述第二损失函数值,确定第三损失函数值的过程,具体可以包括:
[0134]
基于第一加权关系式loss=(1-λ)
·
loss
ed

·
loss
kld
,计算得到第三损失函数值;
[0135]
其中,loss表示第三损失函数值,λ表示加权系数,loss
ed
表示第一损失函数值,loss
kld
表示第二损失函数值。
[0136]
所述训练模块100确定第二损失函数值的过程,具体可以包括:
[0137]
确定所述真实音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征;
[0138]
确定所述第一合成音频中与所述特定语义特征对应的音频时间段内的平均输出特征;
[0139]
基于第二损失函数关系式计算第二损失函数值;
[0140]
其中,loss
kld

表示第二损失函数值,表示所述真实音频中与所述标注文本中特定语义特征对应的音频时间段内的平均输出特征,表示所述第一合成音频中与所述特定语义特征对应的音频时间段内的平均输出特征,表示在编码端的输出概率分布,表示在所述编码端的输出概率分布,n表示输出特征为n维向量,i表示特征当前的维数。
[0141]
本实施例中,所述训练模块100基于所述第一损失函数值和所述第二损失函数值,确定第三损失函数值的过程,具体可以包括:
[0142]
基于第二加权关系式loss=(1-λ)
·
loss
ed

·
loss
kld

,计算得到第三损失函数值;
[0143]
其中,loss表示第三损失函数值,λ表示加权系数,loss
ed
表示第一损失函数值,loss
kld

表示第二损失函数值。
[0144]
获取模块200,用于获取待识别音频;
[0145]
提取模块300,用于从所述待识别音频中提取声学特征;
[0146]
识别模块400,用于将所述声学特征输入预先训练的端到端语音识别模型,得到所述端到端语音识别模型获得的语音识别文本,所述端到端语音识别模型为基于第一合成音频、第二合成音频和真实音频训练得到的;
[0147]
其中,所述第一合成音频为对表征所述真实音频的标注文本进行合成得到的,所述第二合成音频为对不同于所述标注文本的训练文本进行合成得到的。
[0148]
需要说明的是,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0149]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0150]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0151]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0152]
以上对本技术所提供的一种语音识别方法及装置进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1