语音处理方法和电子设备与流程

文档序号:32391750发布日期:2022-11-30 08:33阅读:54来源:国知局
语音处理方法和电子设备与流程

1.本技术属于语音识别技术领域,尤其涉及一种语音处理方法和电子设备。


背景技术:

2.端到端语音识别,是指使用深度神经网络直接根据语音特征向量序列得到文字序列的过程。
3.目前,主流的、效果较好的端到端语音识别一般采用2-pass(即,两遍解码)模块设计,其通过一遍解码处理得到在线流式的一遍解码结果,通过二遍解码处理对一遍解码结果包含的n-best信息(即所对应概率属于topn的n个文本结果)进行重打分/重排序来改善语音识别性能。
4.n-best解码算法感受野较小,使得提供给二遍解码过程的n-best信息所对应的实际有效识别结果变少,导致一遍解码结果在二遍解码中提升不高,从而影响最终的语音识别性能。传统技术通过提升n值,来保证送入二遍解码的n-best信息包含更多不同的有效识别结果,然而,n越大,解码速度越慢,解码越复杂,会导致解码效率的大幅下降。


技术实现要素:

5.为此,本技术公开如下技术方案:
6.一种语音处理方法,所述方法包括:
7.获得待识别语音当前的待识别目标语音块;
8.识别所述目标语音块对应的文本信息,得到语音块识别结果;
9.基于所述语音块识别结果,确定所述待识别语音从起始语音块至所述目标语音块构成的当前子块对应的第一子块识别结果;
10.对所述第一子块识别结果中对应于不同识别路径的相同文本序列进行合并处理;所述合并处理能够提升所述相同文本序列在所对应的多条识别路径中匹配于任一识别路径的识别概率;
11.基于合并处理结果确定所述当前子块的第二子块识别结果,基于所述第二子块识别结果确定所述待识别语音的文本识别结果。
12.可选的,所述基于所述语音块识别结果,确定所述待识别语音从起始语音块至所述目标语音块构成的当前子块对应的第一子块识别结果,包括:
13.将所述语音块识别结果包括的多个文本信息,与所述目标语音块在所述待识别语音中前序语音块对应的前序识别结果包括的多个不同前序文本序列,分别进行拼接处理,得到所述当前子块对应的多个文本序列,以确定所述第一子块识别结果。
14.可选的,所述基于所述语音块识别结果,确定所述待识别语音从起始语音块至所述目标语音块构成的当前子块对应的第一子块识别结果,还包括:
15.对当前拼接的文本信息和前序文本序列分别对应的识别概率进行融合,将融合概率作为拼接得到的文本序列的识别概率;以基于所述当前子块对应的多个文本序列及多个
文本序列分别对应的识别概率确定所述当前子块的第一子块识别结果;
16.其中,目标语音块的前序文本序列对应的识别概率为:在目标语音块的各前序语音块对应的识别路径上每完成对一个语音块的识别,将当前完成识别的该语音块对应的文本信息的识别概率与该语音块当前对应的前序文本序列的识别概率进行融合,直至完成融合所述目标语音块的上一相邻语音块的识别概率所得的融合结果。
17.可选的,所述将所述语音块识别结果包括的多个文本信息,与所述目标语音块在所述待识别语音中前序语音块对应的前序识别结果包括的多个不同前序文本序列,分别进行拼接处理,包括:
18.确定所述语音块识别结果中对应的识别概率属于识别概率降序序列中前n的多个文本信息;
19.将所述前n的多个文本信息中的每一文本信息,分别单独拼接至所述目标语音块的所述多个不同前序文本序列的尾部。
20.可选的,所述语音块识别结果包括文本识别空间中各个文本信息与相应识别概率的对应关系,所述对应关系中的识别概率包括:所述目标语音块在对应的前置条件下分别匹配于所述文本识别空间中各个文本信息的条件概率;所述文本识别空间包括语音识别模型提供的用于语音识别的多个不同文本信息;
21.所述目标语音块对应的前置条件包括:以所述目标语音块在所述待识别语音中对应的各个前序语音块的语音块识别结果为已知条件;
22.所述对当前拼接的文本信息和前序文本序列分别对应的识别概率进行融合,包括:对当前拼接的文本信息的条件概率和前序文本序列的识别概率进行融合。
23.可选的,所述对所述第一子块识别结果中对应于不同识别路径的相同文本序列进行合并处理,包括:
24.确定所述第一子块识别结果中是否存在对应于不同识别路径的相同文本序列;
25.若存在,对所述相同文本序列分别匹配于所述不同识别路径的识别概率进行融合,将融合概率作为所述相同文本序列的识别概率。
26.可选的,所述基于合并处理结果确定所述当前子块的第二子块识别结果,基于所述第二子块识别结果确定所述待识别语音的文本识别结果,包括:
27.基于所述合并处理结果,确定所述当前子块对应的识别概率属于识别概率降序序列中前n的多个文本序列,作为所述当前子块的第二子块识别结果;
28.将所述前n的多个文本序列及对应的识别概率参与所述目标语音块的下一语音块的处理,直至完成所述待识别语音最后一个语音块的处理时,将最后一个语音块所对应子块的第二子块识别结果作为所述待识别语音的第一阶段识别结果;
29.根据所述第一阶段识别结果和所述待识别语音的语音特征,确定所述待识别语音的第二阶段识别结果;
30.根据所述第一阶段识别结果和第二阶段识别结果,确定所述待识别语音的文本识别结果。
31.可选的,所述识别所述目标语音块对应的文本信息,得到语音块识别结果,包括:
32.确定所述目标语音块的语音特征;
33.根据所述语音特征,识别所述目标语音块对应的文本信息,得到语音块识别结果。
34.可选的,所述语音特征包括所述目标语音块的声学特征和语言特征;
35.确定所述目标语音块的声学特征和语言特征的过程,包括:
36.利用语音识别模型的编码单元对所述目标语音块进行编码处理,编码处理所得的语音特征向量作为所述目标语音块的声学特征;
37.利用所述语音识别模型的第一解码单元中的预测单元根据所述目标语音块对应的语言信息进行预测处理,得到所述目标语音块的语言特征;
38.其中,所述目标语音块对应的语言信息,为从目标语音块所处的语言上下文环境中进行信息提取而得到的语言信息。
39.一种电子设备,包括:
40.存储器,用于至少存储一组计算机指令集;
41.处理器,用于通过调用并执行所述存储器中存储的所述指令集,实现如上文任一项所述的语音处理方法。
42.由以上方案可知,本技术公开的语音处理方法和电子设备,获得待识别语音当前的待识别目标语音块,识别目标语音块对应的文本信息,得到目标语音块的语音块识别结果,基于该语音块识别结果,确定待识别语音从起始语音块至目标语音块构成的当前子块对应的第一子块识别结果,并对第一子块识别结果包含的对应不同识别路径的相同文本序列进行合并处理,以及基于合并处理结果确定所述当前子块的第二子块识别结果,基于所述第二子块识别结果确定待识别语音的文本识别结果。
43.本技术通过对待识别语音的当前子块对应的第一子块识别结果中不同识别路径下的相同文本序列进行合并处理,并基于合并处理结果,确定当前子块的第二子块识别结果及此基础上的待识别语音的文本识别结果,能够避免因存在不同路径的相同文本识别结果而导致n-best解码算法感受野变小的现象,相应可在无需提升n值情况下,使n-best信息包含更多不同的有效识别结果,从而提升了解码效率,并保证了语音识别性能。
附图说明
44.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
45.图1是本技术提供的语音处理方法的流程示意图;
46.图2是本技术提供的语音解码模型的组成结构图;
47.图3是本技术提供的引入预测单元后语音解码模型的部分模型结构图;
48.图4是本技术提供的不同识别路径对应相同文本序列的一个示例;
49.图5是本技术提供的基于语音识别模型对语音执行一遍解码的解码流程;
50.图6是本技术提供的电子设备的组成结构图。
具体实施方式
51.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于
本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
52.本技术实施例公开一种语音处理方法和电子设备,适用于流式或非流式语音识别场景,用于在不提升n-best解码算法的n值前提下,改善流式或非流式语音识别场景下解码算法的感受野较小的问题,以提升解码效率,并保证语音识别性能。本技术的语音处理方法,可以但不限于应用于众多通用或专用的计算装置环境或配置下的电子设备,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置等等。
53.参见图1提供的语音处理方法流程图,本技术实施例提供的语音处理方法包括以下处理过程:
54.步骤101、获得待识别语音当前的待识别目标语音块。
55.待识别语音,可以是指流式或非流式语音识别场景中的完整语音句/语音段,或者还可以是对完整语音句/语音段进行分割所得的片段,不作限制。待识别语音的语音块,则可以为待识别语音如待识别语音句/语音段的一个语音帧或多个连续语音帧。
56.语音识别场景中,可根据实际识别进度,不断向语音识别模型输入待识别语音当前待识别的目标语音块,由语音识别模型对不断输入的目标语音块进行识别处理。
57.可选的,本技术实施例采用基于2-pass(即,两遍解码)模块设计的语音识别模型进行语音识别,也就是说,语音识别过程中的解码阶段包括两遍解码处理,相应的,语音识别模型包括一个编码单元与两个解码单元:第一解码单元和第二解码单元。
58.语音识别模型的组成结构如图2所示,其中shared encoder表示编码单元,其可以被两个解码单元共享使用,因此也可称为共享编码单元或共享编码器;first-pass decoder表示第一解码单元,也可称为一遍解码单元或一遍解码器,用于执行语音的一遍解码处理,得到一遍解码结果,如得到在线流式的一遍解码结果,second-pass decoder表示第二解码单元,也可称为二遍解码单元或二遍解码器,负责执行语音的二遍解码处理,具体通过对first-pass decoder所输出的一遍解码结果中的n-best(即所对应概率属于topn的n个文本结果,n为大于1的整数)进行重打分来改善语音识别性能,score merge表示分值融合单元,用于将一遍解码结果中的n-best文本的识别概率与二遍解码结果中的n-best文本的识别概率进行融合处理,以得到待识别语音的最终识别结果。
59.基于语音识别模型的上述组成结构,该步骤101具体可在语音识别模型的编码单元如共享编码器shared encoder,获得所输入的待识别语音的待识别目标语音块。
60.步骤102、识别所述目标语音块对应的文本信息,得到语音块识别结果。
61.获得目标语音块后,可确定目标语音块的语音特征,根据包含的语音特征,识别目标语音块对应的文本信息,相应得到目标语音块的语音块识别结果。需要说明的是,这里的文本信息,可以包括中文文本、其他语言的文本以及字符信息等。
62.目标语音块的语音特征,至少包括目标语音块的声学特征。
63.可选的,具体可利用语音识别模型的编码单元对目标语音块进行编码处理,并将编码所得的语音特征向量作为目标语音块的声学特征,对于图2所示的模型结构而言,则可利用该模型的共享编码器shared encoder对输入的目标语音块进行编码处理,得到目标语音块的声学特征。
64.在其他实施方式中,除了包括声学特征,目标语音块的语音特征还可以包括语言
特征,以通过联合语音的声学特征和语言特征,提升语音识别的准确性。
65.目标语音块的语言特征,可通过对目标语音块所对应的语言信息进行处理得到。目标语音块所对应的语言信息,可以从目标语音块所处的语言上下文环境中进行信息提取而得到。
66.示例性的,具体可将目标语音块在待识别语音中对应的各前序语音块作为目标语音块的上下文信息,并可基于各前序语音块代表的上下文信息来获得目标语音块所对应的语言信息。该情况下,可选的,目标语音块对应的语言信息为空或可以为其(目标语音块)上一相邻的识别出文本信息的语音块对应的语音块识别结果。其中,在目标语音块为待识别语音的第一个语音块,或目标语音块在待识别语音中对应的各前序语音块均未识别出文本信息的情况下,目标语音块对应的语言信息为空,当目标语音块在待识别语音中对应的前序语音块识别出文本信息的情况下,目标语音块对应的语言信息,则为其上一相邻的识别出文本信息的语音块对应的语音块识别结果,具体可以为该上一相邻的识别出文本信息的语音块对应的识别结果中的n-best信息。
67.可选的,本技术在语音识别模型的第一解码单元中引入预测单元,通过利用引入的预测单元对目标语音块所对应的语言信息进行预测处理,来预测目标语音块在语言层面的特征,相应得到目标语音块的语言特征。
68.参见图3,进一步示出了引入预测单元后语音识别模型的部分组成结构,其中,encoder表示模型的编码单元即共享编码器,用于对输入的语音块进行编码处理,以得到语音块的声学特征,其余部分即predictor、net、softmax为第一解码单元的组成部分,共同构成一遍解码器,predictor表示引入的预测单元,net和softmax分别表示一遍解码器的解码网络和归一化单元,预测单元predictor负责对当前待识别语音块的语言信息进行处理,以得到当前待识别语音块的语言特征,便于后续联合声学特征和语言特征进行语音解码。
69.在确定出目标语音块的语音特征后,可将确定出的语音特征送入第一解码单元的解码网络进行解码处理,通过解码处理,实现根据目标语音块的语音特征识别目标语音块对应的文本信息。
70.其中,如果确定出的语音特征包括目标语音块的声学特征,将目标语音块的声学特征,也即编码单元对目标语音块进行编码得到的语音特征向量,输送至第一解码单元的解码网络进行解码处理。
71.如果确定出的语音特征包括目标语音块的声学特征和语言特征,则将目标语音块的声学和语言两方面特征,送入第一解码单元的解码网络,以便解码网络联合声学特征和语言特征进行语音解码。
72.如图3所示,假设目标语音块为语音块x
t
,即待识别语音的第t个语音块,编码单元encoder(也即共享编码器)在对x
t
进行编码处理后,将得到的特征向量作为x
t
的声学特征输入第一解码单元的first-pass decoder的解码网络net,预测单元predictor在对x
t
对应的语言信息y
u-1
进行预测处理后,将预测结果作为语音块x
t
的语言特征输入第一解码单元的first-pass decoder的解码网络net,在引入预测单元predictor后解码网络net相应成为联合网络即joint net,负责联合语音块x
t
的声学特征和语言特征实现对语音块x
t
的解码,以识别得到语音块x
t
在模型的文本识别空间中各个不同文本信息下分
别对应的识别概率,在图3中表示为z
t,u
,softmax为归一化单元,用于将语音块在文本识别空间中各个不同文本信息下分别对应的概率映射至[0,1]范围内,得到softmax的输出,即图3中的p(yu|x
1:t
,y
1:u-1
)。
[0073]
上述的文本识别空间,包括语音识别模型提供的用于语音识别的多个不同文本信息,如多个不同的关键字、关键词等。
[0074]
本步骤中,根据目标语音块的语音特征,对目标语音块进行识别所得的语音块识别结果,即为通过第一解码单元对目标语音块的语音特征进行上述解码处理后所得的结果,该结果具体可以为图3中joint net输出的语音块解码结果或进一步经softmax归一化处理后输出的结果,不作限制。
[0075]
目标语音块对应的语音块识别结果,具体包括文本识别空间中各个文本信息与相应识别概率的对应关系,可选的,所述对应关系中的识别概率包括:目标语音块在对应的前置条件下分别匹配于所述文本识别空间中各个文本信息的条件概率;进一步,目标语音块对应的前置条件包括:以目标语音块在待识别语音中对应的各个前序语音块的语音块识别结果为已知条件。
[0076]
其中,目标语音块对应的语音块识别结果,允许为空,具体体现为上述对应关系中的各个概率为空,表示对于目标语音块,未能识别出有效的文本信息(例如,目标语音块为一句话中不同语音的间隙对应的语音帧的情况)。
[0077]
以图3中针对语音块输出的p(yu|x
1:t
,y
1:u-1
)为例,p(yu|x
1:t
,y
1:u-1
)则具体可以为空,在非空情况下则表示语音块x
t
在其各前序语音块构成的条件下的条件概率,具体表示在已知待识别语音的前t-1个语音块和前u-1个识别出文本信息的语音块的识别概率构成的这一已知条件下,x
t
在语音识别模型的文本识别空间包含的各文本信息(如各关键字/词)下分别对应的条件概率。容易理解,前t-1个语音块中所述u-1个语音块之外的语音块,为未能识别出文本信息的语音块(如,一句话中不同语音的间隙对应的语音帧),其对应的语音块识别结果相应为空。
[0078]
步骤103、基于所述语音块识别结果,确定所述待识别语音从起始语音块至目标语音块构成的当前子块对应的第一子块识别结果。
[0079]
其中,上述第一子块识别结果包括:当前子块对应于不同识别路径的文本序列及各文本序列分别对应的识别概率。
[0080]
所述的文本序列具体可以为文本串,如针对“wo ai zu guo”对应的语音流这一待识别语音,以及“zu”对应的待识别语音块,该当前子块对应的多个文本序列中的一个文本序列可以为文本串“我爱祖”。
[0081]
在得到目标语音块的语音块识别结果后,可根据目标语音块的语音块识别结果,与其在待识别语音中的前序语音块对应的前序识别结果,处理得到待识别语音从起始语音块至目标语音块构成的当前子块对应的第一子块识别结果,该过程包括文本拼接与概率融合两方面的处理,具体可实现为:
[0082]
11)将目标语音块的语音块识别结果包括的多个文本信息,与目标语音块在待识别语音中前序语音块对应的前序识别结果包括的多个不同前序文本序列,分别进行拼接处理,得到所述当前子块对应的多个文本序列,以确定所述第一子块识别结果。
[0083]
其中,具体可对目标语音块的语音块识别结果进行剪枝,从中确定出对应的识别
概率属于识别概率降序序列中前n的多个文本信息,并将该前n的多个文本信息中的每一文本信息,分别单独拼接至目标语音块在待识别语音中前序语音块对应的前序识别结果包括的每一前序文本序列的尾部,拼接所得的各文本序列即为当前子块对应的文本序列。
[0084]
对于n-best解码算法来说,基于目标语音块的前序语音块识别出的前序文本序列,通过剪枝,同样保留有其对应的n-best结果,即保留目标语音块的所有前序文本序列中识别概率属于topn的前序文本序列。
[0085]
相应可将目标语音块的语音块识别结果中的n-best文本信息,一一单独拼接到目标语音块的n-best前序文本序列中的每一序列尾部,共得到n*n个拼接结果。
[0086]
以“wo ai zu guo”对应的语音流为待识别语音为例,假设当前待识别的目标语音块为“zu”所对应语音帧,并假设其对应的语音块识别结果中的n-best为6-best(即,n=6)文本信息,那么需将该6-best信息中的每个文本信息,分别单独拼接到已识别出的“wo ai”语音流对应的6-best前序文本序列中,共得到36种拼接结果,如其中的一个拼接结果可以为“我爱祖”。
[0087]
12)对当前拼接的文本信息和前序文本序列分别对应的识别概率进行融合,将融合概率作为拼接得到的文本序列的识别概率。
[0088]
同时,还将目标语音块的文本信息对应的条件概率,和与该文本信息进行拼接的前序文本序列对应的识别概率进行融合,所得的融合概率即作为当前子块的识别概率。其中,该融合处理可以但不限于为将两者分别对应的概率进行相乘运算。
[0089]
当前子块对应的各文本序列及各文本序列分别对应的识别概率,即构成当前子块对应的第一子块识别结果。
[0090]
其中,目标语音块的前序文本序列对应的识别概率为:在目标语音块的各前序语音块对应的识别路径上每完成对一个语音块的识别,将当前完成识别的该语音块对应的文本信息的识别概率与该语音块当前对应的前序文本序列的识别概率进行融合,直至完成融合所述目标语音块的上一相邻语音块的识别概率所得的融合结果。
[0091]
例如,在将目标语音块“zu”的n-best文本识别结果中的文本信息“祖”,与其前序语音块对应的前序文本序列“我爱”拼接成“我爱祖”时,同时将“祖”对应的条件概率与“我爱”对应的识别概率进行融合,并将融合概率作为当前子块“我爱祖”的识别概率。
[0092]
其中,对目标语音块对应的文本信息与相应前序文本序列的拼接过程,可在语音识别模型的第一解码单元的解码网络(如,图3中的joint net)实现,解码网络一方面对不断输入的语音块进行解码识别,另一方面,不断将识别出的文本信息与已识别得到的前序文本序列进行拼接处理。
[0093]
步骤104、对所述子块识别结果包含的对应不同识别路径的相同文本序列进行合并处理;所述合并处理能够提升所述相同文本序列在所对应的多条识别路径中匹配于任一识别路径的识别概率。
[0094]
传统技术中,会将完成最后一个语音块的文本信息拼接后所得的第一子块识别结果,作为待识别语音的一遍识别结果,并从中进行n-best信息(即一遍识别结果中识别概率属于前n的各个文本序列)筛选,以输入至二编解码单元进行二遍解码处理。
[0095]
申请人研究发现,一遍解码结果中的n-best信息中经常有相同的解码结果,只是对应的解码路径不同,导致会降低n-best解码算法的感受野,参见图4提供的示例,该示例
中,“team”所对应语音流即为待识别语音,“team”语音流中的每个语音帧为一个待识别语音块,如图4所示,同样表示“team”这一识别结果,却存在三条不同的解码路径(相同灰度的箭头属于同一路径),如果该识别结果即“team”属于一遍解码结果中的n-best,则会导致n-best中实际仅包含n-2个待选的文本结果,未达到n-best解码算法所要求的数量n,感受野较小,从而导致一遍解码结果在second-pass decoder中提升不高,影响最终的语音识别性能。
[0096]
针对上述情况,本技术实施例提出在每个时间步解码完成后,对该时间步对应的相同文本序列进行合并处理的技术思路,以此来改善n-best解码算法的感受野较小的问题。其中,每个时间步的解码处理,即指在一遍解码阶段对待识别语音的每个语音块的解码处理,每个语音块的解码,视为对应一个时间步。
[0097]
基于上述技术思路,在得到目标语音块的语音块识别结果后,则表示完成当前时间步的解码,相应可对当前时间步下当前子块的第一子块识别结果中的各文本序列进行合并处理。当前时间步下的当前子块,即为待识别语音从起始语音块至目标语音块构成的子块。
[0098]
上述合并处理的处理过程可实现为:
[0099]
确定当前子块的第一子块识别结果中是否存在对应于不同识别路径的相同文本序列,若存在,则对该相同文本序列分别匹配于不同识别路径下的识别概率进行融合,并将融合概率作为该相同文本序列的识别概率,反之,若不存在,则不融合。
[0100]
对相同文本序列分别匹配于不同识别路径下的识别概率进行融合,可以但不限于是,将相同文本序列分别匹配于不同识别路径下的识别概率进行求和,并将所得的概率和值作为该相同文本序列的识别概率。需要说明,实际应用中还可以采用其他融合算法,不作限制,例如,加权求和运算等,只要能使融合概率高于该相同文本序列在所对应的多条识别路径中匹配于任一路径的识别概率,均属于本技术实施例的保护范围。
[0101]
例如,结合参见图3,假设“team”语音流对应的topn识别结果中包含“team”这一文本序列,且该文本序列“team”对应有3条不同的识别路径,则可将“team”在3条不同识别路径分别对应的识别概率进行融合,如求和等,并将融合概率作为“team”最终的识别概率。
[0102]
步骤105、基于合并处理结果确定所述当前子块的第二子块识别结果,基于所述第二子块识别结果确定所述待识别语音的文本识别结果。
[0103]
之后,可继续基于合并处理结果,确定当前子块的第二子块识别结果,具体的,可确定当前子块对应的合并处理结果中识别概率属于识别概率降序序列中前n的多个文本序列,并作为当前子块的第二子块识别结果。
[0104]
后续,当前子块的第二子块识别结果,将参与目标语音块的下一语音块的处理,如与下一语音块的n-best文本信息进行拼接及概率融合,直至完成待识别语音最后一个语音块的处理时,将最后一个语音块所对应子块的第二子块识别结果作为待识别语音的第一阶段识别结果,该第一阶段识别结果也即为待识别语音的一遍解码结果。
[0105]
针对待识别语音,本技术在每一时间步完成解码后,即每得到一个语音块识别结果后,引入对当前时间步下子块的识别结果中不同路径相同文本序列的合并处理,能够使得基于合并处理基础上所得的n-best文本序列互不相同,从而保证了每一时间步的n-best解码的感受野,相应保证了最终输出的一遍解码结果的感受野。
[0106]
例如,针对“wo ai zu guo”这一待识别语音流,假设将其语音块“zu”所对应的6-best文本信息(如,“祖”、“足”、“组”、“租
”…
),与已识别出的“wo ai”语音流对应的6-best文本序列(如,“我爱”、“我挨
”…
)拼接后,得到36种拼接结果,且假设36种拼接结果的6-best文本序列中,存在一个文本序列对应3条识别路径,那么传统技术会导致该拼接结果的6-best输出中实际仅包含4种文本序列,未达到n-best解码算法所需的n的取值,即不足6,感受野较小,本技术则将不同路径下的相同文本序列进行合并,并基于合并结果进行6-best筛选,使得最终筛选出的6-best文本序列互不相同,能够补足所需的n的取值。
[0107]
在得到待识别语音的第一阶段识别结果后,进一步将第一阶段识别结果中的n-best,也即对应的识别概率属于topn的n个识别结果,输入语音识别模型的第二解码单元,同时将待识别语音的语音特征输入第二解码单元,由第二解码单元基于输入的信息执行对待识别语音的二遍解码处理,在二遍解码处理中,第二解码单元如二遍解码器具体根据待识别语音的语音特征对一遍解码结果中的n-best结果进行重打分/重排序处理。
[0108]
可选的,向第二解码单元输入的待识别语音的语音特征,可以是待识别语音的声学特征,例如,具体可以是语音识别模型的编码单元(如共享编码器)对待识别语音的语音块进行编码处理后所得的声学特征。
[0109]
最终,可结合第一阶段识别结果中n-best文本结果的识别概率,及第二阶段识别结果中重打分/排序后n-best文本结果的识别概率,确定待识别语音的n-best文本结果分别对应的最终识别概率,以便进行结果输出,如,基于最终识别概率,从n-best文本结果中筛选概率最高的识别结果(如筛选“wo ai zu guo”对应的最高概率识别结果“我爱祖国”)作为待识别语音的最优结果进行输出等。
[0110]
结合参见图2,具体可将一遍解码器输出结果中的n-best信息及二遍解码器输出的n-best信息,输送至分值融合单元score merge,由score merge融合两个解码器的n-best信息,得到待识别语音最终的n-best识别结果。
[0111]
由于在一遍解码阶段消除了不同路径下的相同文本序列,使得输送至二遍解码器的n-best信息中包含的n个文本识别结果(即n个文本序列)互不相同,从而无需通过提升n的取值来保证感受野,整个过程的解码速度更快,效率更高。
[0112]
综上,本技术方法通过对待识别语音的当前子块对应的第一子块识别结果中不同识别路径下的相同文本序列进行合并处理,并基于合并处理结果,确定当前子块的第二子块识别结果及此基础上的待识别语音的文本识别结果,能够避免因存在不同路径的相同文本识别结果而导致n-best解码算法感受野变小的现象,相应可在无需提升n值情况下,使n-best信息包含更多不同的有效识别结果,从而提升了解码效率,并保证了语音识别性能。
[0113]
为便于清楚的理解本技术方法中的一遍解码过程,以下提供一示例加以说明。
[0114]
本示例中,在对语音识别模型进行训练时可采用正常训练方式,即,模型训练阶段可以不在一遍解码过程中引入合并不同路径下相同文本的处理过程。但不限于此,也可以在训练阶段引入该合并处理。
[0115]
参见图5,该示例中,基于训练所得的语音识别模型,对语音进行一遍解码以实现语音识别的过程,包括:
[0116]
21)初始化predictor的状态;初始化当前令牌集。
[0117]
可选的,将predictor的状态及令牌集中的令牌信息均初始化为blank(空),也即,
初始时predictor的输入为blank,且令牌集中的令牌信息为空。令牌用于在待识别语音的语音识别过程中,记录与传递语音识别路径上的识别状态及predictor状态。
[0118]
其中,令牌集中记录的识别状态,包括在完成当前时间步的一遍解码后,该时间步的识别进度下,各识别路径对应的已识别文本序列的n-best识别结果,其中,一个令牌对应一条识别路径;令牌集中记录的predictor状态,则包括当前语音块上一相邻的识别出文本信息的语音块对应的n-best识别结果。
[0119]
22)检测encoder是否有输出,若“没有”则输出当前令牌集的n-best结果;若“有”则predictor根据令牌集内的predictor状态得到predictor的输出。
[0120]
encoder无输出,代表当前没有语音块被输入至encoder,相应代表当前已完成对待识别语音最后一个语音块的一遍解码,从而,可直接将当前令牌集记录的n-best结果作为待识别语音的一遍解码结果的n-best进行输出,后续(或归一化后)将被输送至二遍解码器进行二遍解码处理。
[0121]
反之,若encoder有输出,则代表当前仍有待识别语音的语音块需要处理,相应可根据令牌集内的predictor状态得到predictor的输出,以用于作为当前待识别语音块的语言特征。
[0122]
23)joint net根据predictor的输出和encoder的输出得到当前语音块的概率向量,并进行第一次剪枝。
[0123]
这里的剪枝,是指从当前语音块在模型文本识别空间下对应于各文本信息的识别结果中,筛选出识别概率属于topn的文本信息。
[0124]
24)将下一个时刻令牌集设为空列表。
[0125]
25)遍历当前令牌集:对遍历到的每个令牌执行两个操作:
[0126]
a、此令牌的概率(具体指该令牌中记录的当前已识别出的文本序列的识别概率)乘概率向量中blank概率,作为新令牌添加到下一个时刻令牌集中;
[0127]
b、遍历第一次剪枝后的概率向量:将第一次剪枝后的概率向量中的每一概率(条件概率)对应的文本信息拼接到此令牌对应的文本序列之后,并将两者的概率相乘,作为新令牌添加到下一个时刻令牌集中。
[0128]
26)将下一时刻令牌集中的相同文本序列的令牌合并,概率相加。
[0129]
27)剪枝下一时刻令牌集并设为当前令牌集。继续检测encoder是否有输出。
[0130]
这里的剪枝,是指在合并相同文本序列的概率基础上,基于合并结果进行的n-best文本序列筛选。
[0131]
本技术实施例还公开一种电子设备,其组成结构,如图6所示,至少包括:
[0132]
存储器10,用于存放计算机指令集;
[0133]
计算机指令集可以通过计算机程序的形式实现。
[0134]
处理器20,用于通过执行计算机指令集,实现如上文任一方法实施例公开的语音处理方法。
[0135]
处理器20可以为中央处理器(central processing unit,cpu),特定应用集成电路(application-specific integrated circuit,asic),数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件等。
[0136]
电子设备具备显示装置和/或具备显示接口、能外接显示装置。
[0137]
可选的,电子设备还包括摄像头组件,和/或连接有外置摄像头组件。
[0138]
除此之外,电子设备还可以包括通信接口、通信总线等组成部分。存储器、处理器和通信接口通过通信总线完成相互间的通信。
[0139]
通信接口用于电子设备与其他设备之间的通信。通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等,该通信总线可以分为地址总线、数据总线、控制总线等。
[0140]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0141]
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0142]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0143]
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0144]
以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1