语音识别方法、装置、电子设备和存储介质与流程

文档序号:33472022发布日期:2023-03-15 08:47阅读:90来源:国知局
技术简介:
本专利针对语音识别中语义合理性不足及训练成本高的问题,提出一体化框架解决方案。通过结合语音识别模块提取声学特征与识别结果采样特征,并利用文本纠错模块进行多任务联合训练,无需额外平行语料即可优化模型性能,显著降低训练成本,提升识别结果的语义准确性。
关键词:语音识别纠错,一体化框架

1.本发明涉及人工智能技术领域,尤其涉及一种语音识别方法、装置、电子设备和存储介质。


背景技术:

2.语音识别技术作为人机交互的重要接口之一,给用户带来了更加便捷的体验,降低了人与机器的交互门槛。
3.在语音识别方案中,一般以识别字的错误率作为约束准则进行训练优化,或者后接纠错模块对识别结果进行二次优化。此处的纠错模块虽然可以利用语言模型的约束,实现语音识别结果的合理性优化,但是以语音识别的多候选结果作为输入的纠错模块,存在自由度过高的问题,容易受语言模型的统计概率影响纠错结果偏离用户的原始表达。


技术实现要素:

4.本发明提供一种语音识别方法,用以解决现有技术中语音识别纠错自由度高、容易偏离原始表达的缺陷。
5.本发明提供一种语音识别方法,包括:
6.获取待识别语音;
7.基于一体化框架中的语音识别模块,对所述待识别语音进行语音识别,得到所述待识别语音的声学特征和识别结果采样特征;
8.基于所述一体化框架中的纠错模块,应用所述声学特征和所述识别结果采样特征进行文本纠错,得到所述待识别语音的语音识别结果;
9.所述一体化框架是基于样本语音,以及所述样本语音的标签文本训练得到的。
10.根据本发明提供的一种语音识别方法,所述一体化框架的训练步骤包括:
11.基于初始化框架中的初始识别模块,对所述样本语音进行语音识别,得到样本声学特征、样本识别结果采样特征和初步识别结果;
12.基于所述初始化框架中的初始纠错模块,应用所述样本声学特征和所述样本识别结果采样特征进行文本纠错,得到样本识别结果;
13.基于所述初步识别结果、所述样本识别结果,以及所述样本语音的标签文本,确定第一损失值;
14.基于所述第一损失值,对所述初始化框架进行参数迭代,得到所述一体化框架。
15.根据本发明提供的一种语音识别方法,所述基于所述初步识别结果、所述样本识别结果,以及所述样本语音的标签文本,确定第一损失值,包括:
16.基于所述初始纠错模块,对掩码文本进行文本纠错,得到纠错文本,所述掩码文本是对样本文本进行掩码得到;
17.基于所述纠错文本和所述样本文本,确定对齐损失值;
18.基于所述初步识别结果、所述样本识别结果,以及所述样本语音的标签文本,确定
识别损失值;
19.基于所述识别损失值和所述对齐损失值,确定所述第一损失值。
20.根据本发明提供的一种语音识别方法,所述基于所述第一损失值,对所述初始化框架进行参数迭代,得到所述一体化框架,包括:
21.对所述样本识别结果进行下游任务分析,得到所述样本识别结果对应下游任务的分析结果;所述下游任务包括语法评价任务、意图分类任务和翻译任务中的至少一个;
22.基于所述分析结果,以及所述标签文本的下游任务标签,确定第二损失值;
23.基于所述第一损失值和所述第二损失值,对所述初始化框架进行参数迭代,得到所述一体化框架。
24.根据本发明提供的一种语音识别方法,在所述下游任务包括所述语法评价任务的情况下,所述对所述样本识别结果进行下游任务分析,得到所述样本识别结果对应下游任务的分析结果,包括:
25.对所述样本识别文本中的各分词进行词性识别,和/或,对所述样本识别文本进行句法结构识别,得到所述样本识别结果对应所述语法评价任务的分析结果。
26.根据本发明提供的一种语音识别方法,在所述样本语音为短语型数据的情况下,所述下游任务包括语法评价任务和意图分类任务;
27.在所述样本语音为长语型数据的情况下,所述下游任务包括语法评价任务和翻译任务。
28.根据本发明提供的一种语音识别方法,所述基于一体化框架中的语音识别模块,对所述待识别语音进行语音识别,得到所述待识别语音的声学特征和识别结果采样特征,包括:
29.基于所述语音识别模块中的多尺度编码模块,对所述待识别语音进行声学编码,得到包括浅层隐层输出和深层隐层输出的多尺度的声学特征;
30.基于所述语音识别模块中的解码模块,对所述声学特征进行语义解码,并对语义解码中生成的隐层特征进行采样,得到所述识别结果采样特征。
31.根据本发明提供的一种语音识别方法,所述基于所述一体化框架中的纠错模块,应用所述声学特征和所述识别结果采样特征进行文本纠错,得到所述待识别语音的语音识别结果,包括:
32.基于所述一体化框架中的融合模块,应用所述声学特征和所述识别结果采样特征之间的相关性,对所述声学特征和所述识别结果采样特征进行特征融合,得到融合特征;
33.基于所述纠错模块,应用所述融合特征进行文本纠错,得到所述待识别语音的语音识别结果。
34.本发明还提供一种语音识别装置,包括:
35.获取单元,用于获取待识别语音;
36.识别单元,用于基于一体化框架中的语音识别模块,对所述待识别语音进行语音识别,得到所述待识别语音的声学特征和识别结果采样特征;
37.纠错单元,用于基于所述一体化框架中的纠错模块,应用所述声学特征和所述识别结果采样特征进行文本纠错,得到所述待识别语音的语音识别结果;
38.所述一体化框架是基于样本语音,以及所述样本语音的标签文本训练得到的。
39.本发明还提供一种电子设备,包括麦克风、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述麦克风用于采集待识别语音,所述处理器执行所述计算机程序中的一体化框架以实现所述待识别语音的语音识别,所述一体化框架包括语音识别模块和纠错模块,所述语音识别模块用于获取所述待识别语音的声学特征和识别结果采样特征,所述纠错模块用于应用所述声学特征和所述识别结果采样特征进行文本纠错,以获取所述待识别语音的语音识别结果;所述一体化框架是基于样本语音,以及所述样本语音的标签文本训练得到的。
40.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
41.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
42.本发明提供的语音识别方法、装置、电子设备和存储介质,在一体化框架下将语音识别所产生的待识别语音的声学特征和识别结果采样特征作为文本纠错的依据,使得经由语音识别和文本纠错得到的语音识别结果具备更强的语义合理性;并且,在一体化框架下对语音识别任务和文本纠错任务进行联合训练,也无需额外获取携带声学特征的平行语料,降低了训练成本。
附图说明
43.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
44.图1是本发明提供的语音识别方法的流程示意图;
45.图2是本发明提供的一体化框架的训练方法的流程示意图之一;
46.图3是本发明提供的一体化框架的训练方法中步骤240的流程示意图;
47.图4是本发明提供的一体化框架的训练方法的流程示意图之二;
48.图5是本发明提供的语音识别装置的结构示意图;
49.图6是本发明提供的电子设备的结构示意图。
具体实施方式
50.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.在语音识别方案中,一般在语音识别模块后接入纠错模块,对识别结果进行二次优化。在实际应用各种,以语音识别的多候选结果作为输入的纠错模块,缺少声学信息的约束,存在自由度过高的问题,容易受语言模型的统计概率影响纠错结果偏离用户的原始表达。
52.而如果单纯在纠错模块的输入中增加语音识别过程中提取的声学信息,则需要更
多的平行语料配合纠错模块的训练,额外的语料使用较为困难,容易导致纠错模块的空间受限。
53.针对上述问题,本发明实施例提供一种语音识别方法。图1是本发明提供的语音识别方法的流程示意图,如图1所示,该方法包括:
54.步骤110,获取待识别语音。
55.具体地,待识别语音可以包括需要进行语音识别的语音,待识别语音可以通过拾音设备得到,此处拾音设备可以是智能手机、平板电脑,还可以是智能电器例如音响、电视和空调等,拾音设备在经过麦克风阵列拾音得到待识别语音后,还可以对待识别语音进行放大和/或降噪等,本发明实施例对此不作具体限定。
56.步骤120,基于一体化框架中的语音识别模块,对所述待识别语音进行语音识别,得到所述待识别语音的声学特征和识别结果采样特征;
57.步骤130,基于所述一体化框架中的纠错模块,应用所述声学特征和所述识别结果采样特征进行文本纠错,得到所述待识别语音的语音识别结果;
58.所述一体化框架是基于样本语音,以及所述样本语音的标签文本训练得到的。
59.可以理解的是,相关技术中,语音识别任务和文本纠错任务相互独立,因此需要将语音识别任务产生的多候选结果作为文本纠错任务的输入,而由于文本纠错任务无法得到待识别语音本身在声学层面上的特征,过高的自由度会使得文本纠错任务输出的纠错结果容易偏离用户原始表达。而如果直接在待识别语音的声学信息加入文本纠错任务的输入,那么在针对文本纠错任务的独立训练中,还需要额外增加更多的平行语料。
60.针对这一问题,本发明实施例中建立了包含了语音识别和纠错的一体化框架。在一体化框架中,将语音识别模块输出的待识别语音的声学特征和识别结果采样特征作为纠错模块的输入,使得纠错模块能够在纠错过程中参考到待识别语音的声学特征,以避免纠错结果的偏离。并且,一体化架构中,语音识别模块和纠错模块是联合进行优化的,因此无需因为纠错模块增加了声学特征作为输入而额外获取携带声学特征的平行语料,降低了训练成本。
61.具体在步骤120执行之前,可以先通过训练获取一体化框架。具体可以首先构建初始化框架,此处的初始化框架中可以包括初始识别模块和初始纠错模块,其中的初始识别模块可以是参数初始化后预备用于语音识别的模型,也可以是预先训练好的具备语音识别功能的模型;初始纠错模块可以是参数初始化后预备用于文本纠错的模型,也可以是预先训练好的具备文本纠错功能的语言模型,本发明实施例对此不作具体限定。
62.此外,还可以收集样本语音及其标签文本,例如可以收集样本语音,并通过人工标注获取样本语音对应的标签文本,又例如可以先收集标签文本,再通过人工录制或者语音合成等方式获取标签文本所对应的样本语音。
63.随后,即可将样本语音作为初始化框架的输入,由初始化框架中的初始识别模块对样本语音进行语音识别,得到样本语音的声学特征和识别结果采样特征,再由初始化框架中的初始纠错模块应用样本语音的声学特征和识别结果采样特征进行文本纠错,得到初始化框架输出的针对样本语音的识别结果,即样本识别结果。在得到样本识别结果之后,即可基于样本识别结果与样本语音的标签文本之间的差异,计算损失函数,并基于损失函数对初始化框架整体进行参数迭代,从而得到一体化框架。即,在一体化框架的训练过程中,
仅需要通常训练语音识别模型所需的样本语音和标签文本即可得到良好的效果。
64.由此得到的一体化框架,在实际应用中,可以通过一体化框架中的语音识别模块,对待识别语音进行语音识别,在此过程中,语音识别模块具体先针对待识别语音进行声学特征的提取,再基于提取得到的声学特征进行解码,以获取识别结果以及识别结果采样特征。
65.此处的声学特征可以是对待识别语音进行分帧加窗后,通过快速傅里叶变换fft(fast fourier transform)提取的待识别语音中每一帧的声学特征,例如梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)特征或感知线性预测(perceptual linear predictive,plp)特征等,也可以是在mfcc、plp等特征的基础上作进一步地特征编码操作得到的反映局部和/或全局的声学信息的隐层特征,此处所指的声学特征可以是单一尺度的特征,也可以是多尺度融合的特征,本发明实施例对此不作具体限定。
66.识别结果采样特征用于反映基于语音识别模块所得的待识别语音的识别结果的特征,识别结果采样特征可以是针对识别结果进行采样编码得到的,也可以是针对能够表征识别结果的隐层特征进行采样得到的,本发明实施例对此不作具体限定。
67.在通过语音识别模块得到待识别语音的声学特征和识别结果采样特征之后,即可通过一体化框架中的纠错模块,应用声学特征和识别结果采样特征进行文本纠错,由此得到经过纠错之后具有更强的语义合理性的语音识别结果。可以理解的是,相较于传统的文本纠错任务,本发明实施例中的纠错模块还参考了待识别语音的声学特征,在声学特征的限制下,基于语义的文本纠错能够更加贴合待识别语音的原意,从而强化了语音识别的语义合理性。
68.本发明实施例提供的方法,在一体化框架下将语音识别所产生的待识别语音的声学特征和识别结果采样特征作为文本纠错的依据,使得经由语音识别和文本纠错得到的语音识别结果具备更强的语义合理性;并且,在一体化框架下对语音识别任务和文本纠错任务进行联合训练,也无需额外获取携带声学特征的平行语料,降低了训练成本。
69.基于上述实施例,图2是本发明提供的一体化框架的训练方法的流程示意图之一,如图2所示,一体化框架的训练步骤包括:
70.步骤210,基于初始化框架中的初始识别模块,对所述样本语音进行语音识别,得到样本声学特征、样本识别结果采样特征和初步识别结果。
71.步骤220,基于所述初始化框架中的初始纠错模块,应用所述样本声学特征和所述样本识别结果采样特征进行文本纠错,得到样本识别结果。
72.具体地,初始化框架中可以包括初始识别模块和初始纠错模块,其中的初始识别模块可以是参数初始化后预备用于语音识别的模型,也可以是预先训练好的具备语音识别功能的模型;初始纠错模块可以是参数初始化后预备用于文本纠错的模型,也可以是预先训练好的具备文本纠错功能的语言模型,本发明实施例对此不作具体限定。
73.作为优选,初始识别模块可以是应用样本文本及其标签文本进行初始化训练得到的;初始纠错模块可以是应用全量文本数据进行初始化训练得到的,此次针对初始纠错模型的初始化训练,可以以掩码语言模型任务和纠错任务为目标,例如先进行掩码语音模型任务训练,再在掩码语音模型任务训练所得模型的基础上,进行纠错任务微调。
74.在确定初始化框架,以及样本语音及其标签文本之后,即可针对初始化框架开展
训练。具体可将样本语音作为初始化框架的输入,由初始化框架中的初始识别模块对样本语音进行语音识别,得到样本语音的声学特征、识别结果采样特征和初步识别结果,此处,为了便于表述,将样本语音的声学特征和识别结果采样特征分别记为样本声学特征和样本识别结果采样特征。可以理解的是,初步识别结果是初始识别模型输出的识别结果,即,初始识别结果为文本形式,初始识别结果采样特征可以是针对初始识别结果进行特征采样得到的,也可以是针对用于获取初始识别结果的隐层特征进行特征采样得到的。例如,可以通过gumbel softmax对用于获取初始识别结果的隐层特征进行采样,得到初始识别结果采样特征。
75.随后,再由初始化框架中的初始纠错模块应用样本语音的声学特征和识别结果采样特征进行文本纠错,得到初始化框架输出的针对样本语音的识别结果,即样本识别结果。
76.步骤230,基于所述初步识别结果、所述样本识别结果,以及所述样本语音的标签文本,确定第一损失值。
77.具体地,基于步骤210所得的初步识别结果和基于步骤220所得的样本识别结果,均可以理解为初始化框架对样本语音进行语音识别所得的结果,可以分别将初步识别结果和样本识别结果,与样本语音的标签文本进行比较,从而基于初步识别结果与标签文本之间的差异,以及样本识别结果与标签文本之间的差异,确定初始化框架在进行语音识别和文本纠错中产生的损失值,即第一损失值。
78.步骤240,基于所述第一损失值,对所述初始化框架进行参数迭代,得到所述一体化框架。
79.具体地,在计算得到第一损失值之后,可以将第一损失值作为对初始化框架进行参数迭代所需的损失值,进行参数迭代,由此得到经由参数迭代后的初始化框架,即一体化框架。
80.本发明实施例提供的方法,在联合训练过程中,参考了初始化框架的中间结果,即初步识别结果,以及初始化框架的最终输出,即样本识别结果,由此进行参数迭代所得的一体化框架更加关注语音识别和文本纠错的整体性,基于一体化框架实现的语音识别,也可以具备更强的语义合理性。
81.相关技术中,纠错模型多将文本作为输入,而在本发明实施例中,纠错模块则以声学特征和识别结果采样特征作为输入。考虑到初始化框架中的初始纠错模块可以是以文本作为输入的预训练的语言模型,为了拉起以文本作为输入的特征表达以及以声学特征和识别结果采样特征作为输入的特征表达,从而实现特征空间上的对齐,基于上述任一实施例,步骤230具体包括:
82.基于所述初始纠错模块,对掩码文本进行文本纠错,得到纠错文本,所述掩码文本是对样本文本进行掩码得到;
83.基于所述纠错文本和所述样本文本,确定对齐损失值;
84.基于所述初步识别结果、所述样本识别结果,以及所述样本语音的标签文本,确定识别损失值;
85.基于所述识别损失值和所述对齐损失值,确定所述第一损失值。
86.具体地,在应用样本语音及其标签文本对初始化框架进行参数迭代的过程中,还可以额外补充平行文本对,即样本文本及其掩码文本,将掩码文本作为初始纠错模块的输
入,将样本文本作为初始纠错模块对掩码文本进行纠错所得纠错文本的目标,通过计算样本文本和纠错文本之间的差异,得到对齐损失值。
87.可以理解的是,基于初步识别结果、样本识别结果和标签文本所确定的识别损失值,以及,基于样本文本和纠错文本所确定的对齐损失值,均可以用于初始化框架中初始纠错模块的参数迭代,并且,应用识别损失值对初始纠错模块进行参数迭代,和应用对齐损失值对初始纠错模块进行参数迭代,此两者交替进行。
88.即,在得到识别损失值和对齐损失值后,可由此确定第一损失值,并基于第一损失值进行参数迭代。在此过程中,基于第一损失值中的识别损失值和对齐损失值对于初始纠错模块进行交替训练,同为初始纠错模块输入的声学特征、识别结果采样特征,以及文本的特征空间能够被拉齐,由此构建语音与文本的统一空间表达,使得基于语言模型构建的初始纠错模块能够适应以声学特征和识别结果采样特征作为输入的纠错任务。
89.基于上述任一实施例,第一损失值的确定,可以表示为如下公式:
90.l
p
=l
asr
+βl
cor
+γl
mlm
91.式中,l
p
为第一损失值,l
asr
为基于初步识别结果和标签文本确定的识别损失值,l
cor
为基于样本识别结果和标签文本确定的识别损失值,l
mlm
为对齐损失值;β和γ表示用来平衡上述各类损失的平衡系数。
92.其中,l
asr
=max
θ
∑ilog p(yi|x;θ);
93.式中,x表示作为输入的样本语音,θ表示初始识别模块训练参数,yi表示标签文本的第i个字。
94.其中,
95.式中,h
l
表示初始识别模块输出的浅层隐层特征,hh表示初始识别模块输出的深层隐层特征,h
l
和hh组成样本声学特征,表示初始识别模块经过gumbel softmax的采样输出,即样本识别结果采样特征,θ表示初始识别模块的训练参数,表示初始纠错模块的训练参数,yi表示标签文本的第i个字。
96.其中,
97.式中,表示经过mask的文本输入,即掩码文本,表示初始纠错模块的训练参数,yj表示mask部分对应的解码结果输出,即样本文本中被遮盖的部分。
98.在语音识别方案中,一般以识别字的错误率作为约束准则进行训练优化,或者后接以标注字的错误率为约束准则训练得到的纠错模块对识别结果进行二次优化。而无论是上述哪种方案,都仅仅关注于字错误率的约束,缺乏对于语音识别下游应用的场景可理解度,导致语音识别结果在下游应用中的表现并不理想。针对这一问题,本发明实施例引入了多任务评价体系进行一体化框架训练。
99.基于上述任一实施例,图3是本发明提供的一体化框架的训练方法中步骤240的流程示意图,如图3所示,步骤240包括:
100.步骤241,对所述样本识别结果进行下游任务分析,得到所述样本识别结果对应下游任务的分析结果;所述下游任务包括语法评价任务、意图分类任务和翻译任务中的至少一个;
101.步骤242,基于所述分析结果,以及所述标签文本的下游任务标签,确定第二损失
值;
102.步骤243,基于所述第一损失值和所述第二损失值,对所述初始化框架进行参数迭代,得到所述一体化框架。
103.具体地,在针对初始化框架进行参数迭代时,不仅可以依据表示初始化框架在进行语音识别和文本纠错中产生损失的第一损失值,还可以结合能够反映初始化框架输出的样本识别结果在下游任务中的合理性的第二损失值。
104.此处,第二损失值的确定,可以基于步骤241和步骤242得到。具体在步骤241中,可以针对初始化框架输出的样本识别结果进行下游任务分析,可以理解的,不同的下游任务,对应不同的下游任务分析方式,例如语法评价任务,用于评价文本在语法上的合理性,针对语法评价任务的分析,可以是对样本识别结果中的每个分词进行词性识别,还可以是对样本识别结果进行句法结构识别;意图分类任务,用于分析文本中涵盖的意图,针对意图分类任务的分析,可以是对样本识别结果进行意图分类;翻译任务,用于进行文本翻译,针对翻译任务的分析,可以是对样本识别结果进行文本翻译。
105.可以理解的是,如果初始化框架的语音识别效果能够适应下游任务,则具体表现在样本识别结果上,体现为样本识别结果所对应下游任务的分析结果,与标签文本的下游任务标签相近甚至一致。此处,标签文本的下游任务标签,即针对标签文本进行下游任务分析所得的结果。例如,在意图分类任务下,样本识别结果的意图分类结果与标签文本的意图分类结果越相近,则初始化框架越能适应意图分类任务,在意图分类任务下的场景可理解度越强。
106.基于此,在步骤240中,可以通过比对分析结果和下游任务标签之间的差异,以确定第二损失值。
107.随后,即可基于第一损失值和第二损失值,对初始化框架进行参数迭代,例如可以对第一损失值和第二损失值进行加权求和,基于加权求和所得的损失值进行参数迭代。
108.本发明实施例提供的方法,通过比对下游任务的分析结果与标签文本的下游任务标签,确定第二损失值用于参数迭代,使得初始化框架在参数迭代中可以更好地适应下游任务,由此得到的一体化框架所输出的语音识别结果,具备更强的下游任务的场景可理解度,能够在下游应用中得到更优的效果。
109.基于上述任一实施例,在所述下游任务包括所述语法评价任务的情况下,步骤241包括:
110.对所述样本识别文本中的各分词进行词性识别,和/或,对所述样本识别文本进行句法结构识别,得到所述样本识别结果对应所述语法评价任务的分析结果。
111.具体地,针对下游任务中包含语法评价任务的情况,针对于语法评价任务的下游任务分析,具体可以包括词性识别和/或句法结构识别。即,针对于样本识别结果的语法评价,一则可以比对样本识别结果中的各分词的词性与标签文本中各分词的词性是否一致,二则可以比对样本识别结果的句法结构与标签文本的句法结构是否一致。此处,句法结构具体可以包括文本内各分词之间的依存关系,及其存在依存关系的分词的在文本中的位置编码。词性识别和句法结构识别均可以通过通用的自然语言处理工具得到,此处不作赘述。
112.基于上述任一实施例,在所述下游任务包括所述语法评价任务的情况下,步骤242中的第二损失值包括语法评价任务损失值,语法评价任务损失值可基于词性损失值和/或
句法结构损失值确定,例如可以是词性损失值或句法结构损失值,也可以是词性损失值和句法结构损失值的加权之和,本发明实施例对此不作具体限定。
113.此处,词性损失值l
pos
和句法结构损失值l
dp
可以表示为如下公式:
[0114][0115][0116]
其中,y

emb
表示样本声学特征、样本识别结果采样特征融合所得的特征,或者表示掩膜文本的编码特征;表示初始纠错模块的训练参数;y
pi
表示对应的词性识别结果输出的标签,即标签文本的下游任务标签中的词性标签,y
arc
、y
head
表示对应的句法结构识别结果输出的标签,即标签文本的下游任务标签中的句法结构标签,包括依存句法关系的关系和位置信息解码结果。
[0117]
基于上述任一实施例,在所述下游任务包括所述意图分类任务的情况下,步骤241包括:
[0118]
对所述样本识别文本进行意图分类,得到所述样本识别结果对应所述意图分类任务的分析结果,即意图分类结果。
[0119]
相应地,步骤242中的第二损失值包括意图分类任务损失值,意图分类任务损失值l
int
可以表示为如下公式:
[0120][0121]
其中,y

emb
表示样本声学特征、样本识别结果采样特征融合所得的特征,或者表示掩膜文本的编码特征,表示初始纠错模块的训练参数,y
int
表示对应意图分类结果输出的标签,即标签文本的下游任务标签中的意图标签。
[0122]
基于上述任一实施例,在所述下游任务包括所述翻译任务的情况下,步骤241包括:
[0123]
对所述样本识别文本进行文本翻译,得到所述样本识别结果对应所述翻译任务的分析结果,即翻译文本。
[0124]
相应地,步骤242中的第二损失值包括翻译任务损失值,翻译任务损失值l
trs
可以表示为如下公式:
[0125][0126]
其中,y

emb
表示样本声学特征、样本识别结果采样特征融合所得的特征,或者表示掩膜文本的编码特征,表示初始纠错模块的训练参数,表示翻译任务的训练参数,来自于已有的文本翻译任务参数,训练时不更新,y
trs
表示文本所对应的翻译目标的标签,即标签文本的下游任务标签中的翻译标签。
[0127]
基于上述任一实施例,针对于不同类型的样本语音,在训练时所应用的下游任务也不相同。
[0128]
其中,语法评价任务是针对于全量样本语音而言的,也就是无论是何种类型的样
本语音,均可将语法评价任务作为一体化框架训练的下游任务;
[0129]
意图分类任务多数应用在人机交互场景下,例如用于电子设备的语音控制,考虑到控制指令多数为短句,意图分类任务多针对短语型数据而言。即,针对属于短语型数据的样本语音,可以将意图分类任务作为一体化框架训练的下游任务;
[0130]
翻译任务多应用在会议场景、音视频展示等场景下,用于翻译的多数是长句或者成段成篇幅的文本,因此翻译任务多针对长语型数据而言。即,针对属于长语型数据的样本语音,可以将翻译任务作为一体化框架训练的下游任务。
[0131]
可以理解的是,长语型数据和短语型数据是相对而言的,其中短语型数据相较于长语型数据的语音时长更短,所涵盖的信息更少。
[0132]
基于上述任一实施例,步骤120包括:
[0133]
基于所述语音识别模块中的多尺度编码模块,对所述待识别语音进行声学编码,得到包括浅层隐层输出和深层隐层输出的多尺度的声学特征;
[0134]
基于所述语音识别模块中的解码模块,对所述声学特征进行语义解码,并对语义解码中生成的隐层特征进行采样,得到所述识别结果采样特征。
[0135]
具体地,一体化框架中,语音识别模块具体为编码器+解码器结构,语音识别模块中可以包括顺次连接的多尺度编码模块和解码模块,其中多尺度编码模块用于对输入的待识别语音进行声学特征编码,并且为了丰富声学特征的多样化表达,此处的声学特征编码是多尺度的,具体可以获取更加关注局部声学信息的浅层隐层输出,再针对浅层隐层输出作进一步特征提取,以获取更加关注全局声学信息的深层隐层输出。本发明实施例中,可以将浅层隐层输出和深层隐层输出作为声学特征,从而为纠错模块进行文本纠错提供更加丰富且多样化的声学信息。
[0136]
在多尺度编码模块完成声学特征编码之后,解码模块即可对编码所得的声学特征进行语义解码,在语义解码过程中产生的隐层特征本身即可以反映最终得到的语音识别结果的特征,因此可以通过对隐层特征进行特征采样,以获取识别结果采样特征。
[0137]
本发明实施例提供的方法,在一体化框架中,为纠错模块的运行提供了更加丰富多样化的多尺度的声学特征,为一体化框架输出更加合理的语音识别结果提供了条件。
[0138]
基于上述任一实施例,步骤130包括:
[0139]
基于所述一体化框架中的融合模块,应用所述声学特征和所述识别结果采样特征之间的相关性,对所述声学特征和所述识别结果采样特征进行特征融合,得到融合特征;
[0140]
基于所述纠错模块,应用所述融合特征进行文本纠错,得到所述待识别语音的语音识别结果。
[0141]
具体地,一体化框架中,还可以在语音识别模块和纠错模块之间,增设融合模块。融合模块用于对语音识别模块输出的声学特征和识别结果采样特征进行特征融合,得到与常规的文本特征属于相同特征空间的融合特征,从而使得纠错模块能够直接应用融合特征进行文本纠错。
[0142]
进一步地,融合模块在对声学特征和识别结果采样特征进行特征融合时,可以参考声学特征和识别结果采样特征之间的相关度,由此确定声学特征和识别结果采样特征在进行特征融合时的权重,从而基于权重进行加权融合。例如,可以利用交叉注意力机制对声学特征和识别结果采样特征进行特征融合。
[0143]
基于上述任一实施例,图4是本发明提供的一体化框架的训练方法的流程示意图之二,如图4所示,一体化框架可以基于包括初始识别模块和初始纠错模块的初始化框架训练得到。
[0144]
其中,初始化纠错模块可以是利用全量的文本数据进行初始化训练得到的,此处的文本数据,可以包括与音频数据相匹配的文本语料,也可以包括额外引入的纯文本语料,为了匹配纠错任务,可以对文本数据进行构建,以获取需要纠错的文本,例如可以通过替换错误、删除错误、插入错误等形式,模拟语音识别常见的错误类型。此处,替换错误,即对句子中随机筛选部分字或者词进行同音或近音字或者词替换;删除错误,即对句子中随机挑选部分字或者词进行删除;插入错误,即对句子中随机挑选部分字或词插入新字或者词。
[0145]
在此之后,即可进行初始化纠错模块的初始化训练。在此过程中,可以先采用全量的原始文本数据进行语言模型的训练,训练方式采用已有的掩码语言模型训练方式;然后基于构造的纠错文本数据,进行语言模型微调,语言模型微调的目标函数可以采用已知的连接时序分类算法(connectionist temporal classification,ctc)进行非自回归的训练,从而能够获得一个符合下游纠错任务的文本信息特征的初始化纠错模块。
[0146]
此外,初始化识别模块也可以通过语音识别初始化得到的,此处的初始化可以利用相匹配的语音和文本实现,例如可以采用ctc进行训练得到。
[0147]
在得到初始化框架之后,即可针对初始化识别模块和初始化纠错模块进行联合训练。在此过程中,初始化识别模块对样本语音进行识别所得的样本声学特征、样本识别结果采样特征可以在经过特征融合后,作为初始化纠错模块的输入。
[0148]
针对初始化框架中初始识别模块输出的初步识别结果,可以与样本语音的标签文本比对,以生成针对语音识别任务的语音识别损失值l
asr
;针对初始化框架中初始纠错模块输出的样本识别结果,可以与样本语音的标签文本比对,以生成针对语音纠错任务的文本纠错损失值l
cor

[0149]
另外,为了拉齐特征融合所得的融合特征与纯文本输入的特征,还可以额外补充平行文本对,即样本文本及其掩码文本,将掩码文本作为初始纠错模块的输入,将样本文本作为初始纠错模块对掩码文本进行纠错所得纠错文本的目标,通过计算样本文本和纠错文本之间的差异,得到以掩码语言模型为目标的对齐损失值l
mlm
。并且,针对初始纠错模块而言,应用文本纠错损失值和对齐损失值进行参数迭代,是交替进行的。
[0150]
此处,对语音识别损失值l
asr
、文本纠错损失值l
cor
和对齐损失值l
mlm
进行加权,可以得到第一损失值。
[0151]
另外,针对初始化框架输出的样本识别结果和纠错文本,可以引入意图分类目标、语法评价目标以及翻译目标中的至少一种以实现下游任务对于语音识别的约束。具体可以将样本识别结果和纠错文本进行下游任务分析所得的分析结果,与标签文本和样本文本的下游任务标签进行比对,从而得到包括,词性损失值l
pos
、句法结构损失值l
dp
、意图分类任务损失值l
int
、翻译任务损失值l
trs
中至少一种在内的第二损失值。
[0152]
在得到第一损失值和第二损失值之后,即可基于此两者对初始化框架进行参数迭代,以获取一体化框架。
[0153]
本发明实施例提供的方法,在一体化框架下对语音识别任务和文本纠错任务进行联合训练,也无需额外获取携带声学特征的平行语料,降低了训练成本。在联合训练过程
中,参考了初始化框架的中间结果,即初步识别结果,以及初始化框架的最终输出,即样本识别结果,由此进行参数迭代所得的一体化框架更加关注语音识别和文本纠错的整体性,基于一体化框架实现的语音识别,也可以具备更强的语义合理性。
[0154]
并且,基于第一损失值中的识别损失值和对齐损失值对于初始纠错模块进行交替训练,同为初始纠错模块输入的声学特征、识别结果采样特征,以及文本的特征空间能够被拉齐,由此构建语音与文本的统一空间表达,使得基于语言模型构建的初始纠错模块能够适应以声学特征和识别结果采样特征作为输入的纠错任务。
[0155]
再者,通过比对下游任务的分析结果与标签文本的下游任务标签,确定第二损失值用于参数迭代,使得初始化框架在参数迭代中可以更好地适应下游任务,由此得到的一体化框架所输出的语音识别结果,具备更强的下游任务的场景可理解度,能够在下游应用中得到更优的效果。
[0156]
基于上述任一实施例,图5是本发明提供的语音识别装置的结构示意图,如图5所示,该装置包括:
[0157]
获取单元510,用于获取待识别语音;
[0158]
识别单元520,用于基于一体化框架中的语音识别模块,对所述待识别语音进行语音识别,得到所述待识别语音的声学特征和识别结果采样特征;
[0159]
纠错单元530,用于基于所述一体化框架中的纠错模块,应用所述声学特征和所述识别结果采样特征进行文本纠错,得到所述待识别语音的语音识别结果;
[0160]
所述一体化框架是基于样本语音,以及所述样本语音的标签文本训练得到的。
[0161]
本发明实施例提供的装置,在一体化框架下将语音识别所产生的待识别语音的声学特征和识别结果采样特征作为文本纠错的依据,使得经由语音识别和文本纠错得到的语音识别结果具备更强的语义合理性;并且,在一体化框架下对语音识别任务和文本纠错任务进行联合训练,也无需额外获取携带声学特征的平行语料,降低了训练成本。
[0162]
基于上述任一实施例,该装置还包括训练单元,用于:
[0163]
基于初始化框架中的初始识别模块,对所述样本语音进行语音识别,得到样本声学特征、样本识别结果采样特征和初步识别结果;
[0164]
基于所述初始化框架中的初始纠错模块,应用所述样本声学特征和所述样本识别结果采样特征进行文本纠错,得到样本识别结果;
[0165]
基于所述初步识别结果、所述样本识别结果,以及所述样本语音的标签文本,确定第一损失值;
[0166]
基于所述第一损失值,对所述初始化框架进行参数迭代,得到所述一体化框架。
[0167]
基于上述任一实施例,训练单元具体用于:
[0168]
基于所述初始纠错模块,对掩码文本进行文本纠错,得到纠错文本,所述掩码文本是对样本文本进行掩码得到;
[0169]
基于所述纠错文本和所述样本文本,确定对齐损失值;
[0170]
基于所述初步识别结果、所述样本识别结果,以及所述样本语音的标签文本,确定识别损失值;
[0171]
基于所述识别损失值和所述对齐损失值,确定所述第一损失值。
[0172]
基于上述任一实施例,训练单元具体用于:
[0173]
对所述样本识别结果进行下游任务分析,得到所述样本识别结果对应下游任务的分析结果;所述下游任务包括语法评价任务、意图分类任务和翻译任务中的至少一个;
[0174]
基于所述分析结果,以及所述标签文本的下游任务标签,确定第二损失值;
[0175]
基于所述第一损失值和所述第二损失值,对所述初始化框架进行参数迭代,得到所述一体化框架。
[0176]
基于上述任一实施例,训练单元具体用于:
[0177]
对所述样本识别文本中的各分词进行词性识别,和/或,对所述样本识别文本进行句法结构识别,得到所述样本识别结果对应所述语法评价任务的分析结果。
[0178]
基于上述任一实施例,在所述样本语音为短语型数据的情况下,所述下游任务包括语法评价任务和意图分类任务;
[0179]
在所述样本语音为长语型数据的情况下,所述下游任务包括语法评价任务和翻译任务。
[0180]
基于上述任一实施例,识别单元520具体用于:
[0181]
基于所述语音识别模块中的多尺度编码模块,对所述待识别语音进行声学编码,得到包括浅层隐层输出和深层隐层输出的多尺度的声学特征;
[0182]
基于所述语音识别模块中的解码模块,对所述声学特征进行语义解码,并对语义解码中生成的隐层特征进行采样,得到所述识别结果采样特征。
[0183]
基于上述任一实施例,纠错单元530具体用于:
[0184]
基于所述一体化框架中的融合模块,应用所述声学特征和所述识别结果采样特征之间的相关性,对所述声学特征和所述识别结果采样特征进行特征融合,得到融合特征;
[0185]
基于所述纠错模块,应用所述融合特征进行文本纠错,得到所述待识别语音的语音识别结果。
[0186]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communications interface)620、存储器(memory)630、通信总线640和麦克风650,其中,处理器610,通信接口620,存储器630、麦克风650通过通信总线640完成相互间的通信。其中,麦克风650可以采集待识别语音,并通过通信总线640将待识别语音传输至处理器610,处理器610可以调用存储器630中的逻辑指令,通过一体化框架以实现所述待识别语音的语音识别,所述一体化框架包括语音识别模块和纠错模块,所述语音识别模块用于获取所述待识别语音的声学特征和识别结果采样特征,所述纠错模块用于应用所述声学特征和所述识别结果采样特征进行文本纠错,以获取所述待识别语音的语音识别结果;所述一体化框架是基于样本语音,以及所述样本语音的标签文本训练得到的。
[0187]
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0188]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语音识别方法,该方法包括:获取待识别语音;基于一体化框架中的语音识别模块,对所述待识别语音进行语音识别,得到所述待识别语音的声学特征和识别结果采样特征;基于所述一体化框架中的纠错模块,应用所述声学特征和所述识别结果采样特征进行文本纠错,得到所述待识别语音的语音识别结果;所述一体化框架是基于样本语音,以及所述样本语音的标签文本训练得到的。
[0189]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语音识别方法,该方法包括:获取待识别语音;基于一体化框架中的语音识别模块,对所述待识别语音进行语音识别,得到所述待识别语音的声学特征和识别结果采样特征;基于所述一体化框架中的纠错模块,应用所述声学特征和所述识别结果采样特征进行文本纠错,得到所述待识别语音的语音识别结果;所述一体化框架是基于样本语音,以及所述样本语音的标签文本训练得到的。
[0190]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0191]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0192]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!