一种端到端中文语音识别方法

文档序号：29746202发布日期：2022-04-21 21:54阅读：714来源：国知局

技术特征：
1.一种端到端中文语音识别方法，其特征在于，步骤如下：一、数据的预处理对于语音数据进行预加重、分帧、加窗，进行快速傅里叶变换，计算谱线能量，进行mel滤波，取对数得到fbank特征；将预处理后的数据分为训练集和验证集；二、建立基于conformer的混合ctc/attention模型基于conformer的混合ctc/attention模型包括三个部分：共享conformer编码器、ctc解码器和las注意力解码器；所述的共享conformer编码器首先使用卷积子采样层处理输入，将卷积子采样层处理后的数据输入到n个conformer编码器块中，每个conformer编码器块依次包括前馈模块、多头自注意力模块mhsa、卷积模块、前馈模块和层归一化，conformer编码器中每个模块后均设置一个残差单元，其中，前馈模块与多头自注意力模块之间、前馈模块与层归一化之间采用半步残差连接；所述的多头自注意力模块包括层归一化、集成相对正弦位置编码的多头自注意力和dropout；所述的卷积模块包含一个扩展因子为2的逐点卷积，通过glu激活层投影通道数，然后是一维深度卷积，一维深度卷积后接batchnorm和swish激活层；共享conformer编码器将输入的帧级别声学特征x＝(x1,...x
t
)映射到序列高级表示h＝(h1,h2,...,h
u
)；所述的las注意力解码器采用两层的单向lstm结构，且引入注意力机制；具体解码过程为：利用局部注意力来关注共享conformer编码器器输出的信息，利用lstm来解码出信息，在每个lstm的输出过程中，las注意力解码器将已经生成的文本(y1,y2,...,y
s-1
)联合共享conformer编码器输出特征h＝(h1,h2,...,h
u
)进行注意力解码，最终生成目标转录序列y＝(y1,y2,...,y
s
)，从而得到输出序列y的概率如下：在每个时间步t，通过注意力机制计算输出对编码器特征h的条件依赖；注意力机制是当前解码器隐藏状态和编码器输出特征的函数，通过以下机制将编码器特征压缩为上下文向量u
it
；其中h
i
为共享conformer编码器输出特征；向量b
a
，以及矩阵w
h
，w
d
都是经过学习得到的参数；d
t
表示解码器在时间步数t的隐藏状态；然后对u
it
进行softmax，得到attention分布：α
t
＝soft max(u
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)利用α
it
通过对h
i
加权求和得到相应的上下文向量：每一时刻，用于捕捉先前输出上下文的注意力解码器隐藏状态d
t
经以下方式得到：
其中d
t-1
是上一个隐藏状态，是通过y
t-1
学习得到的嵌入层向量；在t时刻，输出y
t
的后验概率如下：p(y
t
|h,y＜t)＝soft max(w
s
[c
t
；d
t
]+b
s
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中w
s
和b
s
可学习参数；所述的ctc解码器以共享conformer编码器输出特征h作为输入进行解码，经过softmax层之后，ctc解码器的输出为p(q
t
|h)，q
t
为t时刻的输出，则标签序列l为所有路径概率总和：式中:γ(q
t
)为标签序列的多对一的映射；因为同一个标签序列可能有多条路径与其对应，所以需要去掉路径中的重复的标签和空白标签；q
t
∈a,t＝1,2,...,t，a为加了空白标签
“‑”
的标签集合，输出序列中概率最大的标注序列l
*
为：l
*
＝arg
l
max p(l|h)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)ctc解码器的损失函数是所有标签的负对数概率和，可以通过反向传播训练ctc网络：ctc
loss
＝-log p(l|h)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)在ctc解码器训练中跳过中间层之后的所有层，加入中间层音素级别ctc损失，即interctc
loss
作为辅助任务诱导出一个子模型；通过获得ctc解码器的中间表示以计算子模型的损失，与ctc解码器完整模型一样，子模型损失函数如下式：其中，表示子模型的输出；基于conformer的混合ctc/attention模型使用ctc解码器和las注意力解码器联合优化模型参数，同时加入中间层音素级别ctc解码器损失，用于正则化较底层参数，因此，在训练过程中定义损失函数如下式：t
loss
＝λctc
loss
+μinterctc
loss
+(1-λ-μ)att
loss
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)其中，ctc
loss
,interctc
loss
，att
loss
分别是ctc解码器损失，中间层音素级别ctc解码器损失与las注意力解码器损失，λ和μ是两个超参数，用于衡量ctc解码器、中间层音素级别ctc解码器与las注意力解码器权重；训练过程中使loss下降曲线收敛到平稳，结束训练，得到最终模型；三、对基于conformer的混合ctc/attention模型进行训练，使用训练好的模型对验证集进行验证，实现端到端中文语音识别。

技术总结
一种端到端中文语音识别方法，属于语音识别领域。首先探索了基于Transformer编码器和LAS解码器的Transformer-LAS语音识别模型的效果，并针对Transformer不善于捕捉局部信息的问题，使用Conformer代替Transformer，提出Conformer-LAS模型；其次，由于Attention过于灵活的对齐方式会使其在嘈杂环境中的效果急剧下降，研究中采用连接时序分类(CTC)辅助训练以加快收敛，并加入音素级别的中间CTC损失联合优化，提出效果更好的Conformer-LAS-CTC语音识别模型；最后，在开源中文普通话Aishell-1数据集上对提出来的模型进行验证。1数据集上对提出来的模型进行验证。1数据集上对提出来的模型进行验证。

技术研发人员：孙俊陈戈吴豪吴小俊方伟陈祺东李超游琪冒钟杰
受保护的技术使用者：江南大学
技术研发日：2022.01.24
技术公布日：2022/4/20

完整全部详细技术资料下载

当前第2页1 2

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！