技术特征:
1.一种端到端中文语音识别方法,其特征在于,步骤如下:一、数据的预处理对于语音数据进行预加重、分帧、加窗,进行快速傅里叶变换,计算谱线能量,进行mel滤波,取对数得到fbank特征;将预处理后的数据分为训练集和验证集;二、建立基于conformer的混合ctc/attention模型基于conformer的混合ctc/attention模型包括三个部分:共享conformer编码器、ctc解码器和las注意力解码器;所述的共享conformer编码器首先使用卷积子采样层处理输入,将卷积子采样层处理后的数据输入到n个conformer编码器块中,每个conformer编码器块依次包括前馈模块、多头自注意力模块mhsa、卷积模块、前馈模块和层归一化,conformer编码器中每个模块后均设置一个残差单元,其中,前馈模块与多头自注意力模块之间、前馈模块与层归一化之间采用半步残差连接;所述的多头自注意力模块包括层归一化、集成相对正弦位置编码的多头自注意力和dropout;所述的卷积模块包含一个扩展因子为2的逐点卷积,通过glu激活层投影通道数,然后是一维深度卷积,一维深度卷积后接batchnorm和swish激活层;共享conformer编码器将输入的帧级别声学特征x=(x1,...x
t
)映射到序列高级表示h=(h1,h2,...,h
u
);所述的las注意力解码器采用两层的单向lstm结构,且引入注意力机制;具体解码过程为:利用局部注意力来关注共享conformer编码器器输出的信息,利用lstm来解码出信息,在每个lstm的输出过程中,las注意力解码器将已经生成的文本(y1,y2,...,y
s-1
)联合共享conformer编码器输出特征h=(h1,h2,...,h
u
)进行注意力解码,最终生成目标转录序列y=(y1,y2,...,y
s
),从而得到输出序列y的概率如下:在每个时间步t,通过注意力机制计算输出对编码器特征h的条件依赖;注意力机制是当前解码器隐藏状态和编码器输出特征的函数,通过以下机制将编码器特征压缩为上下文向量u
it
;其中h
i
为共享conformer编码器输出特征;向量b
a
,以及矩阵w
h
,w
d
都是经过学习得到的参数;d
t
表示解码器在时间步数t的隐藏状态;然后对u
it
进行softmax,得到attention分布:α
t
=soft max(u
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)利用α
it
通过对h
i
加权求和得到相应的上下文向量:每一时刻,用于捕捉先前输出上下文的注意力解码器隐藏状态d
t
经以下方式得到:
其中d
t-1
是上一个隐藏状态,是通过y
t-1
学习得到的嵌入层向量;在t时刻,输出y
t
的后验概率如下:p(y
t
|h,y<t)=soft max(w
s
[c
t
;d
t
]+b
s
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中w
s
和b
s
可学习参数;所述的ctc解码器以共享conformer编码器输出特征h作为输入进行解码,经过softmax层之后,ctc解码器的输出为p(q
t
|h),q
t
为t时刻的输出,则标签序列l为所有路径概率总和:式中:γ(q
t
)为标签序列的多对一的映射;因为同一个标签序列可能有多条路径与其对应,所以需要去掉路径中的重复的标签和空白标签;q
t
∈a,t=1,2,...,t,a为加了空白标签
“‑”
的标签集合,输出序列中概率最大的标注序列l
*
为:l
*
=arg
l
max p(l|h)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)ctc解码器的损失函数是所有标签的负对数概率和,可以通过反向传播训练ctc网络:ctc
loss
=-log p(l|h)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)在ctc解码器训练中跳过中间层之后的所有层,加入中间层音素级别ctc损失,即interctc
loss
作为辅助任务诱导出一个子模型;通过获得ctc解码器的中间表示以计算子模型的损失,与ctc解码器完整模型一样,子模型损失函数如下式:其中,表示子模型的输出;基于conformer的混合ctc/attention模型使用ctc解码器和las注意力解码器联合优化模型参数,同时加入中间层音素级别ctc解码器损失,用于正则化较底层参数,因此,在训练过程中定义损失函数如下式:t
loss
=λctc
loss
+μinterctc
loss
+(1-λ-μ)att
loss
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)其中,ctc
loss
,interctc
loss
,att
loss
分别是ctc解码器损失,中间层音素级别ctc解码器损失与las注意力解码器损失,λ和μ是两个超参数,用于衡量ctc解码器、中间层音素级别ctc解码器与las注意力解码器权重;训练过程中使loss下降曲线收敛到平稳,结束训练,得到最终模型;三、对基于conformer的混合ctc/attention模型进行训练,使用训练好的模型对验证集进行验证,实现端到端中文语音识别。
技术总结
一种端到端中文语音识别方法,属于语音识别领域。首先探索了基于Transformer编码器和LAS解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问题,使用Conformer代替Transformer,提出Conformer-LAS模型;其次,由于Attention过于灵活的对齐方式会使其在嘈杂环境中的效果急剧下降,研究中采用连接时序分类(CTC)辅助训练以加快收敛,并加入音素级别的中间CTC损失联合优化,提出效果更好的Conformer-LAS-CTC语音识别模型;最后,在开源中文普通话Aishell-1数据集上对提出来的模型进行验证。1数据集上对提出来的模型进行验证。1数据集上对提出来的模型进行验证。
技术研发人员:孙俊 陈戈 吴豪 吴小俊 方伟 陈祺东 李超 游琪 冒钟杰
受保护的技术使用者:江南大学
技术研发日:2022.01.24
技术公布日:2022/4/20