技术特征:
1.基于深度学习的中医临床语音识别方法,其特征在于,包括:s1:音频特征提取:通过分帧、预加重、加窗、快速傅里叶变换、梅尔滤波提取中医音频的fbank特征;s2:音频特征处理:在所述中医音频fbank特征的时域和频域范围内进行掩蔽处理,接着采用两层二维卷积的降采样网络,卷积核大小为3
×
3,步长为2,经过降采样之后,音频特征帧数降为原来的四分之一;s3:将处理后的中医音频特征输入编码器:编码器包括两个前向反馈模块、一个多头自注意力模块、一个卷积模块;所述前向反馈模块包括两个全连接层、两个残差层和一个非线性激活函数relu,在第一层全连接层之前进行了一次层标准化;所述多头自注意力模块中,自注意力机制可以获得中医音频特征之间的相关性,从而得到中医音频序列之间的关系,其计算公式如下:q,k,v是中医音频特征向量经过一次线性变换而来,d
k
为特征向量维度;多头自注意力机制从不同方面去学习中医音频特征的上下文信息,其计算公式如下:multihead(q,k,v)=concat(head1,
…
,head
h
)w
o
ꢀꢀꢀ
(2)head
i
=attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中h表示注意力头数,w
o
为多头注意力拼接后进行线性变换的随机权重矩阵,w
q
,w
k
,wv为第i个注意力头中q,k,v对应的权重矩阵;所述卷积模块采用因果卷积,包括一个逐点卷积、门控线性单元、一维深度卷积、层标准化、激活函数relu;s4:文本特征提取:将中医音频对应的文本标签映射为建模单元中汉字的索引,即文本特征;s5:文本特征处理:在文本特征中加入文本特征对应的位置信息,位置信息通过位置编码获得,其公式如下:码获得,其公式如下:pos表示字符在当前文本特征向量的位置索引,i表示文本特征向量的索引,d
model
表示编码维度,设为256;s6:解码:解码器包括计算输入中医音频对应文本上下文信息的隐式多头自注意力模块、多头注意力模块、前向反馈模块;将经过步骤s5处理的文本特征输入解码器中的隐式多头自注意力模块,其操作与编码器中的多头自注意力模块相同,最终得到文本的attention数值;接下来进入到多头注意力模块,多头注意力的计算方式与自注意力一样,但输入的q,k,v有所不同,其中q来自中医文本序列,k和v来自编码器输出的中医音频特征序列,所述前向反馈模块与编码器中的前向反馈模块结构一致;
s7:采用联合ctc/attention机制进行模型训练和解码,attention机制联系上下文将中医音频特征与中医文本标签进行非单调对齐,而ctc通过动态规划算法强制输入中医音频特征和中医文本标签单调对齐,从而弥补注意力机制对齐不足的问题,使用混合ctc/attention结构可以有效利用两者优点,消除不规则对齐;在训练阶段,目标函数联合优化ctc损失和kl散度损失;在解码阶段,首先由ctc解码生成n个最佳候选,再由attention解码器重新评分,将得分最高的结果作为输出。2.根据权利要求1所述的基于深度学习的中医临床语音识别方法,其特征在于,所述步骤s7中ctc损失是由编码器的输出做一次前向线性计算,经过softmax归一化,再根据ctc损失公式计算得到;kl散度损失是由解码器的输出进行softmax运算后,再由kl散度损失公式计算得到,最终将两者进行加权求和得到联合损失,其公式如下:loss=λl
ctc
(x,y)+(1-λ)l
kl
(x,y)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,loss为联合损失,l
ctc
为ctc损失,l
kl
为kl散度损失,x表示输入的中医音频特征,y表示中医音频对应的文本标签;λ是一个超参数,其作用是平衡ctc损失和kl散度损失的重要性,设为0.3。3.根据权利要求1所述的基于深度学习的中医临床语音识别方法,其特征在于,所述步骤s1中音频特征提取过程中梅尔滤波器个数设为80。4.基于深度学习的中医临床语音识别模型,其特征在于,包括:音频特征提取模块、音频特征处理模块、文本特征提取模块、文本特征处理模块、编码器、解码器、模型训练和解码模块,所述音频特征提取模块经过分帧、预加重、加窗、快速傅里叶变换、梅尔滤波提取音频的fbank特征,通过音频特征处理模块将中医音频fbank特征的时域和频域范围内进行掩蔽处理,然后采用两层二维卷积的降采样网络,卷积核大小为3
×
3,步长为2,经过降采样之后,帧数降为原来的四分之一;所述文本特征提取模块将中医文本映射为特征向量,所述文本特征处理模块通过位置编码获得文本特征的位置信息,并在中医文本特征中加入其对应的位置信息,其计算公式如下:的位置信息,其计算公式如下:pos表示字符在当前文本特征向量的位置索引,i表示文本特征向量的索引,d
model
表示编码维度,设为256;所述编码器包括两个前向反馈模块、一个多头自注意力模块、一个卷积模块;所述前向反馈模块包括两个全连接层、两个残差层和一个非线性激活函数relu,在第一层全连接层之前进行了一次层标准化;所述多头自注意力模块中,自注意力机制可以获得中医音频特征之间的相关性,从而得到中医音频序列之间的关系,其计算公式如下:q,k,v是中医音频特征向量经过一次线性变换而来,d
k
为特征向量维度;多头自注意力机制从不同方面去学习中医音频特征的上下文信息,其计算公式如下:multihead(q,k,v)=concat(head1,
…
,head
h
)w
o
ꢀꢀꢀ
(2)
head
i
=attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中h表示注意力头数,w
o
为多头注意力拼接后进行线性变换的随机权重矩阵,w
q
,w
k
,wv为第i个注意力头中q,k,v对应的权重矩阵;所述卷积模块采用因果卷积,包括一个逐点卷积、门控线性单元、一维深度卷积、层标准化、激活函数relu;所述解码器包括计算输入中医文本上下文信息的隐式多头自注意力模块、多头注意力模块、前向反馈模块;经过文本特征提取模块和文本特征处理模块处理的文本特征输入解码器中的隐式多头自注意力模块,其操作与编码器中的多头自注意力模块相同,最终得到文本的attention数值;接下来进入到多头注意力模块,多头注意力的计算方式与自注意力一样,但输入的q,k,v有所不同,其中q来自中医文本序列,k和v来自编码器输出的中医音频特征序列,所述前向反馈模块与编码器中的前向反馈模块结构一致。5.根据权利要求4所述的基于深度学习的中医临床语音识别模型,其特征在于,所述模型训练和解码模块采用联合ctc/attention机制,目标函数联合优化ctc损失和kl散度损失;attention机制联系上下文将中医音频特征与中医文本标签进行非单调对齐,而ctc通过动态规划算法强制输入中医音频特征和中医文本标签单调对齐,从而弥补注意力机制对齐不足的问题,使用混合ctc/attention结构可以有效利用两者优点,消除不规则对齐;在训练阶段,目标函数联合优化ctc损失和kl散度损失;在解码阶段,首先由ctc解码生成n个最佳候选,再由attention解码器重新评分,将得分最高的结果作为输出;所述ctc损失是由编码器的输出做一次前向线性计算,经过softmax归一化,再根据ctc损失公式计算得到;kl散度损失是由解码器的输出进行softmax运算后,再由kl散度损失公式计算得到,最终将两者进行加权求和得到联合损失,其公式如下:loss=λl
ctc
(x,y)+(1-λ)l
kl
(x,y)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,loss为联合损失,l
ctc
为ctc损失,l
kl
为kl散度损失,x表示输入的中医音频特征,y表示中医音频对应的文本标签;λ是一个超参数,其作用是平衡ctc损失和kl散度损失的重要性,设为0.3;在解码阶段,首先由ctc解码生成n个最佳候选,再由attention解码器重新评分,将得分最高的结果作为输出。6.根据权利要求4所述的基于深度学习的中医临床语音识别模型,其特征在于,所述音频特征提取模块中的梅尔滤波器个数设为80。
技术总结
本发明公开了一种基于深度学习的中医临床语音识别方法及模型,主要采用深度学习模型Conformer来完成中医临床语音识别任务,采用音频特征增强方法提升模型识别效果,在中医临床语音识别模型训练和解码过程中采用联合CTC/Attention机制,在训练阶段,目标函数联合优化CTC损失和KL散度损失;在解码阶段,首先由CTC解码生成n个最佳候选,再由Attention解码器重新评分,将得分最高的结果作为输出,从而在中医临床语音识别中得到更好的识别结果。本发明通过语音识别录入中医临床电子病历,代替中医医生通过手写病历或键盘录入病历的传统方式,可以有效节约医生录入病历的时间和减轻医生工作负担。医生工作负担。医生工作负担。
技术研发人员:王亚强 张林 舒红平
受保护的技术使用者:成都信息工程大学
技术研发日:2022.08.22
技术公布日:2022/12/12