语音识别纠错方法和装置与流程

文档序号：34829347发布日期：2023-07-20 12:04阅读：来源：国知局

技术特征：

1.一种语音识别纠错方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述纠错解码器包括依次连接并且结构相同的多个解码层，每一解码层包括依次连接的自注意力子层、关联注意力子层和前馈网络子层；以及，所述将所述双模态表征向量输入预先训练的纠错解码器，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法进一步包括：

5.根据权利要求4所述的方法，其特征在于，所述纠错解码器进一步包括连接在最后端解码层的线性层、归一化层和输出层；以及，

6.根据权利要求3所述的方法，其特征在于，所述关联注意力模块和所述纠错解码器通过以下步骤进行联合训练：

7.一种语音识别纠错装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述特征融合单元进一步用于：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。

技术总结
本发明公开了一种语音识别纠错方法和装置，涉及人工智能技术领域。该方法的一具体实施方式包括：获取音频数据和语音识别文本；将音频数据输入音频特征抽取模型，得到音频特征向量；将语音识别文本输入文本特征抽取模型，得到文本特征向量；将音频特征向量和文本特征向量输入关联注意力模块；在关联注意力模块，基于音频特征向量和文本特征向量执行关联注意力计算，输出融合音频特征向量和文本特征向量的双模态表征向量；将双模态表征向量输入纠错解码器，得到语音识别文本的纠错结果。该实施方式通过在纠错模型中引入融合语音和文本的双模态特征来提高纠错准确率。

技术研发人员：邓丽萍,范璐,何晓冬
受保护的技术使用者：京东科技信息技术有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

当前第2页1 2