一种语音识别文本的处理方法、装置、设备及存储介质与流程

文档序号：31675447发布日期：2022-09-28 01:55阅读：来源：国知局

技术特征：
1.一种语音识别文本的处理方法，其特征在于，包括：获取与原始语音相对应的语音识别文本；对所述原始语音进行向量转换，得到音频编码向量；对所述语音识别文本中的每个文本单元进行向量转换，得到所述每个文本单元对应的文本编码向量；对所述音频编码向量以及第i个所述文本编码向量采用注意力机制，得到交互后的第i个所述文本单元的融合向量，其中，所述i为大于或等于1的整数；将第i个所述文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过所述文本纠错网络输出第i个所述文本单元的融合向量对应的文本概率分布；基于第i个所述文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。2.根据权利要求1所述的方法，其特征在于，所述对所述音频编码向量分别与第i个所述文本编码向量采用注意力机制，得到交互后的第i个所述文本单元的融合向量之后，方法还包括：将第i个所述文本单元的融合向量输入至文本识别网络，通过所述文本识别网络输出第i个所述文本单元的融合向量对应的错误概率值；当第i个所述文本单元的融合向量对应的错误概率值为0时，确定第i个错误文本单元；当第i个所述文本单元的融合向量对应的错误概率值为1时，确定第i个正确文本单元。3.根据权利要求1所述的方法，其特征在于，所述对所述音频编码向量分别与第i个所述文本编码向量采用注意力机制，得到交互后的第i个所述文本单元的融合向量，包括：将所述每个文本单元对应的文本编码向量与所述音频编码向量的采用注意力机制，得到所述每个文本编码向量对应的音频向量；对第i个所述文本编码向量对应的音频向量与第i个所述文本单元对应的文本编码向量进行求和，得到第i个所述文本单元的融合向量。4.根据权利要求1所述的方法，其特征在于，所述对所述原始语音进行向量转换，得到音频编码向量，包括：将所述原始语音转换为单帧语音信号；将每个所述单帧语音信号进行向量转换，得到每个所述单帧语音信号对应所述音频编码向量。5.根据权利要求1所述的方法，其特征在于，所述文本纠错网络的训练包括以下步骤：获取与样本语音相对应的样本语音识别文本，以及所述样本语音识别文本对应的文本单元标签；对所述样本语音进行向量转换，得到样本语音编码向量；对所述样本语音识别文本中的每个文本单元进行向量转换，得到所述每个文本单元对应的样本编码向量；对所述样本语音编码向量以及第i个所述样本编码向量采用注意力机制，得到交互后的第i个所述文本单元的样本融合向量；将第i个所述文本单元的样本融合向量与第i-1个预测文本单元对应的文本向量输入至基础文本纠错网络，通过所述基础文本纠错网络输出第i个所述文本单元的样本融合向
量对应的文本概率分布；基于所述文本单元标签以及第i个所述文本单元的样本融合向量对应的文本概率分布，计算纠错损失值；基于所述纠错损失值对所述基础文本纠错网络进行参数调整，得到所述文本纠错网络。6.根据权利要求5所述的方法，其特征在于，所述对所述样本语音编码向量以及第i个所述样本编码向量采用注意力机制，得到交互后的第i个所述文本单元的样本融合向量之后，所述方法还包括：获取所述样本语音识别文本对应的错误检测标签；将每个所述文本单元的样本融合向量输入至基础文本识别网络，通过所述基础文本识别网络输出每个所述文本单元的样本融合向量对应的错误概率值；基于所述错误检测标签以及每个所述文本单元的样本融合向量对应的错误概率值，计算错误检测损失值；所述基于所述纠错损失值对所述基础文本纠错网络进行参数调整，得到所述文本纠错网络，包括：基于所述错误检测损失值以及所述纠错损失值，对所述基础文本识别网络以及所述基础文本纠错网络进行参数调整，得到所述文本纠错网络以及文本识别网络。7.根据权利要求6所述的方法，其特征在于，所述基于所述错误检测损失值以及所述纠错损失值，对所述基础文本识别网络以及所述基础文本纠错网络进行参数调整，得到所述文本识别网络以及所述文本纠错网络，包括：基于损失权重，对所述错误检测损失值以及所述纠错损失值进行加权求和，得到总损失值；基于所述总损失值，对所述基础文本识别网络以及所述基础文本纠错网络进行参数调整，得到所述文本识别网络以及所述文本纠错网络。8.根据权利要求5所述的方法，其特征在于，所述对所述样本语音编码向量以及第i个所述样本编码向量采用注意力机制，得到交互后的第i个所述文本单元的样本融合向量，包括：将所述每个文本单元对应的样本编码向量与所述样本语音编码向量的采用注意力机制，得到所述每个样本语音编码向量对应的样本语音向量；对第i个所述样本语音编码向量对应的样本语音向量与第i个所述文本单元对应的样本编码向量进行求和，得到第i个所述文本单元的样本融合向量。9.根据权利要求5所述的方法，其特征在于，所述对所述样本语音进行向量转换，得到样本语音编码向量，包括：将所述样本语音转换为单帧样本语音信号；将每个所述单帧样本语音信号进行向量转换，得到每个所述单帧样本语音信号对应所述样本语音编码向量。10.根据权利要求1所述的方法，其特征在于，所述获取与原始语音相对应的语音识别文本，包括：将所述原始语音输入至自动语音识别模型，通过所述自动语音识别模型中的预训练声
学网络获取所述原始语音对应的语音编码向量；将所述语音编码向量与第i-1个识别文本单元对应的文本向量通过至所述自动语音识别模型中的文本解码器，得到第i个所述文本单元对应的识别文本概率分布；基于第i个所述文本单元对应的识别文本概率分布，确定第i个识别文本单元，以得到所述语音识别文本。11.根据权利要求10所述的方法，其特征在于，所述将所述原始语音输入至自动语音识别模型，通过所述自动语音识别模型中的预训练声学网络获取所述原始语音对应的语音编码向量，包括：将所述原始语音转换为所述单帧语音信号；将每个所述单帧语音信号输入至所述自动语音识别模型，通过所述自动语音识别模型中的预训练声学网络获取每个所述单帧语音信号对应的单帧语音向量；基于每个所述单帧语音信号对应的音频权重，对每个所述单帧语音信号对应的单帧语音向量进行加权求和，得到所述语音编码向量。12.根据权利要求10所述的方法，其特征在于，所述自动语音识别模型的训练包括以下步骤：将样本语音输入至基础自动语音识别模型，通过所述基础自动语音识别模型中的预训练声学网络获取所述样本语音对应的样本语音向量；将所述样本语音向量与第i-1个样本识别文本单元对应的文本向量通过至所述基础自动语音识别模型中的文本解码器，得到第i个所述文本单元对应的样本识别文本概率分布；基于第i个所述文本单元对应的样本识别文本概率分布以及所述样本语音对应的文本单元标签，计算识别损失值；基于所述识别损失值对所述基础自动语音识别模型进行参数调整，得到所述自动语音识别模型。13.根据权利要求12所述的方法，其特征在于，所述将样本语音输入至基础自动语音识别模型，通过所述基础自动语音识别模型中的预训练声学网络获取所述样本语音对应的样本语音向量，包括：将所述样本语音转换为所述单帧样本语音信号；将每个所述单帧样本语音信号输入至所述基础自动语音识别模型，通过所述基础自动语音识别模型中的预训练声学网络获取每个所述单帧样本语音信号对应的单帧样本语音向量；基于每个所述单帧样本语音信号对应的音频权重，对每个所述单帧样本语音信号对应的单帧样本语音向量进行加权求和，得到所述样本语音向量。14.根据权利要求1所述的方法，其特征在于，所述获取与原始语音相对应的语音识别文本之前，所述方法还包括：接收语音识别优化指令；所述获取与原始语音相对应的语音识别文本，包括：根据所述语音识别优化指令，从数据库中读取所述语音识别文本。15.一种语音识别文本的处理装置，其特征在于，包括：获取单元，用于获取与原始语音相对应的语音识别文本；
处理单元，用于对所述原始语音进行向量转换，得到音频编码向量；所述处理单元，还用于对所述语音识别文本中的每个文本单元进行向量转换，得到所述每个文本单元对应的文本编码向量；所述处理单元，还用于对所述音频编码向量以及第i个所述文本编码向量采用注意力机制，得到交互后的第i个所述文本单元的融合向量，其中，所述i为大于或等于1的整数；所述处理单元，还用于将第i个所述文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过所述文本纠错网络输出第i个所述文本单元的融合向量对应的文本概率分布；确定单元，用于基于第i个所述文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。16.一种计算机设备，包括存储器、处理器以及总线系统，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤；所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。18.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。

技术总结
本申请实施例公开了一种语音识别文本的处理方法、装置、设备及存储介质，相关实施例可应用于人工智能、地图、智能交通等各种场景，用于提高对语音识别文本的纠错准确率。该方法包括：对原始语音进行向量转换，得到音频编码向量，对语音识别文本中的每个文本单元进行向量转换，得到每个文本单元对应的文本编码向量，对音频编码向量以及第i个文本编码向量采用注意力机制，得到交互后的第i个文本单元的融合向量，将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络输出第i个文本单元的融合向量对应的文本概率分布，基于第i个文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。目标文本单元。目标文本单元。

技术研发人员：林炳怀王丽园
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2022.05.31
技术公布日：2022/9/27

完整全部详细技术资料下载

当前第2页1 2