混合语种语音识别方法、装置、系统及存储介质与流程

文档序号：32351121发布日期：2022-11-26 13:10阅读：来源：国知局

技术特征：
1.一种混合语种语音识别方法，其特征在于，所述识别方法包括以下步骤：获取待识别语音信息；对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息，其中，所述转写模型的训练过程包括：在训练过程中，对提取的声学特征进行随机掩码处理，其中，所述随机掩膜处理包括：随机在所述声学特征对应的频谱图中遮挡预定数量的时域特征，和/或，随机在所述声学特征对应的频谱图中遮挡预定数量的频域特征。2.如权利要求1所述的识别方法，其特征在于，所述转写模型为基于编码器-解码器框架的语音识别模型，其中，待训练的转写模型的编码器包括依次连接的特征提取模块、卷积网络模块、多个第一tansformer网络结构、前馈神经网络层、反卷积网络模块、全连接层和归一化网络模块，待训练的转写模型的解码器包括依次连接的转换模块、卷积网络模块、多个第二tansformer网络结构、前馈神经网络层和归一化网络模块，其中，所述方法预先通过以下步骤训练获得所述已训练的转写模型：获取训练数据，其中，所述训练数据包括语音信息和语音信息对应的文本标签；通过所述特征提取模块提取输入的训练数据集中的当前时段的语音信息的声学特征，并对提取的所述声学特征进行所述随机掩码处理；通过所述编码器的卷积网络模块、所述多个第一tansformer网络结构和所述前馈神经网络层提取所述声学特征中的固定维度的语音编码特征；基于ctc损失函数对所述固定维度的语音编码特征进行损失计算，以获得第一损失；使用反卷积网络模块将所述固定维度的语音编码特征对应的时间维度升采样至与输入的当前时段的语音信息的时间维度一致，并利用全连接层和归一化网络模块对所述反卷积网络模块的输出进行处理后，以获得预测音素标签；利用交叉熵损失函数计算获得取所述预测音素标签的音素序列相对真实标签对应的音素序列的第二损失；在所述训练数据中获取当前时段之前的语音信息对应的文本标签；将当前时段之前的语音信息对应的文本标签输入到所述转换模块，以转换为字符嵌入向量；将所述字符嵌入向量输入到所述解码器的卷积网络模型提取抽象文本表征信息；将所述抽象文本表征信息输入到所述解码器的多个第二tansformer网络结构中，以提取所述高维抽象的文本表征信息；将所述编码器的前馈神经网络层输出的所述固定维度的语音编码特征和所述高维抽象的文本表征信息通过注意力机制进行特征加权融合，以获得融合特征；将所述融合特征输入到所述前馈神经网络层和所述归一化网络模块进行处理，以获得预测文本序列；利用交叉商损失函数计算所述预测文本序列的字符级的第三损失；利用句子级别损失函数计算所述预测文本序列的第四损失；
将所述第一损失、所述第二损失、所述第三损失和所述第四损失进行加权求和得到总体损失；利用所述总体损失调整待训练的转写模型中的模型参数，以得到所述已训练的转写模型。3.如权利要求2所述的识别方法，其特征在于，所述获取训练数据，包括：获取所述训练数据集中的语音信息对应的真实文本标签；对所述真实文本标签进行随机文本特征扰动，以获得语音信息对应的文本标签，其中，所述随机文本特征扰动包括：将随机挑选的真实文本标签的随机位置以预定比例使用非真实标签的字符或音素替代。4.如权利要求1至3中任一项所述的识别方法，其特征在于，所述第一语种为小语种，所述转写模型的训练数据包括所述第一语种的合成语音和对应的文本标签、目标语种的原始语音对应的文本标签、目标语种的拼接语音和对应的文本标签、目标语种的增广语音，其中，所述合成语音是对所述第一语种的历史文本对应的音素序列以及所述第一语种的历史语音的声纹信息进行合成获得的，所述拼接语音是将所述训练数据中的随机抽取的两条语音进行拼接获得的，所述增广语音是在所述原始语音中加入背景噪声后获得的。5.如权利要求1所述的识别方法，其特征在于，所述对获取的待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息，包括：通过已训练的语种识别模型对待识别语音信息进行语种识别，以预测待识别语音信息中所述目标语种的得分，其中，所述目标语种的得分包括所述第一语种的第一得分和所述第二语种的第二得分；将所述第一得分和所述第一阈值进行比较，以及将所述第二得分和所述第二阈值进行比较，当所述第一得分小于所述第一阈值和所述第二得分小于所述第二阈值时，则确定所述语种信息包括目标语种。6.如权利要求1所述的识别方法，其特征在于，所述转写模型为基于编码器-解码器框架的语音识别模型，所述待识别语音信息包括多个时段的语音片段，所述将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，包括：对每一时段的所述语音片段进行编解码处理，以预测每一时段的所述语音片段对应的预测文本标签；将所有时段的所述语音片段对应的所述预测文本标签按照时间顺序进行合并，以获得所述待识别语音信息对应的预测文本标签；根据所述待识别语音信息对应的预测文本标签获取所述待识别语音信息对应的文本信息。7.如权利要求1所述的识别方法，其特征在于，所述获取待识别语音信息包括：获取原始语音信息；通过语音活动端点检测对所述原始语音信息进行分段并过滤所述原始语音信息中的无效语音，以获得所述待识别语音信息。8.一种混合语种语音识别装置，其特征在于，所述装置包括：获取模块，用于获取待识别语音信息；语种识别模块，用于对所述待识别语音信息进行语种识别，以确定所述待识别语音信
息的语种信息；转写模块，用于当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息，其中，所述转写模型的训练过程包括：在训练过程中，对提取的声学特征进行随机掩码处理，其中，所述随机掩膜处理包括：随机在所述声学特征对应的频谱图中遮挡预定数量的时域特征，和/或，随机在所述声学特征对应的频谱图中遮挡预定数量的频域特征。9.一种混合语种语音识别系统，其特征在于，所述系统包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行如权利要求1-7中的任一项所述的混合语种语音识别方法。10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时，执行如权利要求1-7中的任一项所述的混合语种语音识别方法。

技术总结
本申请公开了一种混合语种语音识别方法、装置、系统及存储介质，其中，该混合语种语音识别方法包括以下步骤：获取待识别语音信息；对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息。通过本申请的方法使得获得的文本信息的准确性更高，能够输出多语种语音混合的识别结果，提升用户的使用体验。使用体验。使用体验。

技术研发人员：吴峥高天王培养董德武吴明辉陈志文孙毅成
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2022.07.27
技术公布日：2022/11/25

完整全部详细技术资料下载

当前第2页1 2