尼日利亚皮软语语音模型的训练方法、识别方法及装置与流程

文档序号：30578198发布日期：2022-06-29 10:39阅读：来源：国知局

技术特征：
1.一种尼日利亚皮软语语音模型的训练方法，其特征在于，包括：获取尼日利亚皮软语音频样本及其对应的第一文本样本；将所述尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征，并将所述音频特征输入全连接层中，得到第一预测文本；基于所述第一预测文本以及所述第一文本样本，对所述卷积单元以及所述全连接层的参数进行调整，以确定尼日利亚皮软语语音模型。2.根据权利要求1所述的训练方法，其特征在于，所述卷积单元包括至少一个卷积子单元，所述卷积单元中的各个所述卷积子单元采用残差方式连接；其中，所述卷积子单元包括连接的深度可分离卷积层、归一化层以及激活函数层。3.根据权利要求1所述的训练方法，其特征在于，所述将所述尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征，并将所述音频特征输入全连接层中，得到第一预测文本，包括：获取英语音频样本及其对应的第二文本样本；基于所述英语音频样本与所述尼日利亚皮软语音频样本及其对应的第二文本以及第一文本样本，形成训练数据集；依次利用所述训练数据集中的音频样本输入所述卷积单元中，得到音频特征；将所述音频特征输入所述全卷积层中，得到相应的第一预设文本。4.根据权利要求3所述的训练方法，其特征在于，所述基于所述第一预测文本以及所述第一文本样本，对所述尼利日亚皮软语语音模型的参数进行调整，确定尼日利亚皮软语语音模型，包括：从所述训练数据集中提取与输入至所述卷积单元中的音频样本对应的文本样本；基于提取出的文本样本以及所述第一预测文本进行损失函数计算，调整所述卷积单元以及所述全连接层的参数，以确定所述尼日利亚皮软语语音模型。5.根据权利要求1所述的训练方法，其特征在于，所述尼日利亚皮软语语音模型还包括与所述全连接层连接的语言模型，所述训练方法还包括：固定所述卷积单元以及所述全连接层的参数，并初始化所述语言模型的参数；将所述尼日利亚皮软语音频样本输入所述尼日利亚皮软语语音模型中，得到第二预测文本；基于所述第二预测文本以及所述第一文本样本，对所述语言模型的参数进行调整，确定所述尼日利亚皮软语语音模型。6.根据权利要求5所述的训练方法，其特征在于，所述将所述尼日利亚皮软语音频样本输入所述尼日利亚皮软语语音模型中，得到第二预测文本，包括：利用所述语言模型中的语言单元对所述全连接层输出的预测文本进行字符概率统计；基于所述字符概率统计的结果进行解码，得到所述第二预测文本。7.一种尼日利亚皮软语语音的识别方法，其特征在于，包括：获取尼日利亚皮软语语音模型，所述尼日利亚皮软语语音模型是根据权利要求1-6中任一项所述的尼日利亚皮软语语音模型的训练方法训练得到的；将目标尼日利亚皮软语音频输入所述尼日利亚皮软语语音模型中，确定所述目标尼日利亚皮软语音频对应的目标尼日利亚皮软语文本。
8.一种尼日利亚皮软语语音模型的训练装置，其特征在于，包括：第一获取模块，用于获取尼日利亚皮软语音频样本及其对应的第一文本样本；训练模块，用于将所述尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征，并将所述音频特征输入全连接层中，得到第一预测文本；调整模块，用于基于所述第一预测文本以及所述第一文本样本，对所述卷积单元以及所述全连接层的参数进行调整，以确定尼日利亚皮软语语音模型。9.一种尼日利亚皮软语语音的识别装置，其特征在于，包括：第二获取模块，用于获取尼日利亚皮软语语音模型，所述尼日利亚皮软语语音模型是根据权利要求1-6中任一项所述的尼日利亚皮软语语音模型的训练方法训练得到的；识别模块，用于将目标尼日利亚皮软语音频输入所述尼日利亚皮软语语音模型中，确定所述目标尼日利亚皮软语音频对应的目标尼日利亚皮软语文本。10.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-6中任一项所述的尼日利亚皮软语语音模型的训练方法，或权利要求7所述的尼日利亚皮软语语音的识别方法。11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-6中任一项所述的尼日利亚皮软语语音模型的训练方法，或权利要求7所述的尼日利亚皮软语语音的识别方法。

技术总结
本发明涉及语音识别技术领域，具体涉及尼日利亚皮软语语音模型的训练方法、识别方法及装置，所述训练方法包括获取尼日利亚皮软语音频样本及其对应的第一文本样本；将所述尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征，并将所述音频特征输入全连接层中，得到第一预测文本；基于所述第一预测文本以及所述第一文本样本，对所述卷积单元以及所述全连接层的参数进行调整，以确定尼日利亚皮软语语音模型。由于全卷积网络可以同时观测音频序列的历史信息和未来信息，不需要额外的特征来记录，所以网络模型的参数也可以设计比较小，需要消耗的计算资源也能够大大减少，能够在移动终端上运行。能够在移动终端上运行。能够在移动终端上运行。

技术研发人员：龚科熊浩
受保护的技术使用者：暗物智能科技(广州)有限公司
技术研发日：2020.12.24
技术公布日：2022/6/28

完整全部详细技术资料下载

当前第2页1 2