基于深度学习的语音频带扩展方法、装置及编码方法与流程

文档序号：31470476发布日期：2022-09-09 23:05阅读：来源：国知局

技术特征：
1.一种基于深度学习的语音频带扩展方法，其特征在于，包括：对音频数据进行编码至低延迟改进型离散余弦变换后，得到所述音频数据对应的谱系数，并进行特征提取，得到具有元音和摩擦音信息的第一特征参数；对所述音频数据进行重采样和长期后置滤波器处理，并对处理的结果进行特征提取，得到具有元音和摩擦音信息的第二特征参数；将所述第一特征参数和所述第二特征参数输入到预训练的神经网络模型中，生成所述音频数据对应的全带宽谱系数。2.根据权利要求1所述的基于深度学习的语音频带扩展方法，其特征在于，所述对音频数据进行编码至低延迟改进型离散余弦变换后，得到所述音频数据对应的谱系数，并进行特征提取，得到具有元音和摩擦音信息的第一特征参数，包括：对所述谱系数进行特征提取，得到谱熵，其中，在所述谱熵小于谱熵阈值的条件下，该片段的所述音频数据对应语音数据；在所述谱熵不小于所述谱熵阈值的条件下，该片段的所述音频数据对应非语音数据；在所述音频数据为语音数据的条件下，对所述谱系数进行特征提取，得到子带能量，其中在低频带的子带能量大于第一能量阈值的条件下，所述音频数据包含元音，在高频带的子带能量大于第二能量阈值的条件下，所述音频数据包含摩擦音。3.根据权利要求2所述的基于深度学习的语音频带扩展方法，其特征在于，所述对音频数据进行编码至低延迟改进型离散余弦变换后，得到所述音频数据对应的谱系数，并进行特征提取，得到具有元音和摩擦音信息的第一特征参数，还包括：对所述谱系数进行特征提取，得到频谱质心，其中，在低频带，所述频谱质心小于第一阈值的条件下，所述音频数据包含元音；在高频带，所述频谱质心大于第二阈值的条件下，所述音频数据包含摩擦音。4.根据权利要求1所述的基于深度学习的语音频带扩展方法，其特征在于，所述对所述音频数据进行重采样和长期后置滤波器处理，并对处理的结果进行特征提取，得到具有元音和摩擦音信息的第二特征参数，包括：通过所述长期后置滤波器对所述音频数据进行处理，得到所述音频数据对应的基音存在标志，其中在所述基音存在标志是第一数值的条件下，所述音频数据包含元音，在所述基音存在标志是第二数值的条件下，所述音频数据包含摩擦音。5.根据权利要求4所述的基于深度学习的语音频带扩展方法，其特征在于，所述对所述音频数据进行重采样和长期后置滤波器处理，并对处理的结果进行特征提取，得到具有元音和摩擦音信息的第二特征参数，还包括：通过所述长期后置滤波器对所述音频数据进行处理，得到所述音频数据对应的归一化自相关值、基音延迟参数以长期后置滤波器激活参数。6.根据权利要求1所述的基于深度学习的语音频带扩展方法，其特征在于，所述神经网络的预训练模型过程，包括：对全带宽语音进行重采样，得到窄带语音；对所述窄带语音进行特征提取，得到所述窄带语音对应的所述第一特征参数和所述第二特征参数；利用所述窄带语音对应的所述第一特征参数、所述第二特征参数和所述宽带语音进行
模型训练，使得训练后的网络模型能够根据所述窄带语音对应的所述第一特征参数和所述第二特征参数得到所述宽带语音的预测带宽谱系数。7.根据权利要求6所述的基于深度学习的语音频带扩展方法，其特征在于，所述神经网络的预训练模型过程，还包括：根据所述预测带宽谱系数和所述宽带语音的真实带宽谱系数进行对比，得到对比结果；根据所述对比结果对所述网络模型进行优化，使得所述预测带宽谱系数与所述真实带宽谱系数之间的误差低于预设阈值。8.一种基于深度学习的语音频带扩展装置，其特征在于，包括：第一特征提取模块，其对音频数据进行编码至低延迟改进型离散余弦变换后，得到所述音频数据对应的谱系数，并进行特征提取，得到具有元音和摩擦音信息的第一特征参数；第二特征提取模块，其对所述音频数据进行重采样和长期后置滤波器处理，并对处理的结果进行特征提取，得到具有元音和摩擦音信息的第二特征参数；频带扩展模块，其将所述第一特征参数和所述第二特征参数输入到预训练的神经网络模型中，生成所述音频数据对应的全带宽谱系数。9.一种基于深度学习语音频带扩展的音频编码方法，其特征在在于，包括：对音频数据进行编码至低延迟改进型离散余弦变换后，得到所述音频数据对应的谱系数，并进行特征提取，得到具有元音和摩擦音信息的第一特征参数；对所述音频数据进行重采样和长期后置滤波器处理，并对处理的结果进行特征提取，得到具有元音和摩擦音信息的第二特征参数；将所述第一特征参数和所述第二特征参数输入到预训练的神经网络模型中，生成所述音频数据对应的全带宽谱系数；对编码器的编码参数进行更新，并根据所述全带宽谱系数对所述音频数据继续编码，得到具有全带宽谱系数的编码结果。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，其特征在于，所述计算机指令被执行时，使得计算机执行权利要求1-7中任一项所述的基于深度学习的语音频带扩展方法或权利要求9所述的基于深度学习语音频带扩展的音频编码方法。

技术总结
本申请公开了一种基于深度学习的语音频带扩展方法、装置及编码方法，属于音频编码技术领域，该方法包括：对音频数据进行编码至低延迟改进型离散余弦变换后，得到音频数据对应的谱系数，并进行特征提取，得到具有元音和摩擦音信息的第一特征参数；对音频数据进行重采样和长期后置滤波器处理，并对处理的结果进行特征提取，得到具有元音和摩擦音信息的第二特征参数；将第一特征参数和第二特征参数输入到预训练的神经网络模型中，生成音频数据对应的全带宽谱系数。本申请利用编码过程中的已有参数，并进行特征提取，获取音频数据中关于元音和摩擦音的特征，充分考虑原有音频数据中元音和摩擦音的不同，进行更加准确的频带扩展，提升用户体验。升用户体验。升用户体验。

技术研发人员：李强王尧叶东翔朱勇
受保护的技术使用者：北京百瑞互联技术有限公司
技术研发日：2022.06.07
技术公布日：2022/9/8

完整全部详细技术资料下载

当前第2页1 2