一种音频信号处理方法、模型训练方法以及相关装置与流程

文档序号：20920720发布日期：2020-05-29 14:06阅读：来源：国知局

技术特征：

1.一种音频信号的处理方法，其特征在于，包括：

获取第一音频输入信号；

将所述第一音频输入信号输入机器学习模型，以得到第一啸叫点，根据所述第一啸叫点获得第一增益值，其中，所述第一啸叫点用于指示所述第一音频输入信号中有效音频输入信号对应频段的啸叫点；所述第一增益值用于指示所述第一啸叫点的抑制参数，根据所述第一增益值处理所述第一音频输入信号，以得到第二音频输入信号；

检测所述第二音频输入信号，以得到第二啸叫点，根据所述第二啸叫点获得第二增益值，所述第二啸叫点用于指示非所述有效音频信号对应频段的啸叫点；根据所述第二增益值对所述第二音频输入信号进行处理，以得到音频输出信号。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一音频输入信号输入机器学习模型，以得到第一啸叫点，根据所述第一啸叫点获得第一增益值，包括：

将所述音频输入信号转换至频域，以提取多个音频特征，所述音频特征基于所述有效音频信号或所述啸叫样本的特征确定；

将所述音频特征输入所述机器学习模型，以确定所述第一啸叫点；

根据所述第一啸叫点获得对应的第一增益值。

3.根据权利要求2所述的方法，其特征在于，所述将所述音频输入信号转换至频域，以提取多个音频特征，包括：

将所述音频输入信号调整至目标频率，以转换至频域；

确定转换至频域后的音频输入信号中的多个采样点；

基于所述采样点提取多个所述音频特征。

4.根据权利要求3所述的方法，其特征在于，所述确定转换至频域后的音频输入信号中的多个采样点，包括：

基于窗函数对转换至频域后的音频输入信号进行划分，以得到多个子带；

确定所述子带中的多个所述采样点。

5.根据权利要求1所述的方法，其特征在于，所述根据第二增益值对第二音频输入信号进行处理，以得到音频输出信号，包括：

获取所述第二音频输入信号对应的功率谱；

检测所述功率谱中的极值，并确定对应的候选频点；

根据所述候选频点确定所述第二啸叫点；

根据所述第二增益值对所述第二啸叫点进行处理，以得到所述音频输出信号。

6.根据权利要求5所述的方法，其特征在于，所述根据所述候选频点确定所述第二啸叫点，包括：

获取所述候选频点相邻的多个频点，以确定候选范围；

确定所述候选范围中频点的平均频率平均值，以获取峰值均值比；

若所述峰值均值比大于啸叫阈值，则确定所述候选频点为所述第二啸叫点。

7.根据权利要求5所述的方法，其特征在于，所述根据所述候选频点确定所述第二啸叫点之后，所述方法还包括：

获取有效音频信号中的特征信息，所述特征信息基于所述有效音频信号指示的波形特征确定；

根据所述特征信息检测所述第二音频输入信号中对应的有效音频信号；

对所述有效音频信号进行锁定操作，所述锁定操作用于指示所述第二增益值的非作用对象。

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

确定所述第二啸叫点对应的多个增益帧；

根据平滑公式对所述增益帧进行处理，以对所述音频输出信号进行更新。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述音频信号的处理方法应用于游戏语音通话过程中，所述获取第一音频输入，包括：

检测特征元素的触发情况，所述特征元素为游戏界面中的元素；

若所述特征元素被触发，则获取所述第一音频输入。

10.根据权利要求1-8任一项所述的方法，其特征在于，所述机器学习模型为循环神经网络模型，所述第一音频输入信号和所述音频输出信号应用于终端设备的语音通话过程中。

11.一种机器学习模型的训练方法，其特征在于，包括：

采集参考信号和语音样本信号，所述参考信号为基于至少两种变量元素确定的啸叫信号，所述变量元素包括程序类别、程序运行时段或程序运行位置，所述采集信号用于指示通话过程中的有效语音；

根据所述参考信号和采集信号生成特征训练集；

将所述特征训练集输入机器学习模型进行至少一个循环的训练，以得到训练后的机器学习模型，所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。

12.一种音频信号的处理装置，其特征在于，包括：

获取单元，用于获取第一音频输入信号；

输入单元，用于将所述第一音频输入信号输入机器学习模型，以得到第一啸叫点，根据所述第一啸叫点获得第一增益值，其中，所述第一啸叫点用于指示所述第一音频输入信号中有效音频输入信号对应频段的啸叫点；所述第一增益值用于指示所述第一啸叫点的抑制参数，根据所述第一增益值处理所述第一音频输入信号，以得到第二音频输入信号；

检测单元，用于检测所述第二音频输入信号，以得到第二啸叫点，根据所述第二啸叫点获得第二增益值，所述第二啸叫点用于指示非所述有效音频信号对应频段的啸叫点；

处理单元，用于根据第二增益值对第二音频输入信号进行处理，以得到音频输出信号。

13.一种机器学习模型的训练装置，其特征在于，包括：

采集单元，用于采集参考信号和语音样本信号，所述参考信号为基于至少两种变量元素确定的啸叫信号，所述变量元素包括程序类别、程序运行时段或程序运行位置，所述采集信号用于指示通话过程中的有效语音；

生成单元，用于根据所述参考信号和采集信号生成特征训练集；

训练单元，用于将所述特征训练集输入机器学习模型进行至少一个循环的训练，以得到训练后的机器学习模型，所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至10任一项所述的音频信号处理的方法，或权利要求11所述的机器学习模型的训练方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至10任一项所述的音频信号处理的方法，或权利要求11所述的机器学习模型的训练方法。

技术总结
本申请公开了一种音频信号处理方法、模型训练方法以及相关装置，通过对音频输入信号输入机器学习模型，以得到第一啸叫点以及对应的第一增益值；然后根据第二增益值对音频输入信号中的第二啸叫点进行处理，以得到音频输出信号。从而实现了对于音频输入信号中啸叫的抑制，使得啸叫在初始阶段就被抑制，无法在进行增益循环；由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性，使得上述处理过程迅速，且不会对有效音频信号产生影响，提高了音频处理的准确性及效率。

技术研发人员：张金亮;余涛
受保护的技术使用者：腾讯科技(深圳)有限公司
技术研发日：2020.01.09
技术公布日：2020.05.29

完整全部详细技术资料下载

当前第2页1 2