通话音频混音处理方法、装置、存储介质和计算机设备与流程

文档序号：20497835发布日期：2020-04-21 22:32阅读：来源：国知局

技术特征：

1.一种通话音频混音处理方法，包括：

获取参与通话的通话成员终端发送的通话音频；

对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度；所述语音活跃度用于反映所述通话成员参与通话的活跃程度；

根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数；

按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，并基于各所述调节音频进行混音处理得到混合音频。

2.根据权利要求1所述的方法，其特征在于，所述获取参与通话的通话成员终端发送的通话音频，包括：

接收由参与通话的通话成员终端所发送的音频编码数据；所述音频编码数据通过采用与相应终端的终端性能匹配的编码方式，对采集得到的通话音频进行编码得到；

按照与各编码方式分别匹配的解码方式，对相应各个通话成员终端发送的音频编码数据进行解码，得到相应的通话音频。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

采用与各所述通话成员终端的终端性能匹配的编码方式，分别对所述混合音频进行编码，得到对应不同编码方式的混合编码语音；

按照各所述混合编码语音分别对应的编码方式，将各所述混合编码语音分别发送至与相应编码方式匹配的、且参与所述通话的通话成员终端；发送的所述混合编码语音用于指示所述通话成员终端采用与相应编码方式对应的解码方式，对所述混合编码语音进行解码，得到相应的混合音频。

4.根据权利要求1所述的方法，其特征在于，所述对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度，包括：

将各通话音频分别划分成多于一帧的音频帧，并对各音频帧进行语音检测；

对于每路通话音频，确定所包括的音频帧中出现语音的语音帧的数量；

对于每路通话音频，根据所述通话音频中语音帧的数量与所述通话音频所包括音频帧的总数量，确定所述语音帧的占比；

根据所述语音帧的占比，确定与各所述通话成员终端对应的语音活跃度。

5.根据权利要求1所述的方法，其特征在于，所述对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度，包括：

将各通话音频分别划分成多于一帧的音频帧，并对各音频帧进行语音检测；

确定所述音频帧中出现语音的语音帧，并确定各所述语音帧对应的能量值；

根据各所述通话音频所包括的语音帧中能量值大于等于能量阈值的有效语音帧的数量，确定与各所述通话成员终端对应的语音活跃度。

6.根据权利要求1所述的方法，其特征在于，所述对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度，包括：

将各通话音频分别划分成多于一帧的音频帧，并计算各所述音频帧分别对应的单帧信噪比；

对于每路通话音频，对所述通话音频所包括的各音频帧分别对应的单帧信噪比进行加权求和，得到与所述通话音频对应的语音信噪比；

将各通话音频分别对应的语音信噪比，作为与各所述通话成员终端对应的语音活跃度。

7.根据权利要求1所述的方法，其特征在于，所述对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度，包括：

将各通话音频分别划分成多于一帧的音频帧，并计算各所述音频帧分别对应的单帧信噪比；

所述根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数，包括：

对于每路通话音频，基于所述通话音频所包括的音频帧各自对应的单帧信噪比，确定各音频帧分别对应的语音调节参数；

所述按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，包括：

对于每路通话音频，按照所述通话音频中各音频帧分别对应的语音调节参数，对各音频帧分别进行调节，得到与相应通话成员终端对应的调节音频。

8.根据权利要求1所述的方法，其特征在于，所述根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数，包括：

从各所述通话成员终端对应的语音活跃度中筛选出语音活跃最高值；

按照各所述通话成员终端对应的语音活跃度分别与所述语音活跃最高值间的对比值，确定各所述通话成员终端分别对应的语音调节参数；其中，通话成员终端对应的语音调节参数与相对应的所述对比值呈负相关。

9.根据权利要求6或7所述的方法，其特征在于，所述将各通话音频分别划分成多于一帧的音频帧，并计算各所述音频帧分别对应的单帧信噪比，包括：

对于每个通话成员各自对应的通话音频，分别将相应的通话音频划分成多于一帧的处于时域空间的音频帧；

将各音频帧从时域空间转换至频域空间得到对应的语音频谱，并确定各所述音频帧分别对应的语音频谱中所包括的多于一个的子带；

对于各音频帧中的各子带，分别计算所述子带对应的子带功率谱和噪声估计值，基于所述子带功率谱和噪声估计值，确定各所述子带对应的子带信噪比；

根据各所述音频帧所包括的子带分别对应的子带信噪比，计算各所述音频帧分别对应的单帧信噪比。

10.根据权利要求9所述的方法，其特征在于，所述对于各音频帧中的各子带，分别计算所述子带对应的子带功率谱和噪声估计值，包括：

对于各音频帧中的每个子带，分别基于所述子带所包括频点的频域复数值，确定与所述子带对应的子带功率谱；

对各所述子带功率谱分别进行平滑处理，得到相应的子带平滑功率谱；

从不同音频帧中对应相同子带序号的子带所对应的子带平滑功率谱中，筛选出最小值作为相应子带序号的各子带所对应的噪声初始值；

对于各音频帧中的每个子带，根据所述子带对应的子带平滑功率谱与噪声初始值，确定与相应子带对应的语音存在概率；

对于各音频帧中的每个子带，根据相应子带所对应的语音存在概率和子带功率谱，确定与相应子带对应的噪声估计值。

11.根据权利要求10所述的方法，其特征在于，所述对各所述子带功率谱分别进行平滑处理，得到相应的子带平滑功率谱，包括：

对于各音频帧中当前处理的当前帧中的当前子带，确定所述当前帧中与当前子带相邻的预设数量的相邻子带；

将所述相邻子带与所述当前子带共同构成子带序列；

按照与所述子带序列对应的权重，对所述子带序列中各子带的子带功率谱进行加权求和处理，得到当前帧中当前子带对应的频域平滑功率谱；

对当前帧的在前帧中对应相同子带序号的历史子带的频域平滑功率谱、以及当前帧中当前子带的频域平滑功率谱进行加权求和处理，得到当前中当前子带对应的子带平滑功率谱。

12.根据权利要求10所述的方法，其特征在于，所述对于各音频帧中的每个子带，根据所述子带对应的子带平滑功率谱与噪声初始值，确定与相应子带对应的语音存在概率，包括：

对于各音频帧中当前处理的当前帧中的当前子带，将所述当前子带的子带平滑功率谱与噪声初始值的商，作为当前帧中当前子带所对应的功率比值；

当所述功率比值大于预设阈值时，将第一值作为与所述当前帧中当前子带对应的语音存在值；

当所述功率比值小于或等于所述预设阈值时，将第二值作为与所述当前帧中当前子带对应的语音存在值；所述第二值小于所述第一值；

获取在所述当前帧之前的历史帧中，与所述当前子带对应相同子带序号的历史子带的语音存在概率；

对所述历史子带对应的语音存在概率和所述当前子带对应的语音存在值，进行加权求和处理，得到当前帧中当前子带对应的语音存在概率。

13.根据权利要求10所述的方法，其特征在于，所述对于各音频帧中的每个子带，根据相应子带所对应的语音存在概率和子带功率谱，确定与相应子带对应的噪声估计值，包括：

将数值一与所述语音存在概率的差值作为相应子带所对应的噪声存在概率；

对于各音频帧中当前处理的当前帧中的当前子带，获取所述当前帧的历史帧中与当前子带对应相同子带序号的历史子带所对应的噪声估计值；

对所述历史子带所对应的噪声估计值和所述当前帧中当前子带对应的语音存在概率的第一乘积，与所述当前帧中当前子带所对应的子带功率谱和噪声存在概率的第二乘积，进行求和运算，得到当前帧中当前子带对应的噪声估计值。

14.根据权利要求7所述的方法，其特征在于，所述对于每路通话音频，基于所述通话音频所包括的音频帧各自对应的单帧信噪比，确定各音频帧分别对应的语音调节参数，包括：

对于所述语音通话的各音频帧中当前处理的当前帧，基于所述当前帧对应的单帧信噪比，计算相应的即时语音调节参数；

确定在所述当前帧之前的历史帧所对应的历史语音调节参数；

对所述历史语音调节参数和所述当前帧对应的即时语音调节参数进行加权求和处理，得到与所述当前帧对应的语音调节参数；

继续对所述当前帧之后的在后帧进行处理，直到得到各音频帧分别对应的语音调节参数。

15.根据权利要求14所述的方法，其特征在于，所述对于所述语音通话的各音频帧中当前处理的当前帧，基于所述当前帧对应的单帧信噪比，计算相应的即时语音调节参数，包括：

从所述通话音频所包括的音频帧对应的单帧信噪比中，确定最大信噪比和最小信噪比；

根据所述最大信噪比和所述最小信噪比的差异确定第一差值；

对于所述通话音频的各音频帧中当前处理的当前帧，根据所述当前帧对应的单帧信噪比和所述最小信噪比的差异，确定第二差值；

根据预设最小增益值、所述第一差值及所述第二差值，确定与所述当前帧对应的即时语音调节参数。

16.一种通话音频混音处理方法，包括：

获取通话创建指令；

根据所述通话创建指令参与到基于所述通话创建指令所创建的通话中；

采集本地在参与所述通话时产生的通话音频；

将所述通话音频发送至服务器；发送的所述通话音频用于指示所述服务器对参与通话的各通话成员终端的通话音频分别进行语音分析，确定相应的语音活跃度，并根据所述语音活跃度确定相应的语音调节参数，按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，并基于各所述调节音频进行混音处理得到混合音频；其中，所述语音活跃度用于反映所述通话成员参与通话的活跃程度；

接收所述服务器反馈的混合音频并播放。

17.根据权利要求16所述的方法，其特征在于，所述将所述通话音频发送至服务器包括：

对所述通话音频进行语音增强处理；所述语音增强处理包括语音降噪处理、回声消除处理和语音音量调节处理中的至少一种处理；

将进行语音增强处理后的通话音频发送至服务器。

18.一种通话音频混音处理装置，其特征在于，所述装置包括：

获取模块，用于获取参与通话的通话成员终端发送的通话音频；

语音分析模块，用于对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度；所述语音活跃度用于反映所述通话成员参与通话的活跃程度；

确定模块，用于根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数；

混音处理模块，用于按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，并基于各所述调节音频进行混音处理得到混合音频。

19.一种通话音频混音处理装置，包括：

获取模块，用于获取通话创建指令；

通话参与模块，用于根据所述通话创建指令参与到基于所述通话创建指令所创建的通话中；

采集模块，用于采集本地在参与所述通话时产生的通话音频；

发送模块，用于将所述通话音频发送至服务器；发送的所述通话音频用于指示所述服务器对参与通话的各通话成员终端的通话音频分别进行语音分析，确定相应的语音活跃度，并根据所述语音活跃度确定相应的语音调节参数，按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，并基于各所述调节音频进行混音处理得到混合音频；其中，所述语音活跃度用于反映所述通话成员参与通话的活跃程度；

接收模块，用于接收所述服务器反馈的混合音频并播放。

20.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至17中任一项所述方法的步骤。

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至17中任一项所述方法的步骤。

技术总结
本申请涉及一种通话音频混音处理方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取参与通话的通话成员终端发送的通话音频；对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度；所述语音活跃度用于反映所述通话成员参与通话的活跃程度；根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数；按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，并基于各所述调节音频进行混音处理得到混合音频。本申请提供的方案可以提高语音通话质量。

技术研发人员：梁俊斌
受保护的技术使用者：腾讯科技(深圳)有限公司
技术研发日：2020.03.12
技术公布日：2020.04.21

完整全部详细技术资料下载

当前第2页1 2