一种多方语音通话的智能混音方法及装置的制造方法

文档序号:8226240阅读:408来源:国知局
一种多方语音通话的智能混音方法及装置的制造方法
【技术领域】
[0001] 本发明涉及多媒体技术领域,特别涉及一种多方语音通话的智能混音方法及装 置。
【背景技术】
[0002] 随着长途通讯需求的不断增长,基于语音包交换的VOIP (Voice over Internet Protocol,网络电话)技术以其低成本、易扩充及优良的通话质量越来越受到用户的青睐, 而在此基础之上的多方语音通话业务应用也越来越广泛。多方语音通话需要将任何一方的 声音都可以传送到任何其它一方,任何一方都可以同时听到多个其它通话方的声音,因而 就需要对各方语音数据进行混音处理。
[0003] 目前混音处理是混音服务器接收各与会方终端发送的语音数据,将各方会话的所 有语音数据进行混音处理,并在混音处理之后在混音数据中分别减去每个与会方的语音数 据,再将减去每个与会方的语音数据发送给对应的与会方终端。
[0004] 发明人发现现有技术至少存在以下问题:
[0005] 当参与混音处理的与会方较多时,由于每个与会方的环境中都存在底噪,导致即 使各个与会方都不发言时,最终混音处理后的混音数据会听到"嗡嗡"的底噪干扰;另外由 于参与会话方较多的缘故,因衰减导致说话的声音会很小,听众较难辨识发言内容和发言 者的身份。

【发明内容】

[0006] 为了解决现有技术的问题,本发明实施例提供了一种多方语音通话的智能混音方 法及装置。所述技术方案如下:
[0007] -方面,提供了一种多方语音通话的智能混音方法,所述方法包括:
[0008] 在进行语音通话过程中,获取除本端外各活跃语音通道的当前帧数据;
[0009] 获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语 音通道的短时平均能量;
[0010] 根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所述各活跃语音通 道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对应的选通标识, 选取进行混音处理的语音通道;所述选通标识为每一个活跃语音通道在上一次进行语音通 道选择时记录的选择结果;
[0011] 对所述选取到的语音通道的当前帧数据进行叠加混音处理,并输出所述叠加混音 后的混音数据。
[0012] 可选的,所述获取除本端外各活跃语音通道的当前帧数据,包括:
[0013] 获取除本端外各活跃语音通道的语音数据流,并对所述各活跃语音通道的语音数 据流进行分帧处理,得到所述各活跃语音通道的语音数据流中的当前帧数据。
[0014] 可选的,所述获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所 述各活跃语音通道的短时平均能量,包括:
[0015] 对所述各活跃语音通道的当前帧数据进行语音活性检测,得到所述各活跃语音通 道的当前帧数据的语音活性检测结果;
[0016] 如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音,则计算该活跃 语音通道的当前帧数据的短时能量,并根据该活跃语音通道的当前帧数据的短时能量计算 该活跃语音通道的短时平均能量;
[0017] 如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音,则将该活跃语 音通道的当前帧数据的短时能量置为零,并根据该活跃语音通道的当前帧数据的短时能量 计算该活跃语音通道的短时平均能量。
[0018] 可选的,所述获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所 述各活跃语音通道的短时平均能量,包括:
[0019] 接收所述各活跃语音通道发送的针对当前帧数据的附加信息,并从所述附加中获 取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短 时平均能量。
[0020] 可选的,所述根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所述 各活跃语音通道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对应 的选通标识,选取进行混音处理的语音通道,包括:
[0021] 根据有效语音的语音通道数量,选取进行混音处理的最大语音通道数量;
[0022] 根据所述各活跃语音通道的当前帧数据的语音活性检测结果,调整所述各活跃语 音通道对应的选通标识;
[0023] 根据调整后的选通标识为第一标识的语音通道数量、所述进行混音处理的最大语 音通道数量以及所述各活跃语音通道的短时平均能量,选取进行混音处理的语音通道。
[0024] 可选的,所述根据所述各活跃语音通道的当前帧数据的语音活性检测结果调整所 述各活跃语音通道对应的选通标识,包括:
[0025] 如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音,则保持该活跃 语音通道对应的选通标识不进行调整;
[0026] 如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音,则将该活跃语 音通道对应的选通标识设置为第二标识。
[0027] 可选的,所述根据调整后的选通标识为第一标识的语音通道数量、所述进行混音 处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量,选取进行混音处理的 语音通道,包括:
[0028] 如果调整后的选通标识为第一标识的语音通道数量大于所述进行混音处理的最 大语音通道数量,则将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理 的语音通道。
[0029] 可选的,所述将所述调整后的选通标识为第一标识的语音通道确定为进行混音处 理的语音通道之后,所述方法还包括:
[0030] 逐帧设置所述调整后的选通标识为第一标识的语音通道中短时平均能量最小的 语音通道进行单调下降窗的平滑加窗操作;并且逐个将所述调整后的选通标识为第一标识 的语音通道对应的选通标识调整为第二标识;
[0031] 直至所述调整后的选通标识为第一标识的语音通道数量等于所述进行混音处理 的最大语音通道数量为止。
[0032] 可选的,所述根据调整后的选通标识为第一标识的语音通道数量、所述进行混音 处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量,选取进行混音处理的 语音通道,包括:
[0033] 如果调整后的选通标识为第一标识的语音通道数量小于或等于所述进行混音处 理的最大语音通道数量,则判断是否满足第一预设条件以及判断是否满足第二预设条件;
[0034] 如果所述第一预设条件和所述第二预设条件都未被满足,则将所述调整后的选通 标识为第一标识的语音通道确定为进行混音处理的语音通道。
[0035] 可选的,所述判断是否满足第一预设条件以及判断是否满足第二预设条件之后, 所述方法还包括:
[0036] 如果所述第一预设条件或所述第二预设条件之中至少满足一个,则判断所述调整 后的选通标识为第一标识的语音通道数量是否等于所述进行混音处理的最大语音通道数 量;
[0037] 如果所述调整后的选通标识为第一标识的语音通道数量等于所述进行混音处理 的最大语音通道数量,则将所述调整后的选通标识为第一标识的语音通道确定为进行混音 处理的语音通道,并将所述调整后的选通标识为第二标识的语音通道中最大的短时平均能 量的语音通道确定为进行混音处理的语音通道。
[0038] 可选的,所述将所述调整后的选通标识为第一标识的语音通道确定为进行混音处 理的语音通道,并将所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量 的语音通道确定为进行混音处理的语音通道之后,所述方法还包括:
[0039] 逐帧设置所述调整后的选通标识为第一标识的语音通道中短时平均能量最小的 语音通道进行单调下降窗的平滑加窗操作,并且逐个将所述调整后的选通标识为第一标识 的语音通道对应的选通标识调整为第二标识;
[0040] 逐帧设置所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量 的语音通道进行单调上升窗的平滑加窗操作,并且逐个将所述调整后的选通标识为第二标 识的语音通道对应的选通标识调整为第一标识;
[0041] 直至所述调整后的选通标识为第一标识的语音通道中最小短时平均能量和所述 调整后的选通标识为第二标识的语音通道中最大的短时平均能量不满足所述第一预设条 件为止。
[0042] 可选的,所述判断所述调整后的选通标识为第一标识的语音通道数量是否等于所 述进行混音处理的最大语音通道数量之后,所述方法还包括:
[0043] 如果所述调整后的选通标识为第一标识的语音通道数量小于所述进行混音处理 的最大语音通道数量,则将所述调整后的选通标识为第一标识的语音通道确定为进行混音 处理的语音通道,并将所述调整后的选通标识为第二标识的语音通道中最大的短时平均能 量的语音通道确定为进行混音处理的语音通道。
[0044] 可选的,所述将所述调整后的选通标识为第一标识的语音通道确定为进行混音处 理的语音通道,并将所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量 的语音通道确定为进行混音处理的语音通道之后,所述方法还包括:
[0045] 逐帧设置所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量 的语音通道进行单调上升窗的平滑加窗操作,并且逐个将所述调整后的选通标识为第二标 识的语音通道对应的选通标识调整为第一标识;
[0046] 直至所述调整后的选通标识为第一标识的语音通道数量等于所述进行混音处理 的最大语音通道数量为止。
[0047] 另一方面,提供了一种多方语音通话的智能混音装置,所述装置包括:
[0048] 第一获取模块,用于在进行语音通话过程中,获取除本端外各活跃语音通道的当 前帧数据;
[0049] 第二获取模块,用于获取所述各活跃语音通道的当前帧数据的语音活性检测结果 以及所述各活跃语音通道的短时平均能量;
[0050] 确定模块,用于根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所 述各活跃语音通道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对 应的选通标识,选取进行混音处理的语音通道;所述选通标识为每一个活跃语音通道在上 一次进行语音通道选择时记录的选择结果;
[0051] 混音模块,用于对所述选取到的语音通道的当前帧数据进行叠加混音处理,并输 出所述叠加混音后的混音数据。
[0052] 可选的,所述第一获取模块用于:
[0053] 获取除本端外各活跃语音通道的语音数据流,并对所述各活跃语音通道的语音数 据流进行分帧处理,得到所述各活跃语音通道的语音数据流中的当前帧数据。
[0054] 可选的,所述第二获取模块,包括:
[0055] 检测单元,用于对所述各活跃语音通道的当前帧数据进行语音活性检测,得到所 述各活跃语音通道的当前帧数据的语音活性检测结果;
[0056] 第一计算单元,用于如果活跃语音通道的当前帧数据的语音活性检测结果为有效 语音,则计算该活跃语音通道的当前帧数据的短时能量,并根据该活跃语音通道的当前帧 数据的短时能量计算该活跃语音通道的短时平均能量;
[0057] 第二计算单元,用于如果活跃语音通道的当前帧数据的语音活性检测结果为无效 语音,则将该活跃语音通道的当前帧数据的短时能量置为零,并根据该活跃语音通道的当 前帧数据的短时能量计算该活跃语音通道的短时平均能量。
[0058] 可选的,所述第二获取模块,包括:
[0059] 获取单元,用于接收所述各活跃语音通道发送的针对当前帧数据的附加信息,并 从所述附加中获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活 跃语音通道的短时平均能量。
[0060] 可选的,所述确定模块,包括:
[0061] 选取单元,用于根据有效语音的语音通道数量,选取进行混音处理的最大语音通 道数量;
[0062] 调整单元,用于根据所述各活跃语音通道的当前帧数据的语音活性检测结果,调 整所述各活跃语音通道对应的选通标识;
[0063] 确定单元,用于根据调整后的选通标识为第一标识的语音通道数量、所述进行混 音处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量,选取进行混音处理 的语音通道。
[0064] 可选的,所述调整单元,包括:
[0065] 第一调整子单元,用于如果活跃语音通道的当前帧数据的语音活性检测结果为有 效语音,则保持该活跃语音通道对应的选通标识不进行调整;
[0066] 第二调整子单元,用于如果活跃语音通道的当前帧数据的语音活性检测结果为无 效语音,则将该活跃语音通道对应的选通标识设置为第二标识。
[0067] 可选的,所述确定单元,包括:
[0068] 第一确定子单元,用于如果调整后的选通标识为第一标识的语音通道数量大于所 述进行混音处理的最大语音通道数量,则将所述调整后的选通标识为第一标识的语音通道 确定为进行混音处理的语音通道。
[0069] 可选的,所述确定模块,还包括:
[0070] 第一加窗单元,用于逐帧设置所述调整后的选通标识为第一标识的语音通道中短 时平均能量最小的语音通道进行单调下降窗的平滑加窗操作;并且逐个将所述调整后的选 通标识为第一标识的语音通道对应的选通标识调整为第二标识;
[0071] 直至所述调整后的选通标识为第一标识的语音通道数量等于所述进行混音处理 的最大语音通道数量为止。
[0072] 可选的,所述确定单元,包括:
[0073] 第一判断子单元,用于如果调整后的选通标识为第一标识的语音通道数量小于或 等于所述进行混音处理的最大语音通道数量,则判断是否满足第一预设条件以及判断是否 满足第二预设条件;
[0074] 第二确定子单元,用于如果所述第一预设条件和所述第二预设条件都未被满足, 则将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道。
[0075] 可选的,所述确定单元,还包括:
[0076] 第二判断子单元,用于如果所述第一预设条件或所述第二预设条件之中至少满足 一个,则判断所述调整后的选通标识为第一标识的语音通道数量是否等于所述进行混音处 理的最大语音通道数量;
[0077] 第三确定子单元,用于如果所述
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1