一种多方语音通话的智能混音方法及装置的制造方法

文档序号：8226240阅读：408来源：国知局

一种多方语音通话的智能混音方法及装置的制造方法
【技术领域】
[0001] 本发明涉及多媒体技术领域，特别涉及一种多方语音通话的智能混音方法及装置。
【背景技术】
[0002] 随着长途通讯需求的不断增长，基于语音包交换的VOIP (Voice over Internet Protocol，网络电话）技术以其低成本、易扩充及优良的通话质量越来越受到用户的青睐，而在此基础之上的多方语音通话业务应用也越来越广泛。多方语音通话需要将任何一方的声音都可以传送到任何其它一方，任何一方都可以同时听到多个其它通话方的声音，因而就需要对各方语音数据进行混音处理。
[0003] 目前混音处理是混音服务器接收各与会方终端发送的语音数据，将各方会话的所有语音数据进行混音处理，并在混音处理之后在混音数据中分别减去每个与会方的语音数据，再将减去每个与会方的语音数据发送给对应的与会方终端。
[0004] 发明人发现现有技术至少存在以下问题：
[0005] 当参与混音处理的与会方较多时，由于每个与会方的环境中都存在底噪，导致即使各个与会方都不发言时，最终混音处理后的混音数据会听到"嗡嗡"的底噪干扰；另外由于参与会话方较多的缘故，因衰减导致说话的声音会很小，听众较难辨识发言内容和发言者的身份。

【发明内容】

[0006] 为了解决现有技术的问题，本发明实施例提供了一种多方语音通话的智能混音方法及装置。所述技术方案如下：
[0007] -方面，提供了一种多方语音通话的智能混音方法，所述方法包括：
[0008] 在进行语音通话过程中，获取除本端外各活跃语音通道的当前帧数据；
[0009] 获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量；
[0010] 根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所述各活跃语音通道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对应的选通标识，选取进行混音处理的语音通道；所述选通标识为每一个活跃语音通道在上一次进行语音通道选择时记录的选择结果；
[0011] 对所述选取到的语音通道的当前帧数据进行叠加混音处理，并输出所述叠加混音后的混音数据。
[0012] 可选的，所述获取除本端外各活跃语音通道的当前帧数据，包括：
[0013] 获取除本端外各活跃语音通道的语音数据流，并对所述各活跃语音通道的语音数据流进行分帧处理，得到所述各活跃语音通道的语音数据流中的当前帧数据。
[0014] 可选的，所述获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量，包括：
[0015] 对所述各活跃语音通道的当前帧数据进行语音活性检测，得到所述各活跃语音通道的当前帧数据的语音活性检测结果；
[0016] 如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音，则计算该活跃语音通道的当前帧数据的短时能量，并根据该活跃语音通道的当前帧数据的短时能量计算该活跃语音通道的短时平均能量；
[0017] 如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音，则将该活跃语音通道的当前帧数据的短时能量置为零，并根据该活跃语音通道的当前帧数据的短时能量计算该活跃语音通道的短时平均能量。
[0018] 可选的，所述获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量，包括：
[0019] 接收所述各活跃语音通道发送的针对当前帧数据的附加信息，并从所述附加中获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量。
[0020] 可选的，所述根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所述各活跃语音通道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对应的选通标识，选取进行混音处理的语音通道，包括：
[0021] 根据有效语音的语音通道数量，选取进行混音处理的最大语音通道数量；
[0022] 根据所述各活跃语音通道的当前帧数据的语音活性检测结果，调整所述各活跃语音通道对应的选通标识；
[0023] 根据调整后的选通标识为第一标识的语音通道数量、所述进行混音处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量，选取进行混音处理的语音通道。
[0024] 可选的，所述根据所述各活跃语音通道的当前帧数据的语音活性检测结果调整所述各活跃语音通道对应的选通标识，包括：
[0025] 如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音，则保持该活跃语音通道对应的选通标识不进行调整；
[0026] 如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音，则将该活跃语音通道对应的选通标识设置为第二标识。
[0027] 可选的，所述根据调整后的选通标识为第一标识的语音通道数量、所述进行混音处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量，选取进行混音处理的语音通道，包括：
[0028] 如果调整后的选通标识为第一标识的语音通道数量大于所述进行混音处理的最大语音通道数量，则将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道。
[0029] 可选的，所述将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道之后，所述方法还包括：
[0030] 逐帧设置所述调整后的选通标识为第一标识的语音通道中短时平均能量最小的语音通道进行单调下降窗的平滑加窗操作；并且逐个将所述调整后的选通标识为第一标识的语音通道对应的选通标识调整为第二标识；
[0031] 直至所述调整后的选通标识为第一标识的语音通道数量等于所述进行混音处理的最大语音通道数量为止。
[0032] 可选的，所述根据调整后的选通标识为第一标识的语音通道数量、所述进行混音处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量，选取进行混音处理的语音通道，包括：
[0033] 如果调整后的选通标识为第一标识的语音通道数量小于或等于所述进行混音处理的最大语音通道数量，则判断是否满足第一预设条件以及判断是否满足第二预设条件；
[0034] 如果所述第一预设条件和所述第二预设条件都未被满足，则将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道。
[0035] 可选的，所述判断是否满足第一预设条件以及判断是否满足第二预设条件之后，所述方法还包括：
[0036] 如果所述第一预设条件或所述第二预设条件之中至少满足一个，则判断所述调整后的选通标识为第一标识的语音通道数量是否等于所述进行混音处理的最大语音通道数量；
[0037] 如果所述调整后的选通标识为第一标识的语音通道数量等于所述进行混音处理的最大语音通道数量，则将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道，并将所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量的语音通道确定为进行混音处理的语音通道。
[0038] 可选的，所述将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道，并将所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量的语音通道确定为进行混音处理的语音通道之后，所述方法还包括：
[0039] 逐帧设置所述调整后的选通标识为第一标识的语音通道中短时平均能量最小的语音通道进行单调下降窗的平滑加窗操作，并且逐个将所述调整后的选通标识为第一标识的语音通道对应的选通标识调整为第二标识；
[0040] 逐帧设置所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量的语音通道进行单调上升窗的平滑加窗操作，并且逐个将所述调整后的选通标识为第二标识的语音通道对应的选通标识调整为第一标识；
[0041] 直至所述调整后的选通标识为第一标识的语音通道中最小短时平均能量和所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量不满足所述第一预设条件为止。
[0042] 可选的，所述判断所述调整后的选通标识为第一标识的语音通道数量是否等于所述进行混音处理的最大语音通道数量之后，所述方法还包括：
[0043] 如果所述调整后的选通标识为第一标识的语音通道数量小于所述进行混音处理的最大语音通道数量，则将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道，并将所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量的语音通道确定为进行混音处理的语音通道。
[0044] 可选的，所述将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道，并将所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量的语音通道确定为进行混音处理的语音通道之后，所述方法还包括：
[0045] 逐帧设置所述调整后的选通标识为第二标识的语音通道中最大的短时平均能量的语音通道进行单调上升窗的平滑加窗操作，并且逐个将所述调整后的选通标识为第二标识的语音通道对应的选通标识调整为第一标识；
[0046] 直至所述调整后的选通标识为第一标识的语音通道数量等于所述进行混音处理的最大语音通道数量为止。
[0047] 另一方面，提供了一种多方语音通话的智能混音装置，所述装置包括：
[0048] 第一获取模块，用于在进行语音通话过程中，获取除本端外各活跃语音通道的当前帧数据；
[0049] 第二获取模块，用于获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量；
[0050] 确定模块，用于根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所述各活跃语音通道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对应的选通标识，选取进行混音处理的语音通道；所述选通标识为每一个活跃语音通道在上一次进行语音通道选择时记录的选择结果；
[0051] 混音模块，用于对所述选取到的语音通道的当前帧数据进行叠加混音处理，并输出所述叠加混音后的混音数据。
[0052] 可选的，所述第一获取模块用于：
[0053] 获取除本端外各活跃语音通道的语音数据流，并对所述各活跃语音通道的语音数据流进行分帧处理，得到所述各活跃语音通道的语音数据流中的当前帧数据。
[0054] 可选的，所述第二获取模块，包括：
[0055] 检测单元，用于对所述各活跃语音通道的当前帧数据进行语音活性检测，得到所述各活跃语音通道的当前帧数据的语音活性检测结果；
[0056] 第一计算单元，用于如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音，则计算该活跃语音通道的当前帧数据的短时能量，并根据该活跃语音通道的当前帧数据的短时能量计算该活跃语音通道的短时平均能量；
[0057] 第二计算单元，用于如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音，则将该活跃语音通道的当前帧数据的短时能量置为零，并根据该活跃语音通道的当前帧数据的短时能量计算该活跃语音通道的短时平均能量。
[0058] 可选的，所述第二获取模块，包括：
[0059] 获取单元，用于接收所述各活跃语音通道发送的针对当前帧数据的附加信息，并从所述附加中获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量。
[0060] 可选的，所述确定模块，包括：
[0061] 选取单元，用于根据有效语音的语音通道数量，选取进行混音处理的最大语音通道数量；
[0062] 调整单元，用于根据所述各活跃语音通道的当前帧数据的语音活性检测结果，调整所述各活跃语音通道对应的选通标识；
[0063] 确定单元，用于根据调整后的选通标识为第一标识的语音通道数量、所述进行混音处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量，选取进行混音处理的语音通道。
[0064] 可选的，所述调整单元，包括：
[0065] 第一调整子单元，用于如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音，则保持该活跃语音通道对应的选通标识不进行调整；
[0066] 第二调整子单元，用于如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音，则将该活跃语音通道对应的选通标识设置为第二标识。
[0067] 可选的，所述确定单元，包括：
[0068] 第一确定子单元，用于如果调整后的选通标识为第一标识的语音通道数量大于所述进行混音处理的最大语音通道数量，则将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道。
[0069] 可选的，所述确定模块，还包括：
[0070] 第一加窗单元，用于逐帧设置所述调整后的选通标识为第一标识的语音通道中短时平均能量最小的语音通道进行单调下降窗的平滑加窗操作；并且逐个将所述调整后的选通标识为第一标识的语音通道对应的选通标识调整为第二标识；
[0071] 直至所述调整后的选通标识为第一标识的语音通道数量等于所述进行混音处理的最大语音通道数量为止。
[0072] 可选的，所述确定单元，包括：
[0073] 第一判断子单元，用于如果调整后的选通标识为第一标识的语音通道数量小于或等于所述进行混音处理的最大语音通道数量，则判断是否满足第一预设条件以及判断是否满足第二预设条件；
[0074] 第二确定子单元，用于如果所述第一预设条件和所述第二预设条件都未被满足，则将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道。
[0075] 可选的，所述确定单元，还包括：
[0076] 第二判断子单元，用于如果所述第一预设条件或所述第二预设条件之中至少满足一个，则判断所述调整后的选通标识为第一标识的语音通道数量是否等于所述进行混音处理的最大语音通道数量；
[0077] 第三确定子单元，用于如果所述

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林成保;黄博贤;梁俊斌;
技术所有人：广州华多网络科技有限公司;
我是此专利的发明人

上一篇：融合网络下的ip电话业务的互通方法
上一篇：在通信终端中进行多方通话的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。