一种远场语音增强的视频通话方法与系统与流程

文档序号：12378557阅读：来源：国知局

技术特征：

1.一种远场语音增强的视频通话系统，其特征在于：所述系统包括：至少两个视频通话终端，多噪音过滤处理引擎、以及多噪音过滤API管理服务器；所述多噪音过滤处理引擎、多噪音过滤API管理服务器通过通信网与两个视频通话终端连接；

一端的视频通话终端进行远场视频通话时，通话者远场声音和多种噪音源会同时被视频通话终端接收和录制；

多噪音过滤处理引擎对远场声音和多种噪音源进行过滤处理；

多噪音过滤API管理服务器抑制多种噪音源增强通话主体的声音，

另一端的视频通话终端再接收经过处理后的通话者主体的声音。

2.根据权利要求1所述的一种远场语音增强的视频通话系统，其特征在于：所述视频通话终端中设置有硬件驱动、操作系统模块、视频通话中间件模块、麦克风阵列录音模块、原始声音增强模块、通话主声音和噪音源分离模块、多噪音过滤引擎API、通话主声音和噪音源合并模块、视频通话音视频打包模块、视频通话传输模块；

所述硬件驱动：设备包括内部或外部硬件模块，硬件驱动是硬件模块的驱动软件，一般在操作系统初始化阶段完成初始化；

所述操作系统是设备硬件和硬件接口的统一接口抽象，操作系统是软件运行的基础环境；

所述视频通话中间件模块：具有视频通话功能基础功能的软件包；

所述麦克风阵列录音模块：调用操作系统的麦克风阵列接口，录制声音的模块；

所述原始声音增强模块：调用音频算法，将录制的原始声音增强，即声音信号的放大处理；

所述通话主声音和噪音源分离模块：调用多噪音过滤引擎API，将增强原始声音作为输入，输出主声音和噪音源；

所述多噪音过滤引擎API：作用是将增强原始声音作为输入，输出主声音人声和噪音源；多噪音过滤引擎API能部署在本地设备或服务器上；

所述通话主声音和噪音源合并模块：增强主声音，并抑制噪音源后，再将增强后的主声音和减弱后的噪音源，合成一个声音；

所述视频通话音视频打包模块：视频流按照H264/H265编码方式编码，再封装成PES流；音频按照AAC，AC3编码方式编码，再封装PES流；音视频的PES流再打包成适合网络传输的TS流；

所述视频通话传输模块：TS流按照视频通话业务逻辑在通信网络中传输。

3.根据权利要求2所述的一种远场语音增强的视频通话系统，其特征在于：所述视频通话中间件模块包括：输入设备管理模块、音视频预处理模块、音视频编码模块、音视频打包模块、以及网络传输模块。

4.根据权利要求2所述的一种远场语音增强的视频通话系统，其特征在于：所述远场语音增强的视频通话中要关注数据的在各个模块的输入和输出；

远场声音输入，包括：通话语音、环境噪音、回声噪音、混响噪音和多人声噪音；

麦克风阵列录音模块接收和录制上述远场声音，并输出数字信号的声音；

数字化的远场声音输入到多噪音过滤处理引擎；

多噪音过滤处理引擎访问多噪音过滤API管理服务器获取多噪音过滤引擎API；

多噪音过滤API管理服务器管理外部多噪音过滤引擎API；

多噪音过滤处理引擎调用多噪音过滤引擎API处理数字化的远场声音，处理后得到增强远场人声抑制多噪音源的声音数据。

5.根据权利要求2所述的一种远场语音增强的视频通话系统，其特征在于：所述多噪音过滤API管理服务器主要有以下功能：维护多噪音过滤引擎API，管理外部多噪音过滤引擎API，维护外部多噪音过滤引擎API适配内部多噪音过滤引擎API；维护多噪音过滤引擎API的更新策略，维护外部多噪音过滤引擎API的管理策略，负责审计多噪音过滤引擎API的服务质量。

6.根据权利要求1所述的一种远场语音增强的视频通话系统，其特征在于：所述远场语音增强的视频通话操作具体为：一端的视频通话终端的麦克风阵列录音模块接收远场视频通话参与者的声音以及相关联的多种噪音源，视频通话终端将原始的声音数据通过原始声音增强模块做信号放大处理，然后交由本地或在线多噪音过滤处理引擎处理；本地或在线多噪音过滤处理引擎处理首先：通过通话主声音和噪音源分离模块分离出通话主体的声音和多种噪音源；进而通过所述多噪音过滤引擎API增强通话主体的声音并抑制多种噪音源；进而通过所述通话主声音和噪音源合并模块将增强后的通话主体声音和抑制后的多种噪音源合并，并回传给视频通话终端；视频通话终端将视频数据和处理后的音频数据通过所述视频通话音视频打包模块打包成适合网络传输的网络包，经过视频通话中间件模块的视频通话传输模块将音视频数据传输给另一端的视频通话终端。

7.一种远场语音增强的视频通话方法，其特征在于：所述方法需提供至少两个视频通话终端，多噪音过滤处理引擎、以及多噪音过滤API管理服务器；

所述方法具体为：一端的视频通话终端进行远场视频通话时，通话者远场声音和多种噪音源会同时被视频通话终端接收和录制；在通过多噪音过滤处理引擎对远场声音和多种噪音源进行过滤处理；进而多噪音过滤API管理服务器抑制多种噪音源增强通话主体的声音，再将处理后的通话者主体的声音发送给另一端的视频通话终端。

8.根据权利要求7所述的一种远场语音增强的视频通话方法，其特征在于：所述视频通话终端中设置有硬件驱动、操作系统模块、视频通话中间件模块、麦克风阵列录音模块、原始声音增强模块、通话主声音和噪音源分离模块、多噪音过滤引擎API、通话主声音和噪音源合并模块、视频通话音视频打包模块、视频通话传输模块；

所述硬件驱动：设备包括内部或外部硬件模块，硬件驱动是硬件模块的驱动软件，一般在操作系统初始化阶段完成初始化；

所述操作系统是设备硬件和硬件接口的统一接口抽象，操作系统是软件运行的基础环境；

所述视频通话中间件模块：具有视频通话功能基础功能的软件包；

所述麦克风阵列录音模块：调用操作系统的麦克风阵列接口，录制声音的模块；

所述原始声音增强模块：调用音频算法，将录制的原始声音增强，即声音信号的放大处理；

所述通话主声音和噪音源分离模块：调用多噪音过滤引擎API，将增强原始声音作为输入，输出主声音和噪音源；

所述多噪音过滤引擎API：作用是将增强原始声音作为输入，输出主声音人声和噪音源；多噪音过滤引擎API能部署在本地设备或服务器上；

所述通话主声音和噪音源合并模块：增强主声音，并抑制噪音源后，再将增强后的主声音和减弱后的噪音源，合成一个声音；

所述视频通话传输模块：TS流按照视频通话业务逻辑在通信网络中传输。

9.根据权利要求8所述的一种远场语音增强的视频通话方法，其特征在于：所述视频通话中间件模块包括：输入设备管理模块、音视频预处理模块、音视频编码模块、音视频打包模块、以及网络传输模块。

10.根据权利要求8所述的一种远场语音增强的视频通话方法，其特征在于：所述远场语音增强的视频通话中要关注数据的在各个模块的输入和输出；

远场声音输入，包括：通话语音、环境噪音、回声噪音、混响噪音和多人声噪音；

麦克风阵列录音模块接收和录制上述远场声音，并输出数字信号的声音；

数字化的远场声音输入到多噪音过滤处理引擎；

多噪音过滤处理引擎访问多噪音过滤API管理服务器获取多噪音过滤引擎API；

多噪音过滤API管理服务器管理外部多噪音过滤引擎API；

多噪音过滤处理引擎调用多噪音过滤引擎API处理数字化的远场声音，处理后得到增强远场人声抑制多噪音源的声音数据。

11.根据权利要求8所述的一种远场语音增强的视频通话方法，其特征在于：所述多噪音过滤API管理服务器主要有以下功能：维护多噪音过滤引擎API，管理外部多噪音过滤引擎API，维护外部多噪音过滤引擎API适配内部多噪音过滤引擎API；维护多噪音过滤引擎API的更新策略，维护外部多噪音过滤引擎API的管理策略，负责审计多噪音过滤引擎API的服务质量。

12.根据权利要求8所述的一种远场语音增强的视频通话方法，其特征在于：所述远场语音增强的视频通话操作具体为：一端的视频通话终端的麦克风阵列录音模块接收远场视频通话参与者的声音以及相关联的多种噪音源，视频通话终端将原始的声音数据通过原始声音增强模块做信号放大处理，然后交由本地或在线多噪音过滤处理引擎处理；本地或在线多噪音过滤处理引擎处理首先：通过通话主声音和噪音源分离模块分离出通话主体的声音和多种噪音源；进而通过所述多噪音过滤引擎API增强通话主体的声音并抑制多种噪音源；进而通过所述通话主声音和噪音源合并模块将增强后的通话主体声音和抑制后的多种噪音源合并，并回传给视频通话终端；视频通话终端将视频数据和处理后的音频数据通过所述视频通话音视频打包模块打包成适合网络传输的网络包，经过视频通话中间件模块的视频通话传输模块将音视频数据传输给另一端的视频通话终端。

完整全部详细技术资料下载

当前第2页1 2 3