一种远场语音增强的视频通话方法与系统与流程

文档序号：12378557阅读：358来源：国知局

本发明涉及机顶盒技术领域，尤其涉及一种远场语音增强的视频通话方法和系统。

背景技术：

远场语音通话，即远距离语音通话，尤其是通话人距离麦克风3至5米的距离，由于噪声和/或混响等干扰因素的影响，视频通话过程中，语音的效果非常差。实际的远场语音通信包含以下一些噪音源：(1)混响噪音：声波在室内传播时，要被障碍物反射和吸收，最后消失，我们就感觉到声源停止发声后还有若干个声波混合持续一段时间，即混响时间(reverberation)。混响时间的长短是音乐厅、剧院、礼堂等建筑物的重要声学特性。(2)背景噪音：背景噪声是指除研究对象以外所有噪声的总称。(3)人声干扰:环境人声，非研究对象的声音。(4)回声噪音:声波在传播过程中，碰到大的反射面(如建筑物的墙壁、大山里面等)在界面将发生反射，人们把能够与原声区分开的反射声波叫做回声。

综上所述，远场视频通话时，远场的语音需要过滤到多种噪声，才能得到纯净的通话参与者的清晰的声音信号。

现有技术中公开有申请号为：201310066421.X，专利名称为《语音增强处理方法和装置》的中国专利，该发明实施例提供一种语音增强处理方法和装置，该方法，包括：解码比特流，获取当前待处理语音子帧的编码参数，编码参数包括第一代数码书增益和第一自适应码书增益；调整第一代数码书增益，得到第二代数码书增益；根据第一自适应码书增益和第二代数码书增益，确定第二自适应码书增益；采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特。该发明的技术方案，可以有效改善消除噪音的效果，提高语音通话质量。但是该对比专利与本专利申请采取的技术路径完全不同。

现有技术中还公开了《一种基于无线定位麦克风阵列语音增强的通话系统及方法》，见申请号：201310513373.4的中国专利，该发明公开了一种基于无线定位麦克风阵列语音增强的通话系统及方法，系统包括无线定位发射模块、无线定位接收模块、麦克风阵列语音接收模块、语音增强模块、远端语音播放模块和通信模块，其中无线定位发射模块与无线定位接收模块采用无线的方式连接，无线定位接收模块和麦克风阵列语音接收模块分别与语音增强模块连接，语音增强模块与通信模块连接，远端语音播放模块与通信模块连接。通话方法首先采用无线定位技术来对目标声源进行定位，再对目标说话人的语音采用麦克风阵列进行语音增强处理及通信。该发明具有定位快速准确、增强效果好、鲁棒性高等优点，能有效提高现有通话系统的语音质量。对比专利主要关注麦克风阵列的声源定位和定向人声增强。本专利申请关注远场视频通话时，通话主体的声音增强和多噪音源的抑制。

技术实现要素：

本发明要解决的技术问题之一，在于提供一种远场语音增强的视频通话系统，使用多噪音过滤引擎，抑制多种噪音源增强通话主体的声音，进而提高远场视频通话的通话质量。

本发明问题之一是这样实现的：一种远场语音增强的视频通话系统，所述系统包括：至少两个视频通话终端，多噪音过滤处理引擎、以及多噪音过滤API管理服务器；所述多噪音过滤处理引擎、多噪音过滤API管理服务器通过通信网与两个视频通话终端连接；

一端的视频通话终端进行远场视频通话时，通话者远场声音和多种噪音源会同时被视频通话终端接收和录制；

多噪音过滤处理引擎对远场声音和多种噪音源进行过滤处理；

多噪音过滤API管理服务器抑制多种噪音源增强通话主体的声音，

另一端的视频通话终端再接收经过处理后的通话者主体的声音。

进一步地，所述视频通话终端中设置有硬件驱动、操作系统模块、视频通话中间件模块、麦克风阵列录音模块、原始声音增强模块、通话主声音和噪音源分离模块、多噪音过滤引擎API、通话主声音和噪音源合并模块、视频通话音视频打包模块、视频通话传输模块；

所述硬件驱动：设备包括内部或外部硬件模块，硬件驱动是硬件模块的驱动软件，一般在操作系统初始化阶段完成初始化；

所述操作系统是设备硬件和硬件接口的统一接口抽象，操作系统是软件运行的基础环境；

所述视频通话中间件模块：具有视频通话功能基础功能的软件包；

所述麦克风阵列录音模块：调用操作系统的麦克风阵列接口，录制声音的模块；

所述原始声音增强模块：调用音频算法，将录制的原始声音增强，即声音信号的放大处理；

所述通话主声音和噪音源分离模块：调用多噪音过滤引擎API，将增强原始声音作为输入，输出主声音和噪音源；

所述多噪音过滤引擎API：作用是将增强原始声音作为输入，输出主声音人声和噪音源；多噪音过滤引擎API能部署在本地设备或服务器上；

所述通话主声音和噪音源合并模块：增强主声音，并抑制噪音源后，再将增强后的主声音和减弱后的噪音源，合成一个声音；

所述视频通话音视频打包模块：视频流按照H264/H265编码方式编码，再封装成PES流；音频按照AAC，AC3编码方式编码，再封装PES流；音视频的PES流再打包成适合网络传输的TS流；

所述视频通话传输模块：TS流按照视频通话业务逻辑在通信网络中传输。

进一步地，所述视频通话中间件模块包括：输入设备管理模块、音视频预处理模块、音视频编码模块、音视频打包模块、以及网络传输模块。

进一步地，所述远场语音增强的视频通话中要关注数据的在各个模块的输入和输出；

远场声音输入，包括：通话语音、环境噪音、回声噪音、混响噪音和多人声噪音；

麦克风阵列录音模块接收和录制上述远场声音，并输出数字信号的声音；

数字化的远场声音输入到多噪音过滤处理引擎；

多噪音过滤处理引擎访问多噪音过滤API管理服务器获取多噪音过滤引擎API；

多噪音过滤API管理服务器管理外部多噪音过滤引擎API；

多噪音过滤处理引擎调用多噪音过滤引擎API处理数字化的远场声音，处理后得到增强远场人声抑制多噪音源的声音数据。

进一步地，所述多噪音过滤API管理服务器主要有以下功能：维护多噪音过滤引擎API，管理外部多噪音过滤引擎API，维护外部多噪音过滤引擎API适配内部多噪音过滤引擎API；维护多噪音过滤引擎API的更新策略，维护外部多噪音过滤引擎API的管理策略，负责审计多噪音过滤引擎API的服务质量。

进一步地，所述远场语音增强的视频通话操作具体为：一端的视频通话终端的麦克风阵列录音模块接收远场视频通话参与者的声音以及相关联的多种噪音源，视频通话终端将原始的声音数据通过原始声音增强模块做信号放大处理，然后交由本地或在线多噪音过滤处理引擎处理；本地或在线多噪音过滤处理引擎处理首先：通过通话主声音和噪音源分离模块分离出通话主体的声音和多种噪音源；进而通过所述多噪音过滤引擎API增强通话主体的声音并抑制多种噪音源；进而通过所述通话主声音和噪音源合并模块将增强后的通话主体声音和抑制后的多种噪音源合并，并回传给视频通话终端；视频通话终端将视频数据和处理后的音频数据通过所述视频通话音视频打包模块打包成适合网络传输的网络包，经过视频通话中间件模块的视频通话传输模块将音视频数据传输给另一端的视频通话终端。

进一步地，所述视频通话终端包含一个或多个处理器，一个内存，一个或多个存储器，一个电源，一个或多个连接器，一个网络接口以及一个麦克风阵列；所述视频通话终端也包含一个操作系统，操作系统包含若干能够在一个或多个处理器上运行的模块或应用；视频通话终端能包含待机唤醒模块，所述处理器、内存、存储器、电源、连接器、网络接口、麦克风阵列采用内部组件通信的方式互联起来；

一个或多个处理器，被配置为在视频通话终端中执行功能或过程指令；一个或多个处理器能够处理存储在内存或存储器中指令；这些指令能用来操作操作硬件模块，来完成特定的功能或过程；

内存是与CPU直接交换数据的内部存储器，存储单元的内容能按需随意取出或存入，且存取的速度与存储单元的位置无关的存储器。

本发明要解决的技术问题之二，在于提供一种远场语音增强的视频通话方法，使用多噪音过滤引擎，抑制多种噪音源增强通话主体的声音，进而提高远场视频通话的通话质量。

本发明问题之二是这样实现的：一种远场语音增强的视频通话方法，所述方法需提供至少两个视频通话终端，多噪音过滤处理引擎、以及多噪音过滤API管理服务器；

所述方法具体为：一端的视频通话终端进行远场视频通话时，通话者远场声音和多种噪音源会同时被视频通话终端接收和录制；在通过多噪音过滤处理引擎对远场声音和多种噪音源进行过滤处理；进而多噪音过滤API管理服务器抑制多种噪音源增强通话主体的声音，再将处理后的通话者主体的声音发送给另一端的视频通话终端。

所述硬件驱动：设备包括内部或外部硬件模块，硬件驱动是硬件模块的驱动软件，一般在操作系统初始化阶段完成初始化；

所述操作系统是设备硬件和硬件接口的统一接口抽象，操作系统是软件运行的基础环境；

所述视频通话中间件模块：具有视频通话功能基础功能的软件包；

所述麦克风阵列录音模块：调用操作系统的麦克风阵列接口，录制声音的模块；

所述原始声音增强模块：调用音频算法，将录制的原始声音增强，即声音信号的放大处理；

所述通话主声音和噪音源分离模块：调用多噪音过滤引擎API，将增强原始声音作为输入，输出主声音和噪音源；

所述多噪音过滤引擎API：作用是将增强原始声音作为输入，输出主声音人声和噪音源；多噪音过滤引擎API能部署在本地设备或服务器上；

所述通话主声音和噪音源合并模块：增强主声音，并抑制噪音源后，再将增强后的主声音和减弱后的噪音源，合成一个声音；

所述视频通话传输模块：TS流按照视频通话业务逻辑在通信网络中传输。

进一步地，所述视频通话中间件模块包括：输入设备管理模块、音视频预处理模块、音视频编码模块、音视频打包模块、以及网络传输模块。

进一步地，所述远场语音增强的视频通话中要关注数据的在各个模块的输入和输出；

远场声音输入，包括：通话语音、环境噪音、回声噪音、混响噪音和多人声噪音；

麦克风阵列录音模块接收和录制上述远场声音，并输出数字信号的声音；

数字化的远场声音输入到多噪音过滤处理引擎；

多噪音过滤处理引擎访问多噪音过滤API管理服务器获取多噪音过滤引擎API；

多噪音过滤API管理服务器管理外部多噪音过滤引擎API；

多噪音过滤处理引擎调用多噪音过滤引擎API处理数字化的远场声音，处理后得到增强远场人声抑制多噪音源的声音数据。

内存是与CPU直接交换数据的内部存储器，存储单元的内容能按需随意取出或存入，且存取的速度与存储单元的位置无关的存储器。

本发明具有如下优点：本发明视频通话终端通过基础通信网(互联网等)互联互通；视频通话包含多噪音过滤引擎；视频通话包含多噪音过滤API管理服务器；远场视频通话时，通话者远场声音和多种噪音源会同时被麦克风阵列接收和录制，通话者主声音往往会被多种噪音源淹没，导致通话质量严重下降。本发明使用多噪音过滤引擎，抑制多种噪音源增强通话主体的声音，进而提高远场视频通话的通话质量。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明的系统总体框架图。

图2为本发明视频通话终端中各模块的结构示意图。

图3为本发明远场语音增强系统的过滤噪声的过程的流程示意图。

图4为本发明视频通话终端的硬件结构示意图。

图5为本发明方法操作流程示意图。

具体实施方式

请参阅图1至图4所示，一种远场语音增强的视频通话系统，所述系统包括：至少两个视频通话终端，多噪音过滤处理引擎、以及多噪音过滤API管理服务器；所述多噪音过滤处理引擎、多噪音过滤API管理服务器通过通信网与两个视频通话终端连接；

一端的视频通话终端进行远场视频通话时，通话者远场声音和多种噪音源会同时被视频通话终端接收和录制；

多噪音过滤处理引擎对远场声音和多种噪音源进行过滤处理；

多噪音过滤API管理服务器抑制多种噪音源增强通话主体的声音，

另一端的视频通话终端再接收经过处理后的通话者主体的声音。

所述视频通话终端中设置有硬件驱动、操作系统模块、视频通话中间件模块、麦克风阵列录音模块、原始声音增强模块、通话主声音和噪音源分离模块、多噪音过滤引擎API、通话主声音和噪音源合并模块、视频通话音视频打包模块、视频通话传输模块；

所述硬件驱动：设备包括内部或外部硬件模块，硬件驱动是硬件模块的驱动软件(网络驱动，麦克风阵列驱动)，一般在操作系统初始化阶段完成初始化；

所述操作系统是设备硬件和硬件接口的统一接口抽象，操作系统是软件运行的基础环境；

所述视频通话中间件模块：具有视频通话功能基础功能的软件包；一般包括：输入设备管理(麦克风等)、音视频预处理、音视频编码、音视频打包、网络传输等模块。视频通话中间件模块的运行以操作系统。

所述麦克风阵列录音模块：调用操作系统的麦克风阵列接口，录制声音的模块；

所述原始声音增强模块：调用音频算法，将录制的原始声音增强，即声音信号的放大处理；

所述通话主声音和噪音源分离模块：调用多噪音过滤引擎API，将增强原始声音作为输入，输出主声音和噪音源；

所述多噪音过滤引擎API：作用是将增强原始声音作为输入，输出主声音人声和噪音源；多噪音过滤引擎API能部署在本地设备或服务器上；

所述通话主声音和噪音源合并模块：增强主声音，并抑制噪音源后，再将增强后的主声音和减弱后的噪音源，合成一个声音；

所述视频通话传输模块：TS流按照视频通话业务逻辑在通信网络中传输。

如图3所示，在本发明中，所述远场语音增强的视频通话中要关注数据的在各个模块的输入和输出；

远场声音输入，包括：通话语音(Cn)、环境噪音、回声噪音、混响噪音和多人声噪音；

麦克风阵列录音模块接收和录制上述远场声音，并输出数字信号的声音；

数字化的远场声音输入到多噪音过滤处理引擎；

多噪音过滤处理引擎访问多噪音过滤API管理服务器获取多噪音过滤引擎API；

多噪音过滤API管理服务器管理外部多噪音过滤引擎API；

多噪音过滤处理引擎调用多噪音过滤引擎API处理数字化的远场声音，处理后得到增强远场人声抑制多噪音源的声音数据。

所述多噪音过滤API管理服务器主要有以下功能：维护多噪音过滤引擎API，管理外部多噪音过滤引擎API，维护外部多噪音过滤引擎API适配内部多噪音过滤引擎API；维护多噪音过滤引擎API的更新策略，维护外部多噪音过滤引擎API的管理策略，负责审计多噪音过滤引擎API的服务质量。

如图5所示，本发明的所述远场语音增强的视频通话操作具体为：一端的视频通话终端的麦克风阵列录音模块接收远场视频通话参与者的声音以及相关联的多种噪音源，视频通话终端将原始的声音数据通过原始声音增强模块做信号放大处理，然后交由本地或在线多噪音过滤处理引擎处理；本地或在线多噪音过滤处理引擎处理首先：通过通话主声音和噪音源分离模块分离出通话主体的声音和多种噪音源；进而通过所述多噪音过滤引擎API增强通话主体的声音并抑制多种噪音源；进而通过所述通话主声音和噪音源合并模块将增强后的通话主体声音和抑制后的多种噪音源合并，并回传给视频通话终端；视频通话终端将视频数据和处理后的音频数据通过所述视频通话音视频打包模块打包成适合网络传输的网络包，经过视频通话中间件模块的视频通话传输模块将音视频数据传输给另一端的视频通话终端。

另外，本发明的所述视频通话终端包含一个或多个处理器，一个内存，一个或多个存储器，一个电源，一个或多个连接器，一个网络接口(WIFI/3G/4G)以及一个麦克风阵列；所述视频通话终端也包含一个操作系统，操作系统包含若干能够在一个或多个处理器上运行的模块或应用；视频通话终端能包含待机唤醒模块，所述处理器、内存、存储器、电源、连接器、网络接口、麦克风阵列采用内部组件通信的方式互联(物理连接，双向通信，双向操作)起来；

一个或多个处理器，可以被配置为在远场视频通话设备中执行功能或过程指令。一个或多个处理器能够处理存储在内存或存储器中指令。这些指令可能用来操作操作硬件模块，来完成特定的功能或过程。

内存是与CPU直接交换数据的内部存储器，存储单元的内容可按需随意取出或存入，且存取的速度与存储单元的位置无关的存储器。内存通常作为操作系统或其他正在运行中的程序的临时数据存储媒介。内存是一个临时存储介质，用于软件或程序在执行过程中，存储临时的数据或指令。内存一般采用RAM或SRAM。

一个或多个存储器包含一个或多个计算机可读的存储介质。一个或多个存储器用于持久化数据或信息的存储。一个或多个存储器包括非易失性存储介质，比如：硬盘，SSD,Flash,EEPROM等)。

远场视频通话设备可以包含网络接口。网络接口用于局域网或广域网通信。WIFI用于局域网通信。3G/4G模块用于广域网通信。远场视频通话设备通过网络接口可以外部的远场视频通话设备设备通信(手机/平板/电视/机顶盒/视频通话服务器等)

远场视频通话设备可以包含连接器(WIFI网络、蓝牙连接、全球导航卫星系统、FM收音)

远场视频通话设备可以包含电源，电源可能是可充电电池，电池可能是锂电池，石墨烯或其他合适的材料制成。电源可能包含一个变压器，能将外部电源转成合适充电的电源。

远场视频通话设备可以包含麦克风阵列，麦克风阵列是将两个麦克风的信号耦合为一个信号。采用该技术，能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤，能最大限度将环境背景声音滤掉，只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备，在嘈杂的环境下能使听者听起来很清晰，没杂音。

远场视频通话设备中，处理器，内存，存储器，电源，连接器是系统运行所需要的最小系统。网络接口(WIFI/3G/4G),麦克风阵列是实现远场视频通话功能的硬件基础。

操作系统(Linux和Android)控制远场视频通话设备中硬件模块的运行。操作系统能将硬件复杂多变的操作控制封装在硬件驱动层。保持操作系统层硬件接口调用的统一。操作系统是用户和计算机的接口，同时也是计算机硬件和其他软件的接口。操作系统的功能包括管理计算机系统的硬件、软件及数据资源，控制程序运行，改善人机界面，为其它应用软件提供支持，让计算机系统所有资源最大限度地发挥作用，提供各种形式的用户界面，使用户有一个好的工作环境，为其它软件的开发提供必要的服务和相应的接口等。

请参阅图4和图5所示，本发明的一种远场语音增强的视频通话方法，所述方法需提供至少两个视频通话终端，多噪音过滤处理引擎、以及多噪音过滤API管理服务器；

所述硬件驱动：设备包括内部或外部硬件模块，硬件驱动是硬件模块的驱动软件(网络驱动，麦克风阵列驱动)，一般在操作系统初始化阶段完成初始化；

所述操作系统是设备硬件和硬件接口的统一接口抽象，操作系统是软件运行的基础环境；

所述麦克风阵列录音模块：调用操作系统的麦克风阵列接口，录制声音的模块；

所述原始声音增强模块：调用音频算法，将录制的原始声音增强，即声音信号的放大处理；

所述通话主声音和噪音源分离模块：调用多噪音过滤引擎API，将增强原始声音作为输入，输出主声音和噪音源；

所述多噪音过滤引擎API：作用是将增强原始声音作为输入，输出主声音人声和噪音源；多噪音过滤引擎API能部署在本地设备或服务器上；

所述通话主声音和噪音源合并模块：增强主声音，并抑制噪音源后，再将增强后的主声音和减弱后的噪音源，合成一个声音；

所述视频通话传输模块：TS流按照视频通话业务逻辑在通信网络中传输。

在本发明中，所述远场语音增强的视频通话中要关注数据的在各个模块的输入和输出；

远场声音输入，包括：通话语音(Cn)、环境噪音、回声噪音、混响噪音和多人声噪音；

麦克风阵列录音模块接收和录制上述远场声音，并输出数字信号的声音；

数字化的远场声音输入到多噪音过滤处理引擎；

多噪音过滤处理引擎访问多噪音过滤API管理服务器获取多噪音过滤引擎API；

多噪音过滤API管理服务器管理外部多噪音过滤引擎API；

多噪音过滤处理引擎调用多噪音过滤引擎API处理数字化的远场声音，处理后得到增强远场人声抑制多噪音源的声音数据。

另外，如图4所示，本发明的所述视频通话终端包含一个或多个处理器，一个内存，一个或多个存储器，一个电源，一个或多个连接器，一个网络接口(WIFI/3G/4G)以及一个麦克风阵列；所述视频通话终端也包含一个操作系统，操作系统包含若干能够在一个或多个处理器上运行的模块或应用；视频通话终端能包含待机唤醒模块，所述处理器、内存、存储器、电源、连接器、网络接口、麦克风阵列采用内部组件通信的方式互联(物理连接，双向通信，双向操作)起来；

远场视频通话设备可以包含连接器(WIFI网络、蓝牙连接、全球导航卫星系统、FM收音)

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：洪涛;孙铭俊
技术所有人：福州瑞芯微电子股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。