一种视频通话设备和音频增益方法与流程

文档序号:24067461发布日期:2021-02-26 13:37阅读:91来源:国知局
一种视频通话设备和音频增益方法与流程

[0001]
本发明涉及电子技术领域,尤其涉及一种视频通话设备和音频增益方法。


背景技术:

[0002]
在远程会议中,因为会议室中可能会存在多个人员,不同人员距离拾音麦克风(microphone,mic)距离是不同的,所以拾音效果也会存在不同,一旦在拾音过程中不做任何处理,则会导致拾音得到音频不够准确清晰,远端播放的声音存在不能听清的情况。所以在拾音过程中需要对采集到的音频(声音数据)进行一定增益,以保证远端播放时音频足够清晰。在传统的音频增益方法中,需要使用多个麦克风进行拾音(至少6个),进而计算出发声者的角度及距离信息,从而根据这些数据对采集到的音频进行增益控制,以增加拾音的准确性和清晰度。此种方式中,因为需要不断的对采集的音频进行增益计算,计算过程较为复杂,而且发声者位置的计算是通过采集到的音频完成的,一旦采集到的音频噪声较多,会导致计算结果不准确,因此现有的音频增益方法会导致音频的采集和音频的播放之间存在较大延时,不能很好的对远程会议中采集的音频进行很好的增益控制。


技术实现要素:

[0003]
本发明的实施例提供一种视频通话设备和音频增益方法,能够更好的对远程会议中采集的音频进行增益控制。
[0004]
为达到上述目的,本发明的实施例采用如下技术方案:
[0005]
第一方面,提供一种视频通话设备,包括:麦克风阵列、音频处理器和摄像组件。其中,麦克风阵列由多个麦克风组成,用于获取视频通话设备对应的拾音区域中的声音数据;音频处理器,用于根据麦克风阵列获取的声音数据,确定声音数据对应的发声者所在的目标子区域;目标子区域为拾音区域包括的多个子区域中的一个;摄像组件用于获取音频处理器确定的目标子区域的目标图像,并根据目标图像确定发声者的目标位置信息;音频处理器还用于根据摄像组件确定的目标位置信息,对麦克风阵列获取到的声音数据进行增益控制。
[0006]
上述实施例提供的技术方案中,首先会使用音频处理器根据麦克风阵列获取的声音数据,对发声者的大致位置进行判断,确定其在拾音区域中的目标子区域,而后摄像组件则根据目标子区域的图像信息确定发声者的具体的目标位置信息,最后音频处理器便可以根据与目标位置信息对麦克风阵列获取的声音数据进行增益控制。因为整个过程中,集合声音数据和图像数据共同去决定发声者的位置信息,相比现有技术中仅依靠声音数据的方案会更准确,而且也可以避免噪声对位置信息判断结果的影响,从而使得最终确定的目标位置信息更加准确,最终根据该目标位置信息对声音数据进行增益控制的效果也就更好。
[0007]
第二方面,提供一种音频增益方法,包括:获取拾音区域的声音数据;根据声音数据,确定声音数据对应的发声者所在的目标子区域;目标子区域为拾音区域包括的多个子区域中的一个;获取目标子区域的目标图像,并根据目标图像确定发声者的目标位置信息;
根据目标位置信息对声音数据进行增益控制。
[0008]
第三方面,提供一种视频通话设备,包括存储器、处理器、总线和通信接口;存储器用于存储计算机执行指令,处理器与存储器通过总线连接;当视频通话设备运行时,处理器执行存储器存储的计算机执行指令,以使视频通话设备执行如第二方面提供的音频增益方法。
[0009]
第四方面,提供一种计算机可读存储介质,包括计算机执行指令,当计算机执行指令在视频通话设备上运行时,使得视频通话设备执行如第二方面提供的音频增益方法。
[0010]
第五方面,提供一种计算机程序产品,当该计算机程序产品中的指令由视频通话设备的处理器执行时,使得视频通话设备执行如第二方面提供的音频增益方法。
[0011]
可以理解的,上述提供的第二方面至第五方面提供的方案包括有第一方面提供的技术方案中相同的技术特征,其具备有和第一方面提供的技术方案相同的技术效果,所以其技术效果可参照第一方面的相关表述,此处不再赘述。
附图说明
[0012]
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]
图1为本申请实施例提供的一种远程会议的场景示意图;
[0014]
图2为本申请实施例提供的一种视频通话设备的结构示意图;
[0015]
图3为本申请实施例提供的另一种视频通话设备的结构示意图;
[0016]
图4为本申请实施例提供的一种图像处理方法中用于计算深度信息的示意图;
[0017]
图5为本申请实施例提供的一种拾音区域的子区域划分示意图;
[0018]
图6为本申请实施例提供的一种音频增益方法的流程示意图一;
[0019]
图7为本申请实施例提供的一种音频增益方法的流程示意图二;
[0020]
图8为本申请实施例提供的一种音频增益方法的流程示意图三;
[0021]
图9为本申请实施例提供的一种音频增益方法的流程示意图四;
[0022]
图10为本申请实施例提供的一种音频增益方法的流程示意图五;
[0023]
图11为本申请实施例提供的又一种视频通话设备的结构示意图。
具体实施方式
[0024]
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025]
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
[0026]
还需要说明的是,本申请实施例中,“的(英文:of)”,“相应的(英文:corresponding,relevant)”和“对应的(英文:corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
[0027]
为了便于清楚描述本申请实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
[0028]
图1是根据一示例性实施例示出的一种实施环境的示意图,如图1所示,为一种远程会议的场景示意图。其中,a区域中的人物通过设置在a区域中的视频通话设备01-1以及设置在b区域中视频通话设备01-2的和b区域中的人物进行视频会议。在a区域中的人物进行发言时,a区域作为本申请实施例中提到的拾音区域,反之则b区域为拾音区域。拾音区域中可以设置有多个固定位置的座椅供参与视频会议的人物使用。视频通话设备01(01-1和01-2)具体可以为设置有麦克风、摄像头和数据处理能力的显示设置,例如智能电视、智慧屏等。该视频通话设备可以对其麦克风收集到的声音数据和摄像头收集到的图像数据进行处理。
[0029]
本申请实施例提供的音频增益方法的执行主体可以为上述的视频通话设备,也可以为该视频通话设备中的一部分,对此本申请实施例不做具体限制。
[0030]
现有的音频增益方案中,因为需要不断的对采集的音频进行增益计算,计算过程较为复杂,而且发声者位置的计算是通过采集到的音频完成的,一旦采集到的音频噪声较多,会导致计算结果不准确,因此现有的音频增益方法会导致音频的采集和音频的播放之间存在较大延时,不能很好的对远程会议中采集的音频进行很好的增益控制。
[0031]
针对上述问题,参照图2所示,本申请实施例提供的视频通话设备01可以包括:麦克风阵列21、音频处理器22和摄像组件23。
[0032]
其中,麦克风阵列21,由多个麦克风组成,用于获取视频通话设备对应的拾音区域中的声音数据。示例性的,麦克风阵列中的多个麦克风可以为全向麦克风,也可以为指向麦克风。全向麦克风对于来自不同角度的声音,其灵敏度是基本相同的;指向麦克风对于不同角度的声音,其灵敏度是不同的。本申请实施例中的麦克风阵列可以是任意平面阵列,也可以是线型阵列,还可以是空间立体阵列,其中的全向麦克风和指向麦克风则根据实际需求设置在具体阵列中的方位。
[0033]
音频处理器22,用于根据麦克风阵列21获取的声音数据,确定声音数据对应的发声者所在的目标子区域。因为麦克风阵列中不同麦克风的位置是不同的,所以不同麦克风接收到的声音数据的到达时间是不一致的,所以可以根据这一点结合相应的算法得到发声者的大致位置;当然,还可以是其他任意可行方式,本申请对此不做具体限制。在本申请实施例中,音频处理器22可以为与麦克风阵列21相连的专用音频处理芯片,在本申请实施例中该专用音频处理芯片至少可以实现以下功能:发声者的定位、根据目标位置信息和环境信息确定目标音频增益信息、对声音数据进行增益控制。
[0034]
摄像组件23,用于获取音频处理器22确定的目标子区域的目标图像,并根据目标图像确定发声者的目标位置信息。示例性的,参照图3所示,摄像组件23可以包括摄像头231和图像识别模块232,摄像头231用于对其视角范围内的图像进行拍照以获取相应的图像,具体可以为单目摄像头也可以为多目摄像头,具体依据实际需求而定。图像识别模块232可
以为与摄像头231相连的专用图像处理芯片,其可以用于实现以下功能:发声者识别、拾音区域的环境信息识别、拾音区域中人物的位置信息识别(具体可以为方位以及相对于摄像头的距离)。
[0035]
在本申请中摄像头231可以对音频处理器22确定的目标子区域进行拍照,得到目标图像;具体可以是将摄像头231的视角中心与目标子区域的中心,然后进行拍照,拍照得到的图像即为目标图像;也可以是令摄像头231对整个拾音区域进行拍照,然后从中提取对应区域的图像作为目标图像,具体获取方式本申请做具体限制。图像识别模块232具体可以是对摄像头231得到的所述目标图像进行图像识别,以确定所述目标图像中发声者的目标位置信息。其中目标图像可以是一帧照片也可以是多帧照片,具体根据实际需求而定。
[0036]
具体的,图像识别可以利用计算机视觉算法实现。计算机视觉算法是帮助计算机理解图像的一种数学模型。计算机视觉算法的核心思想是利用数据驱动的方法从大数据之中学习出统计特性和模式,一般需要大量的训练样本对模型进行训练。具体地,可以使用计算机视觉算法对包括纹理、颜色、形状、空间关系和高层语义等的图像特征进行建模。通过训练样本对初始的模型进行训练,调整初始的模型中的参数来使图像识别的误差收敛,以构建新的模型。训练完成后,图像识别模块可以通过新的模型预测图像分类及分类的概率,从而进行图像识别。本申请实施例中,图像识别可以包括对发声者的识别以及对发声者位置信息的识别。
[0037]
示例性的,在本申请实施例中目标位置信息可以包括发声者与视频通话设备01的距离以及发声者相对于视频通话设备01的方位(例如角度)。图像识别模块232对目标图像进行识别确定目标位置信息的过程可以包括以下s1和s2两个步骤:
[0038]
s1、图像识别模块232对目标图像中的所有人物进行图像识别,以确定所有任务中的发声者。
[0039]
在本申请实施例中,以目标图像包括多帧照片为例,图像识别模块可以通过对多帧照片中每一个人物的脸部和动作识别,确定每一个人物的姿势以及面部动作,当确定某个人物为站立姿势且其面部动作为嘴巴一直动时,则认为该人物为发声者。当然,实际中还可以是其他任意可行的确定方式,本申请对比不做具体限制。
[0040]
s2、根据目标图像,确定发声者的目标位置信息。
[0041]
针对目标位置信息中发声者与视频通话设备的距离而言,由于摄像头本身设置在视频通话设备中,所以发声者和视频通话设备的距离可以近似看做发声者与摄像头之间的距离。具体确定方式存在以下两种可选方式:
[0042]
(1)本申请实施例中,确定发声者与摄像头之间的距离可以是距离梯度,例如:远、较远、中、较近和近等。具体可以利用发声者在目标图像中的大小,来确定发声者与摄像头之间的距离,发声者在目标图像中越小,则其与摄像头之间越远,针对目标图像中某物体的大小与距离的映射关系可以预先实验得到。
[0043]
(2)当摄像头为多目摄像头时,可以利用发声者在多目摄像头中不同的摄像头中成像的视差(disparity)来确定发声者与摄像头之间的距离。以双目摄像头为例,参照图4所示,左像平面和右像平面类似于多目摄像图中两个摄像头各自的像平面,假设左像平面和右像平面的尺寸均为l,o
r
和o
t
分别代表不同摄像头(即镜头光心),这两个摄像头在同一平面,距离为b。由图4可见左右两个摄像头的光轴是平行的且将各自的成像平面等分为两
半,f代表焦距。p1和p2分别是实际空间中的对象p在左像平面(对应第一图像)和右像平面(对应第二图像)中的成像点。其中,p1点距离左像平面的左侧边界的距离为x
r
,p2点距离右像平面的左侧边界的距离为x
t

[0044]
基于三角形相似的原理,可知b/z=((b-(x
r-x
t
))/(z-f);从而得到z=(b*f)/(x
r-x
t
)=(b*f)/d。
[0045]
其中,(x
r-x
t
)为空间中的同一对象p在不同拍摄图像中的位置之间的距离差(称为视差)。上述公式体现了对象p的深度信息与视差(x
r-x
t
)、焦距f以及距离b之间的关系,由于b、f为定值,因此根据(x
r-x
t
)可以确定出对象p的距离z;(x
r-x
t
)则可以由双目摄像头的两个摄像头在同一时间得到的两种图片中发声者的位置得出。
[0046]
可以理解的,上述确定发声者与摄像头之间的距离的举例仅用于解释本申请实施例,不应构成限定。发声者与摄像头之间的距离还可以采用其他方式,例如利用结构光测距。本申请实施例对发声者与摄像头之间的距离的测量方式不作限定。
[0047]
针对目标位置信息中发声者相对于视频通话设备的方位而言,由于摄像头本身设置在视频通话设备中,所以发声者相对于视频通话设备的方位可以近似看做发声者相对于摄像头的方位。具体可以将以摄像头为坐标原点建立在拾音区域中的三维坐标系,然后利用图像识别技术从目标图像中获取发声者(处于方便计算的考虑,可以以发声者脸部中的某个点作为发声者本体进行处理)的具体坐标,然后根据该坐标确定发声者相对于摄像头的方位。
[0048]
音频处理器22,用于根据摄像组件23确定的目标位置信息对应的目标音频增益信息,对麦克风阵列21获取到的声音数据进行增益控制。
[0049]
在本申请实施例提供的技术方案中,首先会使用音频处理器根据麦克风阵列获取的声音数据,对发声者的大致位置进行判断,确定其在拾音区域中的目标子区域,而后摄像组件则根据目标子区域的图像信息确定发声者的具体的目标位置信息,最后音频处理器便可以根据与目标位置信息对麦克风阵列获取的声音数据进行增益控制。因为整个过程中,集合声音数据和图像数据共同去决定发声者的位置信息,相比现有技术中仅依靠声音数据的方案会更准确,而且也可以避免噪声对位置信息判断结果的影响,从而使得最终确定的目标位置信息更加准确,最终根据该目标位置信息对声音数据进行增益控制的效果也就更好。
[0050]
进一步的,因为在确定目标位置信息的过程中,对于声音数据的分析计算只需要确定到一个大致区域(目标子区域),对于图像数据的分析计算也只需要对一个子区域中的图像数据进行分析计算,最后的增益控制则根据目标位置信息进行即可,所以整体上比现有技术中先根据所有声音数据确定准确位置同时进行去噪处理,然后计算准确位置对应的音频增益信息后对声音数据进行增益控制的方案而言,确定位置的过程需要的计算量会更小,计算效率会更高,时延会更低,用户体验度也就更好。更进一步的,因为本申请中,视频通话设备在对发声者的声音数据进行增益控制的过程中,使用了摄像组件获取的图像数据进行具体定位,所以相比于现有技术中麦克风阵列中麦克风数量,本申请中麦克风阵列的数量即便更少,也能达到很好的定位效果;进而,在视频通话设备本身具备摄像头的情况下,本申请实施例提供的技术方案,可以降低视频通话设备生产所需的成本。
[0051]
可选的,为了降低视频通话设备01的计算需求量,可以将每个音频增益信息提前
计算后存放在增益数据库中,该增益数据库可以放在视频通话设备上,也可以放在可以与视频通话设备01进行通信的服务器中,所以音频处理器22可以具体用于:从增益数据库中查找与摄像组件23确定的目标位置信息对应的目标音频增益信息;使用目标音频增益信息对麦克风阵列21获取到的声音数据进行增益控制。
[0052]
示例性的,这里的目标增益信息可以包括与目标位置信息对应的增益参数和/或波束成形信息。其中,波束成形信息可以由增益参数经过波束成形算法得到。当目标增益信息中只包含增益参数时,则需要根据该增益参数计算得出波束成型信息后对麦克风阵列的声音数据进行增益控制。波束成型信息主要用于给出控制麦克风阵列中麦克风的指向或者每个麦克风收集到的声音数据如何处理的信息,以增强某一方向的声音数据的强度,并减弱除该方向外的声音数据的强度,从而保证了麦克风阵列收集到的发声者的声音数据强度更高,该声音数据的播放侧也就可以播放更清晰准确的发声者的声音。
[0053]
进一步可选的,为了更好的完成增益数据库中音频增益信息的确定,在麦克风阵列21获取视频通话设备对应的拾音区域中的声音数据之前,摄像组件23还用于获取拾音区域的区域图像,并根据区域图像确定拾音区域的环境信息和拾音区域中每个人物的位置信息;所有人物的位置信息中包括目标位置信息;音频处理器22还用于根据摄像组件23获取的环境信息和每个人物的位置信息,确定每个位置信息对应的音频增益信息,并存储到所述增益数据库中;所有位置信息对应的音频增益信息中包括目标音频增益信息。示例性的,环境信息可以包括拾音区域的大小以及拾音区域中障碍物的多少;因为实际中,麦克风阵列在拾音时,其所在的环境大小和环境中障碍物的多少,也会影响其收集到声音数据的相关参数,所以在计算每个位置信息对应的音频增益信息时,还需要考虑上述提到的环境信息。
[0054]
需要说明的是,因为在远程会议过程中,人员可能会出现变动,所以上述摄像组件23和音频处理器22配合确定每个位置信息对应的音频增益信息的过程,可以在音频处理器22所属的视频通话设备打开后,每隔预定时间(例如5分钟)执行一次,以更新增益数据库中的相关数据。
[0055]
可选的,摄像组件23还用于根据所述拾音区域的区域图像将拾音区域划分为多个子区域,便将划分结果发送给音频处理器22,方便其确定声音数据对应的发声者所在的目标子区域。另外,该划分结果还可以存储在增益数据库中,后续音频处理器22需要使用时,从增益数据库中查找相关数据即可。
[0056]
一种可行方式中,划分结果中可以包括每个子区域相对于摄像组件23的方位的角度范围以及编号。音频处理器22在确定目标子区域时,一般会得到的发声者相对于麦克风阵列21的方位的角度范围,但是因为摄像组件23和麦克风阵列都是位于视频通话设备01上,一般设置在同一平面,所以发声者相对于麦克风阵列21的方位的角度范围可以近似认为是发声者相对于摄像组件23的方位的角度范围,在确定该角度范围后将其对应的编号发送给摄像组件23,即可使得摄像组件确定目标子区域,并进行后续动作。另一种可行方式中,划分结果还可以是子区域相对于视频通话设备01所在的平面上的某个点(例如图1所示的视频通话设备的屏幕上的某个点)的方位的角度范围以及编号,后续音频处理器22在确定目标子区域时,可以将发声者相对于麦克风阵列21的方位的角度范围可以近似认为是发声者相对于该点的方位的角度范围。当然,还可以是其他任意可行的划分结果,本申请对此
不做具体限制。
[0057]
示例性的,以划分结果中包括每个子区域相对于摄像组件的方位的角度范围以及编号为例,子区域的划分可以依据摄像组件可拍摄的最大角度来划分,参照图5所示,摄像组件(图中未示出)的最大拍摄角度可以为α,则可以将该α分为若干等分(图中以5等分为例),然后对每个等分的区域设置相应编号,如图5中子区域1、子区域2、子区域3、子区域4和子区域5。
[0058]
这样一来,在发声者开始发声前,便可以根据拾音区域中人物的分布情况,计算出每个人物的位置信息对应的音频增益信息,后续在需要确定某个位置信息的音频增益信息时,便可以直接从增益数据库中取用,节省了实时计算音频增益信息的计算过程所需的时延,使得整个音频增益过程的时延更低,提高了用户体验。进一步的,因为音频增益信息的计算,可以在获取到声音数据前提前计算,所以对音频处理器的计算力需求会降低,计算力低的音频处理器的成本也会更低,也就可以在一定程度上降低视频通话设备生产所需的成本。
[0059]
进一步可选的,当摄像组件23包括摄像头231和图像识别模块232时,在麦克风阵列21获取视频通话设备01对应的拾音区域中的声音数据之前,摄像头231还用于对拾音区域拍照得到区域图像;图像识别模块232还用于对摄像头231得到的区域图像进行图像识别,以获取拾音区域的环境信息和拾音区域中每个人物的位置信息。
[0060]
本申请实施例提供的视频通话设备在实现音频增益的过程中,首先会使用音频处理器根据麦克风阵列获取的声音数据,对发声者的大致位置进行判断,确定其在拾音区域中的目标子区域,而后摄像组件则根据目标子区域的图像信息确定发声者的具体的目标位置信息,最后音频处理器便可以根据与目标位置信息对麦克风阵列获取的声音数据进行增益控制。因为整个过程中,集合声音数据和图像数据共同去决定发声者的位置信息,相比现有技术中仅依靠声音数据的方案会更准确,而且也可以避免噪声对位置信息判断结果的影响,从而使得最终确定的目标位置信息更加准确,最终根据该目标位置信息对声音数据进行增益控制的效果也就更好。
[0061]
基于前述实施例提供的视频通话设备,参照图6所示,本申请实施例还提供一种音频增益方法,可以应用于前述实施例中的视频通话设备,该方法包括601-604:
[0062]
601、获取拾音区域的声音数据。
[0063]
其中,该拾音区域为视频通话设备对应的拾音区域。
[0064]
602、根据声音数据,确定声音数据对应的发声者所在的目标子区域。
[0065]
其中,目标子区域为拾音区域包括的多个子区域中的一个。
[0066]
603、获取目标子区域的目标图像,并根据目标图像确定发声者的目标位置信息。
[0067]
可选的,当视频通话设备中的摄像组件包括摄像头和图像识别模块时,参照图7所示,603步骤具体可以包括6031和6032:
[0068]
6031、对目标子区域进行拍照,得到目标图像。
[0069]
6032、对目标图像进行图像识别,以确定目标图像中发声者的目标位置信息。
[0070]
604、根据目标位置信息对声音数据进行增益控制。
[0071]
可选的,结合图7,参照图8所示,604具体包括6041和6042:
[0072]
6041、从增益数据库中查找与目标位置信息对应的目标音频增益信息。
[0073]
6042、使用目标音频增益信息对声音数据进行增益控制。
[0074]
进一步可选的,结合图8,参照图9所示,601步骤之前还包括600a和600b:
[0075]
600a、获取拾音区域的区域图像,并根据区域图像确定拾音区域的环境信息和拾音区域中每个人物的位置信息。
[0076]
600b、根据环境信息和每个人物的位置信息,确定每个位置信息对应的音频增益信息并存储到增益数据库中;所有位置信息对应的音频增益信息中包括目标音频增益信息。
[0077]
进一步可选的,当视频通话设备中的摄像组件包括摄像头和图像识别模块时,结合图9,参照图10所示,600a包括6001a和6002a:
[0078]
6001a、对所述拾音区域拍照得到所述区域图像。
[0079]
6002a、对所述区域图像进行图像识别,以获取所述拾音区域的环境信息和所述拾音区域中每个人物的位置信息。
[0080]
本申请实施例提供的音频增益方法,因为是基于前述实施例提供的视频通话设备的,两者具体相同的技术特征,所以其有益效果可参照前述实施例中视频通话设备的有益效果,此处不再赘述。
[0081]
在采用集成模块的情况下,参照图11所示,本申请实施例还提供另一种视频通话设备,包括存储器41、处理器42、总线43和通信接口44;存储器41用于存储计算机执行指令,处理器42与存储器41通过总线43连接;当视频通话设备运行时,处理器42执行存储器41存储的计算机执行指令,以使视频通话设备执行如上述实施例提供的音频增益方法。该视频通话设备还应包括有能够摄像的摄像头44和能够拾音的麦克风阵列45。摄像头44和麦克风阵列45通过总线43与外围设备接口46连接,外设接口46与处理器42和存储器41之间通过总线43连接。
[0082]
在具体的实现中,作为一种实施例,处理器42(42-1和42-2)可以包括一个或多个cpu,例如图11中所示的cpu0和cpu1。且作为一种实施例,视频通话设备可以包括多个处理器42,例如图11中所示的处理器42-1和处理器42-2。这些处理器42中的每一个cpu可以是一个单核处理器(single-cpu),也可以是一个多核处理器(multi-cpu)。这里的处理器42可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
[0083]
存储器41可以是只读存储器41(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器41可以是独立存在,通过总线43与处理器42相连接。存储器41也可以和处理器42集成在一起。
[0084]
在具体的实现中,存储器41,用于存储本申请中的数据和执行本申请的软件程序对应的计算机执行指令。处理器42可以通过运行或执行存储在存储器41内的软件程序,以及调用存储在存储器41内的数据,视频通话设备的各种功能。
[0085]
通信接口44,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如控制系统、无线接入网(radio access network,ran),无线局域网(wireless local area networks,wlan)等。通信接口44可以包括接收单元实现接收功能,以及发送单元实现发送功能。
[0086]
总线43,可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(peripheral component interconnect,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。该总线43可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0087]
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行如上述实施例提供的音频增益方法。
[0088]
本申请实施例还提供一种计算机程序产品,当该计算机程序产品中的指令由视频通话设备的处理器执行时,使得视频通话设备执行如前述实施例提供的音频增益方法。
[0089]
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0090]
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0091]
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0092]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个
存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0093]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1