一种视频会议的声音处理方法

文档序号：7852993阅读：244来源：国知局

专利名称：一种视频会议的声音处理方法
技术领域：
本发明涉及视频会议技术领域，特别是指一种视频会议的声音处理方法。
背景技术：
对于目前的视频会议(包括如QQ、MSN等即时通讯的多人视频对话)系统终端，通常包括由大屏幕显示器、投影仪、电视墙等构成的显示终端，设置在显示终端两侧的扬声器，麦克风，以及用于传输音视频的主机。其中主机可由计算机实现。当用户与多个会议参与者进行视频会议时，主机从网络接收各个会议参与者的音视频数据，显示终端显示各个会议参与者的各个的视频显示窗口播放相应的视频，并通过扬声器播放所接收的音频。目前，用户多是通过声音特性(如声音粗细、高低等)，或通过观察各个视频窗口参会者的口型状态，判断出所播放的音频对应哪个视频显示窗口，即确定是谁在发言，因此并没有现场会议的现场感。另外，当出现多个参与者同时发言的情景时，发生扬声器同时播放出多个参与者的音频，还会造成声音的混乱，不仅影响通话质量，还使得用户更难以辨别出声音对应哪个视频显示窗口，即更难确定是谁在发言。

发明内容
有鉴于此，本发明的主要目的在于，提供一种自动配置视频声场的方法，实现通过播放出的声音对应的方位确定出该方位对应的视频窗口，从而确定出发言的会议参与者。本发明动配置视频声场的方法包括步骤A、确定视频会议的视频显示终端中各个视频显示窗口的位置；B、根据各个视频显示窗口的不同位置，分别为各个视频显示窗口配置对应其各自位置的声场；C、播放各个视频显示窗口对应的音频数据时，根据各个视频显示窗口对应的所配置的声场播放所述音频数据。由上，通过配置不同位置的视频显示窗口的声场，实现通过播放出的声音对应的方位确定出该方位对应的视频窗口，从而确定出发言的会议参与者。可选的，确定当前用户在视频显示终端上投影对应的位置；步骤B还包括将所述投影对应的位置作为声场的中心，来配置所述各个视频显示窗口对应的声场。由上，通过以当前用户投影位置为中心，实现确定出各视频显示窗口相对于当前用户的位置。从而依据位置配置声场。可选的，还包括视频显示终端至少两侧各有一扬声器，步骤B中一视频显示窗口的所述声场的配置包括
通过配置扬声器之间的音量差、播放音频数据的时间差和/或相位差配置该视频显示窗口对应其位置的所述声场。由上，通过音量差、时间差和/或相位差的配置，实现模拟出不同位置的声源。可选的，配置的所述扬声器之间的音量差、播放音频数据的时间差和/或相位差随视频显示窗口距离声场的中心距离的增大而增大。由上，通过依据各视频显示窗口的距离进行配置，实现模拟出不同位置以及距离的声源。可选的，所述确定当前用户在视频显示终端上投影对应位置的步骤包括采集包括当前用户面部区域的视频显示终端正前方的图像，确定出双眼中心；将所述双眼中心在视频显示终端投影的位置为当前用户在视频显示终端上投影对应的位置。由上，通过确定当前用户的投影位置，以便确定出各视频显示终端相对于当前用户所在的位置。可选的，还包括确定用户所关注的视频显示窗口，增大该视频显示窗口对应的音频数据的音量。由上，实现自动提闻用户关注的视频显不窗口的首量。可选的，所述确定用户所关注的视频显示窗口的步骤包括采集当前用户面部区域图像，确定出双眼瞳孔位置；以穿过该中心位置、垂直所述面部区域图像的视频显示窗口为用户所关注的视频显示窗口。由上，实现确定用户双眼所注视的视频显示窗口。可选的，所述各个视频显示窗口的位置可调整。

图I为本发明自动控制视频音量的方法的流程图；图2为本发明第一实施例中多个视频显示窗口的排列示意图；图3为本发明第二实施例中多个视频显示窗口的排列示意图；图4为本发明第三实施例中多个视频显示窗口的排列示意图。
具体实施例方式下面结合附图对本发明所述视频会议的声音处理方法进行详细描述。如图I所示，本发明自动控制视频音量的方法包括步骤步骤SlO :确定显示终端中各视频显示窗口位于屏幕的所在位置。如图2所示,在本发明第一实施例中，视频显示终端包括左、中、右三个视频显示窗口。视频显示终端屏幕的四个端点坐标分别为(0，0)、《，0)、(&￥)和(0八)。分别取每个视频显示窗口所在横坐标的中点An，其中，n为视频显示窗口的序号。则，视频显示窗口相对于视频显示终端的位置通过表达式An/X表示。不难理解，也可依据参与视频会议的人数增加视频显示窗口的数量，例如图3所示在本发明第二实施例中，视频显示终端由五个视频显示窗口组成。另外，在如图4所示的第三实施例中，视频显示终端被分为九个视频显示窗口。则依次将参与视频会议的人对应在上述九个视频显示窗口显示。每个视频显示窗口的坐标表示为(An, Bn),其中，A表示该视频显示窗口所在横坐标的中点，B表示该视频显示窗口所在纵坐标的中点，n为视频显示窗口的序号。其中，各视频显示窗口的纵向排列位置依据表达式Bn/Y表示。当前用户可任意调换各视频显示窗口的位置，设置完毕后，视频显示终端存储现有各视频显示窗口的位置关系。上述为多屏显示的现有技术，故不再赘述。步骤S20 :采集当前用户相对于视频显示终端所在的位置。通过图像定位采集当前用户所在位置，具体来说，视频显示终端上设置图像采集装置，图像采集装置，如摄像头采集当前用户面对视频显示终端所在的位置，并将该位置进行投影，投影至视频显示终端的显示平面。其中，图像采集装置采集当前用户所在位置包含有当前用户面部区域的视频显示终端正前方的图像，确定出图像中当前用户双眼中心，将所述双眼中心在视频显示终端投影的位置为当前用户在视频显示终端上投影对应的位置。该位置用字母C表示，则当前用户投影位置相对于视频显示终端的位置通过表达式C/X表示，确定出其位于视频显示终端显示平面上的坐标。另外，采集当前用户所在位置还可通过红外感应装置，红外感应装置收发红外射线，当前用户阻断红外射线时，红外感应装置便可获取其所在位置。另外，采集当前用户所在位置的方法还包括超声波定位、蓝牙定位或超宽带定位
坐寸o步骤S30 :确定当前用户相对于视频显示窗口所在的位置。由步骤SlO和步骤S20中的坐标An和C或表达式An/X和C/X，即可判断出各个视频显示窗口相对于当前用户投影的位置。步骤S40 :视频显示终端依据各视频显示窗口相对于参考位置配置不同视频显示窗口的不同声场。依据“双耳效应”理论，人耳对声场方位的判定能力是根据双耳间隔差(约17cm)弓丨起的以下三个物理因素产生的声音到达双耳间的时间差、声音到达双耳间的强度差以及声音到达双耳间的相位差。其中，时间差反映声音到达双耳先后造成的相对时间差异；强度差则反映声音在空气中传播由于双耳间隔所造成的衰减差异；相位差依据时间差产生，由于声音以波的形式传播过程中。相位差就是波形由一个位置传到另一个位置的时间之差，当左右扬声器具有一定的相位差，声音便有了宽度，有了立体感。当由两扬声器发出的不同声道音频相位差达到180°时，则当前用户可感觉到声音从身后发出。声音的函数表达式为y=Asin ( wX+),其中，A表示振幅，即声音强度、coX+4>表示相位，是初相。表达式中(0=2 /T，T为周期，周期为频率f的倒数。由此，通过改变上述三个物理因素便可模拟出声场的不同位置。若左右两扬声器的音频信号同步，即不存在任何时间差别的情况下，声场定位在左右两扬声器连线的中点上。若左右两扬声器间的音频信号存在时间差，即一只扬声器相对另一只扬声器的声音滞后，声场就会从所述两扬声器的中点沿两扬声器连线向声音未延迟的扬声器方向偏移。时间差用At表示。A t值越大，声场偏移越大。实验表明，当At在3 30ms之间时,称为“第一波前临界值”，声音听起来来自未延迟的扬声器，另一个扬声器声音的存在不明显。
另外，在同一个声道中，听觉感受上音量大，即振幅A值较大的音频其声音距离听者较近，音量小，即振幅A值较小的音频其声音距离听者较远。有鉴于此，进行声场配置时进行如下设置针对本发明的第一实施例，若依据表达式An/X和C/X计算得出当前用户正对第一视频显示窗口时，则第二视频显示窗口位于当前用户的右耳侧，且距离较近；第三视频显示窗口同样位于当前用户的右耳侧，距离较远。第一视频显示窗口播放音频时，左右两扬声器的音频信号没有时间差；第二、三视频显示窗口播放音频时，右扬声器的声音滞后，且滞后的时间与第二、三视频显不窗口的横坐标相对于当前用户所在位置的横坐标之间的距离成正比。较佳的，第二视频显示窗口的音频振幅大于第三视频显示窗口的音频振幅。又如，依据表达式An/X和C/X计算得出当前用户正对第二视频显示窗口时，则第一视频显示窗口位于当前用户的左耳侧，第三视频显示窗口位于当前用户的右耳侧。则第一视频显不窗口播放音频时，右扬声器的声音滞后；第二视频显不窗口播放音频时，左右两扬声器的音频信号同步；第三视频显不窗口播放音频时，左扬声器的声音滞后。另外，若计算得出当前用户正对第三视频显示窗口时，其配置原理与正对第一视频显示窗口时相同，不再赘述。同理，针对本发明第二实施例中，依据表达式An/X和C/X计算各视频显示窗口相对于当前用户投影的位置，依据距离进行声场配置。同理，可以采用左右扬声器的音量不同大小(即音频振幅)来模拟出声音的左右。另外，针对于本发明第三实施例，首先依据表达式An/X和C/X计算各视频显示窗口相对于当前用户投影的位置，其次，依据表达式Bn/Y计算出各视频显示窗口位于视频显示终端显示平面的底部或顶部。其中，通过表达式Bn/Y计算出的各视频显示窗口位置表示其距离当前用户的距离。例如图4所示，第一、二、三视频显示窗口位于视频显示终端的顶部，表示其距离当前用户距离较远，而第七、八、九视频显示窗口位于视频显示终端的底部，表示其距离当前用户距离较近。当用户正对第一、四、七视频显示窗口时，第一、四、七视频显示窗口播放音频时，左右两扬声器的音频信号同步；第二、五、八视频显示窗口以及第三、六、九视频显示窗口播放音频时，右扬声器的声音滞后，且滞后的时间与视频显示窗口的横坐标相对于当前用户所在位置的横坐标之间的距离成正比，距离越远，滞后时间越长。另外，第七、八、九视频显不窗口的首频振幅最大，而第一、_■、二视频显不窗口的首频振幅最小，所述振幅与视频显示窗口的纵坐标Bn成正比。而当前用户正对第二、五、八视频显示窗口时，第一、四、七视频显示窗口播放音频时，右扬声器的声音滞后，且第七视频显不窗口的音频振幅最大，而第一视频显不窗口的音频振幅最小，所述振幅与视频显示窗口的纵坐标Bn成正比；相应的，第三、六、九视频显示窗口播放音频时，左扬声器的音频滞后，且第九视频显示窗口的音频振幅最大，而第三视频显示窗口的音频振幅最小。而当第二、五、八视频显示窗口时若左右两扬声器的音频信号同步，同样的，第八视频显不窗口的首频振幅最大，第_■视频显不窗口的首频振幅最小。相应的，当前用户正对第三、六、九视频显示窗口时，其配置原理与正对第一、四、七视频显示窗口时相同，不再赘述。或者，通过时间差、强度差和相位差对左右扬声器的共同作用对视频显示窗口声场进行配置，例如，将位于视频显示终端显示平面底部的第七、八、九视频显示窗口的不同声道音频相位差配置为180°，第七视频显示窗口播放音频时，右扬声器的音频滞后；第九视频显示窗口播放音频时，左扬声器的音频滞后，使当前用户收听时感觉出第七、八、九视频显示窗口分别位于其左右侧、后侧和右后侧。相应的，配置第四、五、六视频显示窗口，使当前用户收听时感觉其分别位于左侧，对面和右侧；第一、二、三视频显示窗口分别位于左前侧、前侧和后前侧。由此，当播放各个视频显示窗口所对应的各个音频数据时，当前用户仅通过听，便可依据已配置的声场分辨出声音是来自哪个视频显示窗口。步骤S50 :视频显示终端确定当前用户所关注的视频显示窗口。本实施例中，采用视线追踪技术确定人眼所注视的视频显示窗口。视线追踪技术利用人眼球转动时相对位置不变的眼部或面部结构和特征作为参照，其具体步骤为所述图像采集装置采集当前用户面部区域，生成脸部图像，需要说明的是，在所述图像采集装置处设置红外光源，由于人的角膜对红外波段的光线会产生光强反射，因此设置红外光源可便于确认视线注视的位置；将所述脸部图像进行处理，处理过程包括降噪、滤波以及颜色属性变换，以确定出双眼位于面部区域的位置，即确定眼部图像；对眼部图像进行进一步图像处理，在角膜处产生红外波段的反光点，因此带有反光点的连续暗色圆形区域即为瞳孔。进一步的，分析瞳孔位于眼部的位置便可推断出当前用户所注视的方向，即推断出当前用户所注视的视频显示窗口。另外，也可采用当前用户手动选择的方式确定关注的视频显示窗口。具体来说，用户可通过控制终端选择激活视频显示终端中其中一个视频显示窗口。步骤S60 :视频显示终端控制被关注的视频显示窗口提高音量。在步骤S50中，当在视频会议中出现多人同时发言的情况时，当前用户在收听时难免造成混淆。因此，用户可通过控制终端选择激活视频显示终端中其中一个视频显示窗口。被激活的视频显示窗口音量增大，相应的，未被激活的其他视频显示窗口的音量减小。上述以一视频显示终端显示多个视频显示窗口为例进行说明。本发明所述的视频显示终端为逻辑上的显示终端，当多个物理显示终端并排或间隔放置时，这多个物理显示终端逻辑上对应为本发明所述的一个视频显示终端，即相当于多个物理显示终端构成一个电视墙。各个物理显示终端分别显示的视频窗口对应为本发明的各个视频显示窗口。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，总之，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种视频会议的声音处理方法，其特征在于，包括步骤 A、确定视频会议的视频显示终端中各个视频显示窗口的位置； B、根据各个视频显示窗口的不同位置，分别为各个视频显示窗口配置对应其各自位置的声场； C、播放各个视频显示窗口对应的音频数据时，根据各个视频显示窗口对应的所配置的声场播放所述音频数据。
2.根据权利要求I所述的方法，其特征在于，还包括确定当前用户在视频显示终端上投影对应的位置；步骤B还包括将所述投影对应的位置作为声场的中心，来配置所述各个视频显示窗口对应的声场。
3.根据权利要求I或2所述的方法，其特征在于，还包括视频显示终端至少两侧各有一扬声器，步骤B中一视频显示窗口的所述声场的配置包括通过配置扬声器之间的音量差、播放音频数据的时间差和/或相位差配置该视频显示窗口对应其位置的所述声场。
4.根据权利要求3所述的方法，其特征在于，配置的所述扬声器之间的音量差、播放音频数据的时间差和/或相位差随视频显示窗口距离声场的中心距离的增大而增大。
5.根据权利要求2所述的方法，其特征在于，所述确定当前用户在视频显示终端上投影对应位置的步骤包括采集包括当前用户面部区域的视频显示终端正前方的图像，确定出双眼中心；将所述双眼中心在视频显示终端投影的位置为当前用户在视频显示终端上投影对应的位置。
6.根据权利要求I所述的方法，其特征在于，还包括确定用户所关注的视频显示窗口，增大该视频显示窗口对应的音频数据的音量。
7.根据权利要求6所述的方法，其特征在于，所述确定用户所关注的视频显示窗口的步骤包括采集当前用户面部区域图像，确定出双眼瞳孔位置；以穿过该中心位置、垂直所述面部区域图像的视频显示窗口为用户所关注的视频显示窗P。
8.根据权利要求I所述的方法，其特征在于，所述各个视频显示窗口的位置可调整。
全文摘要
本发明提出了一种视频会议的声音处理方法，其特征在于，包括步骤A、确定视频会议的视频显示终端中各个视频显示窗口的位置；B、根据各个视频显示窗口的不同位置，分别为各个视频显示窗口配置对应其各自位置的声场；C、播放各个视频显示窗口对应的音频数据时，根据各个视频显示窗口对应的所配置的声场播放所述音频数据。本发明通过播放出的声音对应的方位确定出该方位对应的视频窗口，从而确定出发言的会议参与者。
文档编号H04N7/15GK102724604SQ201210184600
公开日2012年10月10日申请日期2012年6月6日优先权日2012年6月6日
发明者王瑞申请人:北京中自科技产业孵化器有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王瑞
技术所有人：北京中自科技产业孵化器有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。