一种具有声音位置信息的视频通讯系统及其获取方法

文档序号:7957478阅读:133来源:国知局
专利名称:一种具有声音位置信息的视频通讯系统及其获取方法
技术领域
本发明涉及视频通讯技术领域,具体涉及一种具有声音位置信息的视频通讯系统。
背景技术
目前电视机的屏幕越来越大,此外有的视频通讯系统采用投影仪或电视墙显示,导致与会者在画面上移动的位置较大,而目前的多媒体通讯系统的声音并没有根据说话者的位置发生改变,即声音没有方位信息,导致视频通讯缺乏真实感。
在公开号为20030048353的美国专利中,公开了一种解决上述问题的方法,具体方案是在电视机顶部放置一个长条型的装置,在该装置里有多个麦克风,多个扬声器,以及摄像头。对多个麦克风采集的声音信号进行处理之后,可以获得一个语音信号,以及一个相对于长条型装置的说话人方位信息。视频通讯系统的发送端将获得的语音信号和说话人方位信息通过网络传送到接收端,接收端根据接受到的方位信息,选择一个或多个扬声器播放,这样在接收端就可以重现说话者的方位信息。
上述专利公开的方案中,发送端采集的方位信息是相对于长条型装置的,而不是相对于摄像机镜头的。这样会带来一个问题当转动摄像机镜头时,长条形装置正前方的说话人就在画面的旁边,甚至不在画面之内,而采集的声音方位信息还是正前方的,这样就导致画面中说话人的位置和采集的方位信息不匹配。
因此需要提供一种方法来解决上述专利中存在的当摄像机镜头转动时,画面中说话人的位置和采集的声音方位信息不匹配的问题。

发明内容
本发明的目的在于提供一种视频通讯系统及其获取方法,可以使得重放的声音和画面中说话人的位置实现准确的匹配。
为达到本发明的目的,所采取的技术方案是一种具有声音位置信息的视频通讯系统,所述的视频通讯系统包括11)两个以上麦克风,用于采集声音;12)可以转动或调整焦距的摄像头;13)处理器,用于根据所述麦克风采集的语音计算音源位置信息,并根据摄像头的控制信息调整音源的位置信息。
所述的音源位置信息包括水平角度、垂直角度和距离。所述的音源水平角度和垂直角度调整的方法为修正后的音源水平角度=音源水平角度-摄像头的水平转动角度修正后的音源垂直角度=音源垂直角度-摄像头的垂直转动角度所述的音源距离修正方法为修正后的音源距离=修正系数×音源距离其中修正系数和摄像头的焦距成反比。
所述的视频通讯系统,进一步包括将所述的音源位置信息转换成音源在画面上的相应位置。所述的音源在画面上的相应位置包括音源在画面上水平方向的相对位置和垂直方向的相对位置,分别用下式计算画面上水平方向相对位置=tagω/tagω0画面上垂直方向相对位置=tagθ/tagθ0式中ω是修正之后的音源水平方向角度,ω0是水平方向会议场景边缘偏离镜头的角度,θ是修正之后的音源垂直方向角度,θ0是垂直方向会议场景边缘偏离镜头的角度。
所述的视频通讯系统,还进一步包括下面(一)和(二)之一(一)、71)发送终端将所述的音源在画面上的位置信息、音源距离以及声音信号发送到网络;72)接收终端从网络接收所述的音源在画面上的位置信息、音源距离以及声音信号;73)接收终端根据音源在画面上的位置信息、音源距离对声音信号进行处理;74)接收终端在扬声器上播放处理过的声音信号。
(二)、
81)发送终端根据音源在画面上的位置信息、音源距离对声音信号进行处理;81)发送终端将处理之后的声音信号发送到网络;82)接收终端从网络接收处理之后的声音信号;84)接收终端在扬声器上播放处理之后的声音信号。
所述的视频通讯系统,进一步包括重放声音的扬声器由左右两个扬声器组成,通过调整左右声道声音的幅度,使得音源在水平方向和画面匹配,通过调整声音的总体幅度来调整声源的距离,左右两声道调整得幅度采用下面两式计算w’=(g1-g2)/(g1+g2)c=g1*g1+g2*g2式中g1是左声道幅度增益,g2是右声道幅度增益,w’声源水平方向在画面上的相对距离,c和音源距离成反比,如果不调整音源距离,c是一个固定值。
一种和所述的视频通讯系统相对应的获取声音位置信息的方法,包括以下步骤91)用多个麦克风采集多路声音,并根据采集得多路语音计算音源位置信息;92)获取摄像头控制信息;93)根据摄像头的控制信息调整音源的位置信息。
一种和所述获取声音位置信息方法对应的装置,其特征在于,所述的装置根据麦克风采集的声音计算音源位置信息,并根据摄像头的控制信息调整音源位置信息。
采用上述技术方案,本发明有益的技术效果在于1)本发明采用摄像机控制信息调整音源位置信息,使得声源和画面中说话人的位置实现准确的匹配,增强的视频通讯系统的临场感。
2)本发明在对声音信号进行处理时,将声音的位置信息转换成了声源在画面上的相对位置,使得重放的声音方位不受电视机屏幕大小的影响。


下面通过具体实施方式
并结合附图对本发明作进一步的详细说明。
图1A是视频通信系统的示意图,其中发送端摄像头朝向正前方。
图1B是视频通信系统的示意图,其中发送端摄像头转动了一定的角度。
图2是调整声音位置信息的流程图。
图3是会议场景成像示意图。
图4是传递声音到远端并播放的流程图,其中对声音的处理在接收端进行。
图5是传递声音到远端并播放的流程图,其中对声音的处理在发送端进行。
具体实施例方式
图1A是视频通信系统的示意图,图中110是发送端会场,111是接收端会场,109是通信网络,通信网络可以是IP网络、PSTN网络、无线网络等。在会场110中,101是摄像头,102是视频通信终端,103是电视机,104、105是参会者,112、113是扬声器。会场110中还有多个麦克风,麦克风可以是置于终端102的内部或者摄像头101的内部,也可以是独立的置于外部,通过传输线和终端102相连接,或者内部外部都有麦克风。在会场111中,106是摄像头,107是视频通信终端,108是电视机,104a、105a是参会者104、105的图像,114、115是扬声器。会场111中还有多个麦克风,麦克风可以是置于终端107的内部或者摄像头106的内部,也可以是独立的置于外部,通过传输线和终端107相连接,或者内部外部都有麦克风。发送端会场110中的摄像头101捕获图像后,传送到终端102,终端102对图像经过编码等处理之后,通过网络109传输到终端107,终端107对接收到的图像码流进行解码,并将解码之后的图像传输到电视机108上显示。会场110中的麦克风捕获声音信号之后,传递给终端102,终端102进行音频编码,通过网络109将编码后的音频码流传输给终端107,终端107对接收到的音频码流解码之后,传送给扬声器114、115重放。图1B是和图1A完全相同的视频通信系统,只是摄像头101转动了一定的角度。在图1A中,摄像头101正对参会者104,因此参会者104的图像104a也显示在电视机屏幕的中间。在图1B中,摄像头101正对参会者105,因此参会者105的图像105a显示在电视机屏幕的中间,而此时参会者104的图像104a显示在电视机屏幕的左边。
不失一般性,如果是通过内置在终端102中的多个麦克风采集的声音信号计算说话者的方位,假设当前说话者是104,由于在图1A和图1B中,说话者104相对于终端的位置都处于正前方,因此计算出的声音方位也都是正前方的,而实际上在图1B中,说话者104的图像104a已经偏移到电视机108的左边屏幕,即声音方位并没有和图像匹配,因此需要根据摄像机镜头的转动角度调整声音的方位信息。图2说明了声音位置信息的调整流程。
在图2中,步骤201用多个麦克风采集多路声音信号,步骤202对步骤201采集的多路声音信号进行处理,计算出音源的位置信息,具体来说,位置信息包括水平角度、垂直角度、距离等。用同时采集的多路声音计算音源的位置信息的技术,可以在现有的公开的文献中查到,在本发明中不再详述。步骤203收集摄像头的控制信息,所述的控制信息包括水平转动角度、垂直转动角度、焦距等。步骤204根据步骤203收集到的摄像头控制信息,调整音源的位置信息。步骤205输出调整后的音源位置信息。
用ωS、θS、DS分别表示步骤202计算的水平角度、垂直角度和距离,用ωC、θC、f分别表示步骤203收集的摄像头的水平角度、垂直角度和焦距,用ω、θ、D分别表示步骤204中修正的水平角度、垂直角度和距离,则ω、θ、D可用下面的公式计算ω=ωS-ωC(1)θ=θS-θC(2)D=(f0/f)*DS(3)公式(3)中f0摄像头默认的焦距,也可以是某一个设置的值。
通常情况下,图2中的步骤201至步骤205都在发送端完成,作为一种变通的手段,步骤204和步骤205也可以在接收端完成,在这种情况下,在发送端完成的步骤201、202、203以及在接收端完成的步骤204、205还应视为同一个流程,只是在不同的终端处理。
图3是会议场景成像示意图,其中301是会议场景,302是摄像头,303是会议场景在摄像头靶面上的成像,304是会场中的一个说话者,304a是说话者304的成像,W是会议场景的宽度、H是会议场景的高度、w是成像的宽度、h是成像的高度、L是会议场景据摄像头的距离,f是摄像头的焦距,说话人的图像304a距离靶面中心的宽度和高度分别是w0和h0。此外图3中θ是说话人在垂直方向偏离镜头的角度,即修正之后的音源垂直方向角度,θ0是垂直方向会议场景边缘偏离镜头的角度,即最大能捕获图像的视角;说话人在水平方向偏离镜头的角度(即修正之后的音源水平方向角度)在图中没有画出,用ω表示,另外用ω0表示水平方向会议场景边缘偏离镜头的角度。
根据音源位置信息处理声音时,为了使声音和画面上的说话人匹配,需要将音源的位置信息转换成音源在画面上的相应位置。下面描述如何计算音源在画面上的相应位置。音源在画面上的相应位置可以用相对位置来表示,令w’和h’分别表示水平和垂直方向的相对位置,则可用下面的公式计算w’=w0/(w/2)(4)h’=h0/(h/2)(5)从图3中我们可以看出h0/(h/2)=(h0/f)/((h/2)/f)=tagθ/tagθ0同理w0/(w/2)=(w0/f)/((w/2)/f)=tagω/tagω0因此公式(4)、(5)等价于w’=tagω/tagω0(6)h’=tagθ/tagθ0(7)公式(6)、(7)中的tagω0和tagθ0可分别用下面的两个公式计算tagω0=(w/2)/f (8)tagθ0=(h/2)/f (9)为了在接收端扬声器重放具有位置信息的声音,需要根据声源在画面上的相应位置以及修正后声源距离对声音进行处理。处理可在接收端进行,也可以在发送端进行,图4和图5说明了这两个不同的方案。
图4是传递声音到远端并播放的流程图,步骤401中,发送端传输声音和音源位置信息到网络,其中声音可以是一路也可以是多路,优选的方案是一路,音源位置信息指的是根据公式(3)调整的音源距离以及根据公式(6)、(7)计算的音源在画面上的相应位置,网络指的是图1A和图1B中的109;步骤402中,接收端从网络接收声音和音源位置信息;步骤403根据接收到的音源位置信息处理接收到的声音;步骤404用扬声器重放处理过的声音。
图5是传递声音到远端并播放的流程图,在步骤501中,发送端根据音源的位置信息处理传送到远端的声音,其中声音可以是一路也可以是多路,优选的方案是二路,音源位置信息指的是根据公式(3)调整的音源距离以及根据公式(6)、(7)计算的音源在画面上的相应位置;步骤502传输已被处理的声音到网络,网络指的是图1A和图1B中的109;步骤503中,接收端从网络接收已被处理的声音;步骤504用扬声器重放处理过的声音。
在图4的步骤403和图5的步骤501都需要根据音源位置信息处理声音信号,如果重放的是两个扬声器,且两个扬声器分别在电视机左右两边,一个声音处理方案是,通过调整左右声道声音的幅度,来达到音源在水平方向和画面匹配的目的,另外可通过调整声音的总体幅度来调整音源的距离,可用下面的两个公式描述具体的调整的方法w’=(g1-g2)/(g1+g2) (10)c=g1*g1+g2*g2 (11)公式(10)、(11)中g1是左声道幅度增益,g2是右声道幅度增益,w’是根据公式(6)计算的声源水平方向在画面上的相对距离,如果不调整音源距离,c是一个固定值,例如可以等于1,如果需调整音源距离,c和修正的音源距离成反比,如下式所示c=C0/D (12)公式(12)中C0是一个设定的固定值,D是根据公式(3)计算的修正的音源距离。
另外一种根据音源位置信息处理声音的方法是采用HRTF(Head RelatedTransfer Functions),头部相关传输函数。采用HRTF虚拟出一个声源的技术在现有的技术文献中都已公开,在本发明中不再详述。
权利要求
1.一种视频通讯系统,其特征在于,11)两个以上麦克风,用于采集声音;12)可以转动或调整焦距的摄像头;13)处理器,用于根据所述麦克风采集的语音计算音源位置信息,并根据摄像头的控制信息调整音源位置信息。
2.根据权利要求1所述的视频通讯系统,所述的音源位置信息包括水平角度、垂直角度和距离。
3.根据权利要求2所述的视频通讯系统,所述的音源水平角度和垂直角度调整的方法为修正后的音源水平角度=音源水平角度-摄像头的水平转动角度修正后的音源垂直角度=音源垂直角度-摄像头的垂直转动角度
4.根据权利要求2所述的视频通讯系统,所述的音源距离修正方法为修正后的音源距离=修正系数×音源距离其中修正系数和摄像头的焦距成反比。
5.根据权利要求1所述的视频通讯系统,进一步包括将所述的音源位置信息转换成音源在画面上的相应位置。
6.根据权利要求5所述的视频通讯系统,所述的音源在画面上的相应位置包括音源在画面上水平方向的相对位置和垂直方向的相对位置,分别用下式计算画面上水平方向相对位置=tagω/tagω0画面上垂直方向相对位置=tagθ/tagθ0式中ω是修正之后的音源水平方向角度,ω0是水平方向会议场景边缘偏离镜头的角度,θ是修正之后的音源垂直方向角度,θ0是垂直方向会议场景边缘偏离镜头的角度。
7.根据权利要求5所述的视频通讯系统,进一步包括一个发送终端和至少一个接收终端,所述发送终端和接收终端通过网络互通,71)发送终端将所述的音源在画面上的位置信息、音源距离以及声音信号发送到网络;72)接收终端从网络接收所述的音源在画面上的位置信息、音源距离以及声音信号;73)接收终端根据音源在画面上的位置信息、音源距离对声音信号进行处理;74)接收终端在扬声器上播放处理过的声音信号。
8.根据权利要求5所述的视频通讯系统,进一步包括81)发送终端根据音源在画面上的位置信息、音源距离对声音信号进行处理81)发送终端将处理之后的声音信号发送到网络;82)接收终端从网络接收处理之后的声音信号;84)接收终端在扬声器上播放处理之后的声音信号。
9.一种在视频通讯系统中获取声音位置信息的方法,其特征在于,包括以下步骤91)用麦克风采集声音,并根据采集的语音计算音源位置信息;92)获取摄像头控制信息;93)根据摄像头的控制信息调整音源的位置信息。
10.一种在视频通讯系统中获取声音位置信息的装置,其特征在于,所述的装置根据麦克风采集的声音计算音源位置信息,并根据摄像头的控制信息调整音源位置信息。
全文摘要
本发明公开了一种具有声音位置信息的视频通讯系统,包括用于采集多路声音多个麦克风,可以接收控制命令转动或调整焦距的摄像头,和摄像头及多个麦克风相连接的处理器。处理器根据多个麦克风采集的多路语音计算音源位置信息,并根据摄像头的控制信息调整音源的位置信息。本发明解决了当摄像机镜头转动时,画面中说话人的位置和采集的声音方位信息不匹配的问题,采用本发明所述的视频通讯系统,可以使得重放的声音和画面中说话人的位置实现准确的匹配。
文档编号H04N7/14GK1901663SQ20061006181
公开日2007年1月24日 申请日期2006年7月25日 优先权日2006年7月25日
发明者詹五洲 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1