一种视频通讯的方法、系统及用于视频通讯的装置的制作方法

文档序号：7661207阅读：172来源：国知局

专利名称：一种视频通讯的方法、系统及用于视频通讯的装置的制作方法
技术领域：
本发明涉及通信技术领域，尤其涉及一种视频通讯的方法、系统及用于视频通讯的装置。
背景技术：
随着电视机的广泛普及，用户对电视机屏幕的尺寸要求越来越高，甚至有的视频通讯系统采用投影仪或电视墙来显示，这时如果画面由至少两个子画面合成，不同子画面中的说话者的位置相对在屏幕尺寸要求低时会有较大的不同，而目前的多媒体通讯系统的发出声音的位置并没有根据说话者的位置的改变而相应的发生改变，导致声音的方位信息和子画面不匹配，进而影响到视频通讯的真实感。现有技术中，一个视频会议系统，包括多点控制单元(MCU, Micro Controller Unit)、单声道终端、至少两个声道以上的多声道终端等设备，终端和MCU建立连接后，终端将扬声器的位置和数目等配制情况上报给MCU, MCU根据终端的扬声器的配制情况为各个终端分配声道数目，例如，如果终端只有一个扬声器，则只分配单声道，如果有两个扬声器，则分配双声道，如果有四个扬声器，则分配四个声道。在会议过程中，MCU接收各个端点的一见频流和音频流，将^L频流组合成一个多画面发送给终端，而对于音频流则根据终端的声道配制情况来生成，例如，终端一有四个声道，则为终端一生成四个音频流，每个音频流对应终端一的一个扬声器。音频流的生成一般采用调解幅度和时延的方式，采用这种方式处理后，使得终端一感觉声音从画面中发言人的位置发出，从而具有声音的方位信息感。在对现有技术的研究和实践过程中，发明人发现现有技术存在以下问题 MCU必须知道预先知道扬声器配置情况，才能根据扬声器的数目生成相应数目的音频流，但是会导致MCU和终端的联系太紧密，不够灵活
发明内容
本发明实施例要解决的t,:-::巧趙是提供一种视频通讯的方法、系统及用于一见频通讯的^五，能够降低多点控制单元与终端之间联系的紧密度，提高灵活性。为解决上述技术问题，本发明所提供的实施例是通过以下技术方案实现的本发明实施例提供了一种视频通讯的方法，包括标识接收到的各路音频流对应的合成画面中的子画面；根据各子画面在合成画面中的位置获取各路音频流的方位信息；将音频流及相应的方位信息发送给终端；终端根据接收到的音频流的方位信息，对音频信号进行处理，使音频流具有方位信息。本发明实施例还提供的一种视频通讯的系统，包括标识单元，用于标识4矣收到的各路音频流对应的合成画面中的子画面；获取单元，用于根据各子画面在合成画面中的位置获取各路音频流的方位信息；发送单元，用于发送音频流及相应的方位信息；终端单元，用于根据接收到的方位信息，对音频信号进行处理，使音频流具有方位信息。本发明实施例还提供了一种用于视频通讯的装置，包括标识单元，用于标识-接收到的各路音频流对应的合成画面中的子画面；获取单元，用于根据各子画面在合成画面中的位置获取各路音频流的方位信息；发送单元，用于发送音频流及相应的方位信息。以上技术方案可以看出，由于对接收到的各路音频流对应的合成画面中
的子画面进行标识，获取各路音频流的方位信息后，将音频流及相应的方位信息发送给终端，因此，不需要知道终端扬声器的配置情况，由终端根据接收到的音频流的方位信息，对音频信号进行处理，使音频流具有方位信息。从而降低多点控制单元与终端之间联系的紧密度，提高灵活性。

图1为本发明实施例提供的视频会议系统示意图；图2为本发明实施例提供的进行视频处理原理图；图3为本发明实施例提供的进行音频处理原理图；图4为本发明实施例提供的表示相对位置的示意图；图5为本发明实施例一提供的方法流程图；图6为本发明实施例二提供的方法流程图；图7为本发明实施例三提供的方法流程图；图8为本发明实施例提供的系统示意图；图9为本发明实施例提供的装置示意图。
具体实施方式
本发明实施例提供了一种视频通讯的方法、系统及用于视频通讯的装置，用于视频通讯时，提高系统的灵活性，为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。参见图1，为本发明实施例提供的视频会议系统示意图，第一终端101、第二终端102、第三终端103分别将各自的视频流和音频流法送给多点控制单元104,多点控制单元对接收到的视频流和音频流进行处理，将处理后的音频流和视频流发送给第一终端101、第二终端102、第三终端103。下面对多点控制单元对接收到的视频流和音频流进行处理的过程进行说明参见图2,为本发明实施例提供的进行视频处理原理图。例如，第一终端101请求观看第二终端102和第三终端103合成的画面，第二终端102请求观看第二终端102和第三终端103合成的画面，第三终端103请求观看第二终端102的视频，根据这些请求，多点控制单元104将第二终端102的视频码流直接转发给第三终端103,另外将第二终端102和第三终端103的^L频码流进行解码，然后合成多画面，编码之后发送给第一终端101终端和第二终端 102。在合成多画面时，可根据需要对多画面中各终端视频信号的分辨率进行调整，例如对于第二终端102在左子画面，第三终端103在右子画面合成的多画面，可以将第二终端102和第三终端103在水平方向的分辨率降低一半，这样合成的多画面的分辨率保持不变；而对于虚拟会议系统或者其他要求比较高的场合，可以不降低第二终端102和第三终端103的分辨率，而只是将两个视频信号在水平方向拼接在一起，这样合成之后的多画面信号的分辨率是原来的二倍。多点控制单元104对终端的音频流进行解码，然后混音，并对混合之后的声音进行编码，再将编码之后的音频信号发送给终端。在混音时，一般情况下不会混入自己终端的声音，例如，多点控制单元104将第二终端102和第三终端103的音频流混音之后进行编码发送给第一终端101,将第一终端101和第三终端103的音频流混音之后进fi"编码发送给第二终端102,将第一终端101和第一终端101的音频流混音之后进行编码发送给第三终端103 。图3为本发明实施例提供的进行音频处理原理图。第一终端101、第二终端102、第三终端103将音频流发送到多点控制单元104,多点控制单元104 接收到各个终端的音频流后进行解码，解码后将各路音频流进行混音处理，混音处理后的音频流进行编码后，分别发送给各个终端，例如，向第一终端发送第二终端和第三终端的混音码流，向第二终端发送第一终端和第三终端的混音码流，向第三终端发送第一终端和第二终端的混音码流。下面结合上述示意图和原理图对本发明提供的方法进行详细说明参见图5,为本发明实施例一提供的方法流程图201:标识接收到的各路音频流对应的合成画面中的子画面。下面针对接
收到的音频流和合成画面进行举例说明例一，多点控制单元发送给第一终端视频流是第二终端和第三终端的合成画面，第二终端在左画面，第三终端在右画面，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，标识第二终端的音频流和左子画面对应，第三终端的音频流和右子画面对应。例二，多点控制单元发送给第二终端的视频流是第二终端和第三终端的合成画面，多点控制单元发送给第二终端的音频流包括第一终端的音频流和第三终端的音频流，标识第三终端的音频流和右子画面对应，但第一终端的音频流没有相应的子画面，标识第一终端的音频流为画外音，也可以作除画外音以外的其它标识。例三，多点控制单元发送给第三终端的视频流是第二终端的视频流，多点控制单元发送给第三终端的音频流包括第一终端的音频流和第二终端的音频流，第三终端看到的是第二终端的单画面，单画面看作合成画面中的一个特例，标识第二终端的音频流和单画面对应，将第一终端的音频流标识为画外音。202:根据子画面在合成画面中的位置获取各路音频流在水平方向和垂直方向的角度等方位信息。203:将音频流及相应的方位信息发送给终端。例如，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，将第二终端的音频流放置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果多点控制单元发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。其中，可以将方位信息直接发送给终端，也可以传递给音频流组合单元，由音频流组合单元将方位信息嵌入到音频流内，和音频流一起发送给终端。204:终端根据接收到的音频流的方位信息，对音频信号采用HRTF(Head Related Transfer Function,头部相关传输函数)滤波，使音频流具有方位信息。该实施例中，方位信息用水平方向和垂直方向的角度表示，滤波采用头部相关传输函数HRTF。参见图6,为本发明实施例二提供的方法流程图301:标识接收到的各路音频流对应的合成画面中的子画面。下面针对接收到的音频流和合成画面进行举例说明例一，多点控制单元发送给第一终端视频流是第二终端和第三终端的合成画面，第二终端在左画面，第三终端在右画面，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，标识第二终端的音频流和左子画面对应，第三终端的音频流和右子画面对应。例二，多点控制单元发送给第二终端的视频流是第二终端和第三终端的合成画面，多点控制单元发送给第二终端的音频流包括第一终端的音频流和第三终端的音频流，标识第三终端的音频流和右子画面对应，但第一终端的音频流没有相应的子画面，标识第一终端的音频流为画外音，也可以作除画外音以外的其它标识，例如，标识该音频流为无画面音频流。例三，多点控制单元发送给第三终端的视频流是第二终端的视频流，多点控制单元发送给第三终端的音频流包括第一终端的音频流和第二终端的音频流，第三终端看到的是第二终端的单画面，单画面看作合成画面中的一个特例，标识第二终端的音频流和单画面对应，将第一终端的音频流标识为画外音。302:根据子画面在合成画面中的位置，获取各路音频流在水平方向的相对距离和垂直方向的相对距离等方位信息。相对距离的表示方法如图4所示，参与混音的音频流本身不带方位信息，点o是视频图像的中心点，w是图像的宽度、h是图像的高度。以点o为原点，建立一个坐标，则图像中的M点的坐标为(w0, h0)。令w，和h，分别表示M点在水平和垂直方向的相对距离，则可用下面的公式计算w， = w0/(w/2) (1) (2) 发送给终端1的音频流是终端2和终端3的混音，其中参与混音的终端2的音频流和左子画面对应，参与混音的终端3的音频流和右子画面对应，左子画面的中心点是Cl,右子画面的中心点是C2，因此终端2和终端3音频流的方位信息可以分别用C1和C2点在水平方向和垂直方向的相对距离来表示，即终端2音频流的方位信息为(-0.5,0),终端3音频流的方位信息为(0.5,0)。在前一步骤还提到画外音，对于是画外音的音频流，方位信息可设置为(-1,0)或(1,0), 对于和单画面对应的音频流，其方位信息为(0, 0);如果参与混音的音频流带有方位信息，则按照下面描述的方式计算方位信息例如，对终端2和终端3的音频进行混音，分别对应左子画面和右子画面，终端2和终端3的音频本身方位信息分别为(w，2, h'2) 、 (w，3, h'3),则新的方位信息应为(-0.5 + (w，2/2), h,2) 、 (0.5+ (w，3/2), h'3 )。303:将音频流及相应的方位信息发送给终端。例如，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，多点控制单元将第二终端的音频流放置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。其中，可以将方位信息直接发送给终端，也可以将方位信息嵌入到音频流内，和音频流一起发送给终端。304:终端根据接收到的音频流的方位信息，对音频信号采用HRTF(HeadRelated Transfer Function,头部相关传输函数)滤波，使音频流具有方位信台该实施例中，方位信息用水平方向的相对距离和垂直方向的相对距离表示，滤波采用头部相关传输函数HRTF。参见图7，为本发明实施例三提供的方法流程图401:标识接收到的各路音频流对应的合成画面中的子画面。下面针对接收到的音频流和合成画面进行举例-沈明例一，多点控制单元发送给第一终端视频流是第二终端和第三终端的合成画面，第二终端在左画面，第三终端在右画面，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，标识第二终端的音频流和左子画面对应，第三终端的音频流和右子画面对应。例二，发送纟会第二终端的视频流是第二终端和第三终端的合成画面，多点控制单元发送给第二终端的音频流包括第一终端的音频流和第三终端的音频流，标识第三终端的音频流和右子画面对应，但第一终端的音频流没有相应的子画面，标识第一终端的音频流为画外音，也可以作除画外音以外的其它标识，例如，标i口、该音频流为无画面音频流。例三，多点控制单元发送给第三终端的视频流是第二终端的视频流，多点控制单元发送给第三终端的音频流包括第一终端的音频流和第二终端的音频流，第三终端看到的是第二终端的单画面，单画面看作合成画面中的一个特例，标识第二终端的音频流和单画面对应，将第一终端的音频流标识为画外音。402:根据子画面在合成画面中的位置，获取各路音频流在水平方向的相对距离和垂直方向的相对距离等方位信息。相对距离的表示方法如图4所示，参与混音的音频流本身不带方位信息，点o是视频图像的中心点，w是图像的宽度、h是图像的高度。以点o为原点，建立一个坐标，则图像中的M点的坐标为(wO, h0)。令w，和h，分别表示M点在水平和垂直方向的相对距离，则可用下面的公式计算w， = w0/(w/2) (1)h， = h0 / (h/2) (2) 发送给终端1的音频流是终端2和终端3的混音，其中参与混音的终端2的音频流和左子画面对应，参与混音的终端3的音频流和右子画面对应，左子画面的中心点是Cl,右子画面的中心点是C2，因此终端2和终端3音频流的方位信息可以分别用Cl和C2点在水平方向和垂直方向的相对距离来表示，即终端2音频流的方位信息为(-0.5,0),终端3音频流的方位信息为(0.5,0)。在前一步骤还提到画外音，对于是画外音的音频流，方位信息可设置为(-l,O)或(l,O), 对于和单画面对应的音频流，其方位信息为(0， 0);如果参与混音的音频流带有方位信息，则按照下面描述的方式计算方位信息例如，对终端2和终端3的音频进行混音，分别对应左子画面和右子画面，终端2和终端3的音频本身方位信息分别为(w，2, h'2) 、 (w，3, h'3),则新的方位信息应为(-0.5 + (w，2/2)， h，2) 、 ( 0.5 + (w，3/2)， h，3 )。403:将音频流及相应的方位信息发送给终端。例如，发送给第一终端的音频流包^l舌第二终端的音频流和第三终端的音频流，将第二终端的音频流》文置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。其中，可以将方位信息直接发送给终端，也可以传递给音频流组合单元，由音频流组合单元将方位信息嵌入到音频流内，和音频流一起发送给终端。404:终端根据接收到的音频流的方位信息，对音频信号通过调整左右声道声音强度进行滤波，使音频流具有方位信息。例如，可用下面的两个公式描述具体的调整的方法w' = (gl-g2)/(gl+g2) (1) c = gl*gl+g2*g2 (2) 公式(1)、 (2)中c是一个固定值，gl是左声道声音强度增益，g2是右声道声音强度增益，w，是根据步骤304计算出来的在水平方向的相对距离。该实施例中，方位信息用水平方向的相对距离和垂直方向的相对距离表示，滤波采用通过调整左右声道的幅度进行滤波。以上为对本发明实施例提供的方法流程图的描述，下面对本发明实施例提供的系统示意图进行详细说明参见图8,为本发明实施例提供的系统示意图，包括标识单元501,用于标识接收到的各路音频流对应的合成画面中的子画面；例如，多点控制单元104的输入音频流接口接收来自各个终端的音频流，并传输给和各个接收终端对应的标识单元501 。获取单元502,用于根据各子画面在合成画面中的位置获取各路音频流的方位信息；例如，获取各路音频流水平方向的角度和垂直方向的角度，或者获取各路音频流水平方向的相对距离和垂直方向的相对距离。发送单元503,用于发送音频流及相应的方位信息；例如，发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，将第二终端的音频流放置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。终端单元504,用于根据接收到的方位信息，对音频信号进行处理，使音频流具有方位信息。例如，通过调整左右声道声音强度，或者采用HRTF技术进行滤波。其中，所述系统进一步包括音频流组合单元505，用于将所述方位信息嵌入到音频流中，发送到所发送单元503。参见图9，为本发明实施例提供的装置示意图，包括标识单元501,用于标识接收到的各^各音频流对应的合成画面中的子画面；例如，多点控制单元104的输入音频流接口接收来自各个终端的音频流，并传输给和各个接收终端对应的标识单元501 。获取单元502,用于根据各子画面在合成画面中的位置获取各路音频流的方位信息；例如，获取各路音频流水平方向的角度和垂直方向的角度，或者获取各路音频流水平方向的相对距离和垂直方向的相对距离。发送单元503,用于发送音频流及相应的方位信息；例如，发送给第一终
端的音频流包括第二终端的音频流和第三终端的音频流，将第二终端的音频流放置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。其中，所述装置进一步包括音频流组合单元505,用于将所述方位信息嵌入到音频流中，发送到所发送单元503。以上实施例可以看出，由于对接收到的各^各音频流对应的合成画面中的子画面进行标识，获耳又各路音频流的方位信息后，将音频流及相应的方位信息发送给终端，因此，不需要知道终端扬声器的配置情况，由终端根据接收到的音频流的方位信息，对音频信号进行处理，使音频流具有方位信息。从而降低多点控制单元与终端之间联系的紧密度，提高灵活性。是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上对本发明所提供的一种视频通讯的方法、系统及用于视频通讯的装置进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式
及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
权利要求
1、一种视频通讯的方法，其特征在于，包括标识接收到的各路音频流对应的合成画面中的子画面；根据各子画面在合成画面中的位置获取各路音频流的方位信息；将音频流及相应的方位信息发送给终端；终端根据接收到的音频流的方位信息，对音频信号进行处理，使音频流具有方位信息。
2、根据权利要求1所述的方法，其特征在于，所述标识接收到的各路音频流对应的合成画面中的子画面，包括所述各路音频流中的任意一路音频流在合成画面中没有对应的子画面时，标识所述任意一路音频流为画外音。
3、根据权利要求1所述的方法，其特征在于，所述标识接收到的各路音频流对应的合成画面中的子画面，包括所述各路音频流中的任意一路音频流在合成画面中有对应的子画面时，标识所述任意一路音频流与对应的子画面相对应。
4、根据权利要求1所述的方法，其特征在于，所述标识接收到的各路音频流对应的合成画面中的子画面，包括接收到任意一路音频流对应的单画面时，标识所述音频流与所述单画面对应，标识其余的音频流为画外音。
5、根据权利要求1所述的方法，其特征在于，所述音频流的方位信息，包括水平方向的角度和垂直方向的角度。
6、根据权利要求1所述的方法，其特征在于，所述音频流的方位信息，包括水平方向的相对距离和垂直方向的相对距离。
7、根据权利要求1所述的方法，其特征在于，所述对音频信号进行处理,包括通过调整左右声道声音强度进行处理。
8、根据权利要求1所述的方法，其特征在于，所述对对音频信号进行处理，包括采用头部相关传输函数HRTF进行滤波。
9、一种视频通讯的系统，其特征在于，包括标识单元，用于标识接收到的各路音频流对应的合成画面中的子画面；获取单元，用于根据各子画面在合成画面中的位置获取各路音频流的方位信息；发送单元，用于发送音频流及相应的方位信息；终端单元，用于根据接收到的方位信息，对音频信号进行处理，使音频流具有方位信息。
10、根据权利要求9所述的系统，其特征在于，所述系统进一步包括音频流组合单元，用于将所述方位信息嵌入到音频流中，发送到所述发送单元。
11、一种用于视频通讯的装置，其特征在于，包括标识单元，用于标识4矣收到的各路音频流对应的合成画面中的子画面；获取单元，用于根据各子画面在合成画面中的位置获取各路音频流的方位信息；发送单元，用于发送音频流及相应的方位信息。
12、根据权利要求11所述的装置，其特征在于，所述装置进一步包括音频流组合单元，用于将所述方位信息嵌入到音频流中并发送，发送到所述发送单元。
全文摘要
本发明属于通信技术领域，公开了一种视频通讯的方法、系统及用于视频通讯的装置。本发明方法包括标识接收到的各路音频流对应的合成画面中的子画面；根据各子画面在合成画面中的位置获取各路音频流的方位信息；将音频流及相应的方位信息发送给终端；终端根据接收到的音频流的方位信息，对音频信号进行处理，使音频流具有方位信息。本发明具有以下效果能够在视频通信时，终端接收音频流和方位信息，并根据方位信息对音频流进行方位信息感处理，减少终端与进行方位信息处理设备之间的频繁交流，提高系统的灵活性。
文档编号H04N7/15GK101132516SQ20071015140
公开日2008年2月27日申请日期2007年9月28日优先权日2007年9月28日
发明者詹五洲申请人:深圳华为通信技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：詹五洲
技术所有人：华为终端有限公司
我是此专利的发明人

上一篇：操作结果上报方法和终端的制作方法
上一篇：一种呼叫控制方法及基站子系统以及用户终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。