一种多点视频会议系统及其媒体处理方法

文档序号：7615006阅读：139来源：国知局

专利名称：一种多点视频会议系统及其媒体处理方法
技术领域：
本发明涉及视频技术，尤其涉及视频会议技术。
背景技术：
视频会议系统是多媒体计算机技术与通信技术相结合的产物。通过多媒体技术和网络通信技术的支持，视频会议系统为身处异地的人们提供了一个相互讨论问题并可协同工作的环境。它集计算机的交互性、通信的分布性，以及电视的真实性为一体，具有明显的优越性，因而成为当今计算机领域的一个研究热点。
早期的视频会议系统标准为ITU-T于1990年制订的ITU-T H.320标准，它是针对基于电路交换承载的视频会议系统的基础标准。随着TCP/IP技术的不断发展，ITU-T于1996年提出了新一代视频会议标准ITU-T H.323，该标准是基于IP传输网络实现承载的视频会议标准，定义在通用网络体系结构之上，与具体网络无关，极大拓宽了应用范围。
从产品现状来看，尽管H.323视频会议系统丰富多样，各有所长，但是各个厂家的产品互连互通能力不强，这对于大规模组建H.323视频会议系统网络造成了不便。在现有的以H.323为标准的视频会议系统中，由多点控制单元MCU作为核心的媒体控制器，负责各个终端之间的语音和图像数据的传递。现有视频会议系统所能容纳的终端个数将取决于MCU的能力，要扩展用户数目，必须增加MCU的配置，因而包括其它硬件设备在内的高昂投资也势必影响视频会议系统的广泛应用。
SIP标准是IETF组织在1999年提出的，其应用目标是基于internet环境，实现数据、音视频实时通讯。SIP协议相对于H.323而言，相对简单、自由，厂商可以利用现有的网络资源扩展多媒体通讯业务，以较小的成本就可以构造满足应用需求的系统。SIP标准严格意义上讲是一个实现实时多媒体应用的信令标准，它采用基于文本的编码方式，在点到点的应用环境中，具有极大的灵活性、扩充性以及跨平台使用的兼容性。但是，SIP协议自身不支持多点的会议功能以及管理和控制功能，对于多点通讯的需求，应用单纯的SIP系统难以实现。
因而，在现有的基于SIP的软件视频会议解决方案中，提出了SIP视频应用服务器的概念，该服务器由中心(Focus)、媒体策略服务器(Media Policy)、会议策略服务器(Conference Policies)组成。中心通过适当的媒体策略和会议策略形成一次会议中的整体管理控制和媒体传输方案，负责实施对会议的管理，以及媒体的分发和传输。在一定程度上讲，中心的功能类似于基于H.323的视频会议系统中的MCU。该系统仍然沿用传统的C/S架构，需要专门的媒体控制服务器来控制和处理媒体。服务器的能力将决定系统所支持的用户数。

发明内容
本发明的目的是克服现有技术中的缺点，提供一种基于SIP协议的软件多点视频会议系统及其媒体处理方法，本系统无需传统视频会议中的MCU，组网非常简单，实施起来方便可靠。
本发明技术方案如下一种多点视频会议系统，包括软交换设备，应用服务器和终端设备。其中，软交换设备是系统的呼叫控制核心，负责协议适配、呼叫处理、资源管理、业务代理工作，同时作为系统的对外接口完成和其它系统的互连互通功能。应用服务器负责业务逻辑的控制以及计费。作为会议成员的终端设备包括会议主席和普通会议成员，任何注册在软交换上的终端设备均可作为会议成员参与会议，会议主席必须是具有视频会议业务能力的SIP软终端。
进一步地，所述终端设备是基于SIP的，具有多路媒体控制和处理能力的软件终端。终端设备内部集成有SIP模块，可以同时与软交换设备和应用服务器进行SIP会话。终端设备具有媒体处理单元，包括音频处理模块和视频处理模块。
进一步地，作为会议主席的终端设备负责会议的调度工作，包括发起会议，邀请成员加入会议，结束会议。作为会议主席的终端设备，在采集本地音频和视频的同时，还将接收来自于其他会议成员的音频和视频媒体包，由终端设备内部的媒体处理单元处理接收到的媒体包。
进一步地，作为会议主席的终端设备中，音频处理模块负责采集本地音频并和接收到的其它会议成员的音频进行合成，分发与传输；视频处理模块负责采集本地视频、接收其它多路会议成员的视频并进行合成与传输。
进一步地，作为普通会议成员的终端设备中，所述视频处理模块负责视频的分割与显示。
一种多点视频会议系统的媒体处理方法，在现有的NGN网络中，将多点视频会议系统解析为会议主席和多个普通会议成员之间的多组相对独立的SIP会话，每组会话独立地进行呼叫处理和媒体协商工作。在多组SIP呼叫中主被叫连接成功之后，由作为会议主席的终端设备完成媒体处理，然后分别向多个会议成员分发和传输经过处理之后的媒体流。所述媒体处理采用端到端的架构。
进一步地，所述媒体处理包括音频处理和视频处理，其中音频处理步骤如下多组SIP会话独立进行音频媒体的协商，在通话开始之后，会议主席同时接受来自于其它多位会议成员的音频，分别按照相应的编码格式进行解码。同时采集本地音频，对本方和其它会议成员分别按照不同的音频处理计划进行处理。
进一步地，当会议成员包括会议主席和普通会议成员第一、第二和第三成员时，所述音频处理计划为将第一、第二和第三成员的音频合成后本地播放；将会议主席、第二和第三成员的音频合成并按照会议主席与第一成员之间协商的音频格式编码之后发送给第一成员；将会议主席、第一和第三成员的音频合成并按照会议主席与第二成员之间协商的音频格式编码之后发送给第二成员；将会议主席、第一和第二成员的音频合成并按照会议主席与第三成员之间协商的音频格式编码之后发送给第三成员。
进一步地，所述视频处理步骤如下在多组SIP会话的媒体协商过程中，会议主席均以第一格式协商视频。在通话建立之后，会议主席将接收到的来自于其他会议成员的多路视频解码并抽样成第二格式，同时将本地采集到的视频也抽样为第二格式，然后再合成为一帧完整的第一格式的视频，分别发送给其它多个会议成员；会议成员解码接收到的视频，然后分割出其它会议成员的视频并分屏显示。
进一步地，当会议成员包括会议主席和普通会议成员第一、第二和第三成员时，所述第一格式为四分之一通用中间格式即QCIF格式，所述第二格式为Sub-QCIF格式。
与现有技术相比，本发明以下一代网络NGN的核心设备软交换设备为呼叫处理设备，以基于Parlay/OSA规范开发的应用服务器来控制业务逻辑，将视频会议解析为多组点对点的SIP会话，并将其有机地巧妙地结合起来，在媒体处理上，摒弃了传统的C/S(终端/服务器)模式，采用Client-to-Client(端到端)的架构，媒体处理由作为会议主席的终端设备来处理，极大地拓展了视频会议系统的支持能力。在现有的NGN网络中即可开展该项业务，无需增加其它设备。对于终端用户而言，配置简单，使用方便。

图1是本发明系统结构图；图2是本发明方法中的呼叫流程图；图3是本发明方法中的媒体传输流程图；图4是本发明方法中的音频处理流程图；图5是本发明方法中的视频处理流程图。
具体实施例方式
图1所示为本发明的系统结构图，如图1所示，本发明系统包括软交换设备，应用服务器和终端设备。
其中软交换设备主要完成以下功能a)接受终端的登记和注册。SIP软终端或硬终端直接在软交换上注册，H.323的终端可以通过H.323网关到软交换上注册；b)协议适配和呼叫处理。实现SIP、H.248和MGCP等协议的适配，同时接收和转发呼叫信令。
应用服务器基于Parlay/OSA规范开发，同时内部集成有SIP的呼叫代理服务模块。功能包括a)终端用户的认证和鉴权。只有通过应用服务器认证和鉴权的终端用户，才能发起一个多方的多点视频会议。否则只能以会议成员的身份被邀请加入会议；b)业务逻辑的控制及计费。接受来自于会议主席的会议申请(XML语言)，并将其解析为多组SIP会话，然后通过内部的SIP呼叫代理服务模块发送SIP消息给软交换。同时，在通话建立之后，负责对会议进行实时计费。
终端设备包括专为本系统开发的SIP软终端或普通的SIP硬终端以及H.323终端(H.323终端通过H.323网关与软交换互联)。其中普通的SIP硬终端以及H.323终端只能以普通会议成员的身份被邀请加入会议，而SIP软终端既可以会议主席的身份发起一个会议，也可以作为普通会议成员被邀请加入会议。
软交换和应用服务器之间，软交换和SIP终端之间以及应用服务器和通过它鉴权与认证的SIP软终端之间，均按照标准的SIP协议进行交互。其中，当一个SIP软终端发起一个会议请求时，它会将以XML语言描述的会议请求封装在SIP MESSAGE源语之中，发送给应用服务器。
实施例以四方会议为例进行说明。系统中单个会议可支持四方的多点视频和音频通讯，会议个数不限，在软交换设备上注册的所有终端均可发起或参与一个四方的多点视频会议。
如图2所示，对于四方的多点视频会议，其呼叫流程被解析为3组相对独立的SIP会话，过程如下1)作为会议主席的客户端A向应用服务器发送以XML语言描述的会议发起请求，请求召开A和用户B、C、D的四方视频会议；2)应用服务器解析接收到的XML消息，以会议主席A为主叫，向软交换设备发送SIP请求，希望分别建立终端设备A与B、C、D间的呼叫；3)软交换设备控制并处理呼叫信令，分别建立A与B、A与C及A与D之间的呼叫；4)当B、C或D挂机时，A可以继续通过应用服务器邀请其它客户端参加会议；当A挂机时，通知应用服务器结束整个会议。
其中，媒体的传输采用基于WP的RTP(Real-time TransportProtocol，实时传输协议)来完成，RTP是用于Internet上针对多媒体数据流的一种传输协议。RTP被定义为在一对一或一对多的传输情况下工作，其目的是提供时间信息和实现流同步。当应用程序开始一个RTP会话时将使用两个端口一个给RTP，一个给RTCP(Real-timeTransport Control Protocol，实时传输控制协议)。RTP本身并不能为按顺序传送数据包提供可靠的传送机制，也不提供流量控制或拥塞控制，它依靠RTCP提供这些服务。
如图3所示，四路音频的合成和视频的处理由作为会议主席的客户端A来完成，音频和视频的编解码全部采用软件来实现。音频编解码支持G.711、G.729和G.723，视频采用H.263标准，QCIF格式。
1)对于会议主席A，当它与B、C和D的呼叫建立之后，会同时打开3组媒体通道，每一组同时打开2对RTP和RTCP端口，分别接收来自B、C和D的音频媒体包与视频媒体包。同时，A向B、C、D上指定的端口发送处理过后的音频媒体包与视频媒体包；2)作为会议成员的终端设备B、C和D，在它们与A的呼叫分别建立之后，将各自打开2对RTP和RTCP端口，接收来自于A的音频和视频媒体包，同时，向A上指定的端口发送本地采集到的音频媒体包与视频媒体包。对终端设备B、C和D而言，此过程与普通的点对点可视电话并无二致。
本发明中的音频编解码支持G.711、G.729和G.723。音频处理过程如图4所示，在A与B、C和D的SIP会话建立之后1)普通会议成员B、C和D分别采集本地音频，在压缩编码之后发送给会议主席A；2)会议主席A采集本地音频，同时接收到来自于会议成员B、C和D的三路音频并分别进行解码；3)会议主席A将解码得到B、C和D的音频混合，通过扬声器播放出来；将本地音频与C、D的音频混合，压缩编码之后发送给B；将本地音频与B、D的音频混合，压缩编码之后发送给C；将本地音频与B、C的音频混合，压缩编码之后发送给D；4)普通会议成员B、C和D分别接收来自于会议主席A的混音，解码之后通过扬声器播放出来。
本发明中的视频编解码采用H.263标准，最大带宽限定在384kbps，视频处理过程如图5所示1)会议主席A采集本地视频(QCIF格式)并回送本地显示，同时进行抽样处理，尺寸由QCIF抽样为Sub-QCIF；2)会议主席A接收到来自于会议成员B、C和D的三路视频包后，分别进行解码，并送给本地视频显示窗口显示；3)会议主席A对解码后得到的各帧图像进行抽样，每帧图像的尺寸由QCIF抽样为Sub-QCIF；4)会议主席A将四帧Sub-QCIF的图像拼接为一帧QCIF的图像；5)会议主席A将拼接得到的QCIF的图像进行压缩和编码，分别发送给会议成员B、C和D；6)会议成员B、C和D接收到来自会议主席A的视频媒体包，进行解码，分割得到其它三方的视频并进行显示，同时，各自将本地采集到的视频送到本地视频显示窗口显示。需要指出的是，对于作为会议成员的SIP硬终端或H.323终端，只能将接收到的视频直接送到视频显示窗口显示，目前无法实现分屏显示各个会议成员的图像。
综上所述，本发明具有以下优点本发明组网简单方便，系统具有良好的实用性和可扩展性。本发明中呼叫处理是基于SIP协议来实现的，相对于H.323要简单、自由。同时，在本发明中，媒体的控制和处理由作为会议主席的客户端来完成，因而，在现有的NGN网络中就可以构造满足应用的系统，使得运营商可以非常方便实现大规模的业务推广和应用；本发明中媒体的控制是依靠作为会议主席的软终端来实现的，因而在软交换上注册的终端用户均可发起或参与一个多方的多点视频会议，而在传统的基于H.323标准的视频会议系统中，其所能容纳的终端个数受限于MCU的能力；本发明中的软终端具有同时进行多路SIP会话的能力，同时还具有媒体的合成、分发、传输和分割等媒体控制功能。当然，考虑到软交换设备的强大的协议适配能力，会议成员所使用的终端设备，不仅局限于普通的SIP软件终端或硬件终端，还适用于H.323终端；本发明中业务逻辑是由应用服务器来控制的，而该应用服务器是建立在Parlay/OSA架构基础之上的。由于Parlay/OSA规范的开放性，使得业务逻辑的实现更加灵活方便，可以满足不同客户群的需要；同时，应用服务器具有可靠和灵活的计费策略，可以根据业务和运营商的需要制订相应的计费方案。
当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
1.一种多点视频会议系统，包括软交换设备，应用服务器和终端设备，其中，软交换设备是系统的呼叫控制核心，负责协议适配、呼叫处理、资源管理、业务代理工作，同时作为系统的对外接口完成和其它系统的互连互通功能，应用服务器负责业务逻辑的控制以及计费，其特征在于作为会议成员的终端设备包括会议主席和普通会议成员，任何注册在软交换上的终端设备均可作为会议成员参与会议，会议主席必须是具有视频会议业务能力的SIP软终端。
2.根据权利要求1所述的系统，其特征在于，所述终端设备是基于SIP的，具有多路媒体控制和处理能力的软件终端；终端设备内部集成有SIP模块，可以同时与软交换设备和应用服务器进行SIP会话；终端设备具有媒体处理单元，包括音频处理模块和视频处理模块。
3.根据权利要求2所述的系统，其特征在于，作为会议主席的终端设备负责会议的调度工作，包括发起会议，邀请成员加入会议，结束会议；作为会议主席的终端设备，在采集本地音频和视频的同时，还将接收来自于其他会议成员的音频和视频媒体包，由终端设备内部的媒体处理单元处理接收到的媒体包。
4.根据权利要求3所述的系统，其特征在于，作为会议主席的终端设备中，音频处理模块负责采集本地音频并和接收到的其它会议成员的音频进行合成，分发与传输；视频处理模块负责采集本地视频、接收其它多路会议成员的视频并进行合成与传输。
5.根据权利要求2所述的系统，其特征在于，作为普通会议成员的终端设备中，所述视频处理模块负责视频的分割与显示。
6.一种多点视频会议系统的媒体处理方法，其特征在于在现有的NGN网络中，将多点视频会议系统解析为会议主席和多个普通会议成员之间的多组相对独立的SIP会话，每组会话独立地进行呼叫处理和媒体协商工作；在多组SIP呼叫中主被叫连接成功之后，由作为会议主席的终端设备完成媒体处理，然后分别向多个会议成员分发和传输经过处理之后的媒体流；所述媒体处理采用端到端的架构。
7.根据权利要求6所述的方法，其特征在于，所述媒体处理包括音频处理和视频处理，其中音频处理步骤如下多组SIP会话独立进行音频媒体的协商，在通话开始之后，会议主席同时接受来自于其它多位会议成员的音频，分别按照相应的编码格式进行解码；同时采集本地音频，对本方和其它会议成员分别按照不同的音频处理计划进行处理。
8.根据权利要求7所述的方法，其特征在于，当会议成员包括会议主席和普通会议成员第一、第二和第三成员时，所述音频处理计划为将第一、第二和第三成员的音频合成后本地播放；将会议主席、第二和第三成员的音频合成并按照会议主席与第一成员之间协商的音频格式编码之后发送给第一成员；将会议主席、第一和第三成员的音频合成并按照会议主席与第二成员之间协商的音频格式编码之后发送给第二成员；将会议主席、第一和第二成员的音频合成并按照会议主席与第三成员之间协商的音频格式编码之后发送给第三成员。
9.根据权利要求7所述的方法，其特征在于，所述视频处理步骤如下在多组SIP会话的媒体协商过程中，会议主席均以第一格式协商视频；在通话建立之后，会议主席将接收到的来自于其他会议成员的多路视频解码并抽样成第二格式，同时将本地采集到的视频也抽样为第二格式，然后再合成为一帧完整的第一格式的视频，分别发送给其它多个会议成员；会议成员解码接收到的视频，然后分割出其它会议成员的视频并分屏显示。
10.根据权利要求9所述的方法，其特征在于，当会议成员包括会议主席和普通会议成员第一、第二和第三成员时，所述第一格式为四分之一通用中间格式即QCIF格式，所述第二格式为Sub-QCIF格式。
全文摘要
本发明旨在提供一种多点视频会议系统及其媒体处理方法，用于视频会议技术领域，系统包括软交换设备，应用服务器和终端设备，终端设备包括会议主席和普通会议成员。媒体处理方法将多点视频会议系统解析为会议主席和多个普通会议成员之间的多组相对独立的SIP会话，每组会话独立地进行呼叫处理和媒体协商工作。在多组SIP呼叫中主被叫连接成功之后，由作为会议主席的终端设备完成媒体处理，然后分别向多个会议成员分发和传输经过处理之后的媒体流。本发明极大地拓展了视频会议系统的支持能力。
文档编号H04L29/06GK1816134SQ20051003830
公开日2006年8月9日申请日期2005年2月6日优先权日2005年2月6日
发明者杨勇, 杨春, 曹义林, 丁坤, 黄明石, 龚晓东申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨勇;杨春;曹义林;丁坤;黄明石;龚晓东
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。