一种多媒体实时交互系统及方法

文档序号:7700734阅读:198来源:国知局
专利名称:一种多媒体实时交互系统及方法
技术领域
本发明涉及一种多媒体网络通信系统,以及应用该系统的通信方法。 背景技术
实时交互系统是一种可通过终端与网络,使身处异地的与会者可以就同一议题参 与讨论的系统。与会者相互之间不仅可以听到发言者声音而且还可以看到发言者的图像及 背景,同时还可以交流有关该议题的数据、文字、图表等信息,因而与会者可获得比电话会 议丰富得多的各种信息,随着超大规模集成电路和计算机技术的发展,集计算机的交互性、 网络的分布性和多媒体信息的同步性为一体的多媒体会议电视系统突破了计算机、通信、 电视等传统的界限,为人们提供了全新的交互服务。实时交互系统提供位于不同地点的多个用户之间的实时通信,内容包括带有与会 者图像信息的高质量话音以及其它媒体信息。当会议包括两个以上的终端时,通常需要一 个多点控制单元(MCU)。所有终端都接到一个MCU上,MCU负责对每个用户发送的信号进行 选择或进行适当的混合,同时对信令和可选信道进行控制和管理。实时交互系统最核心的技术指标是编码标准、体系结构、流媒体服务。1、编码标准和一般的数据业务不同,视频是流特性业务,数据量很大。例如,目前的PAL制 广播电视信号,在分辨率为720X576、帧率为25帧每秒的情况下,未经压缩的码率为 165. 888Mbps。这种码率的视频在网络上是无法传输的,会轻易地将网络资源吞没,造成网 络拥塞甚至崩溃。因此,视频通信的第一步就是视频压缩。目前在众多的视频编码算法中, 被广泛使用在视频会议系统中的压缩标准是H. 26x和MPEG。H. 26x是国际电信联盟制定的标准,主要包括H. 261和H. 263。H. 261也称为 (PX64Kbit/s)标准(P = 1,2,3…30),在P < 6的情况下,只能传输QCIF格式的图像 (176X144);在P = 6 30时,也仅能传输CIF格式的图像(352X288)。它的视频效果较 差,只适合低速率下相对静止图像传输。1996年ITU-T在H. 261的基础上进行一定的改进 推出了 H. 263标准,但它仍然不能实现高清晰度图像的传输,只适合低带宽下的应用。MPEG本是Moving Pictures Experts Group,即“运动图像专家组〃的英文缩写, 这个专家组是由国际标准化组织ISO和国际电子委员会IEC于1988年联合成立的,致力于 运动图像及其伴音编码的标准化工作,MPEG制定的标准主要有MPEG-l、MPEG-2和MPEG-4。MPEG-I制定于1992年,它主要是在1. 5Mbps情况下,对352X288X25帧/秒的 运动图像进行处理。它的算法框图基本与H. 261相同,但在时间域正负方向进行的运动补 偿的帧间内插使其具有以下优点①具有更高的图像压缩倍数;②能够恰当地对待突发背 景;③能较好地保存边缘轮廓,降低原始图像的噪声。但正由于它的双向帧间预测使得图像 显示顺序与编码顺序不同,造成较大的系统延时,且压缩比越高,延时也会越大。MPEG-2制定于1994年,主要应用在广播电视图像的传输和数字存贮媒体(DVD)。 与MPEG-I的区别在于MPEG-2有了等级之分,共分为4个等级LL (352 X 288 X 25巾贞/秒)、ML(720X576X25 帧 / 秒)、H1440L(1440X 1152X25 帧 / 秒)、HL(1920X 1152X25 帧 / 秒)。它在带宽充足的情况下MPEG-2可实现高清晰度图像的传输,甚至能满足HDTV的要 求。但它和MPEG-I具有同样的缺点,即延时较大、带宽要求相对较高。在广播电视系统中, 由于不要求交互且能提供足够的带宽(广播电视系统可为每路图像信号提供8M带宽),这 些缺点体现不明显。但当它应用到视频会议系统中时,要达到ML(720X576X25帧/秒), 需要3M以上的带宽,且会有Is以上的延时,不能完全适应当前视频会议系统的需求。为了解决时延与压缩比的问题,ISO于1999年通过了 MPEG-4标准,它与其它标准 的最大区别在于MPEG-4是基于内容进行编码,将编码对象由原来的矩形图像改为单独的 对象,即将每幅图像分为不同的自然对象单独进行编码。由于这种合成对象/自然对象混 合编码SNHC可大大降低帧间图像的信息冗余,因此MPEG-4编码技术可利用最少的数据获 得最佳的图像质量。在视频会议系统实际应用中,可在1. 5Mbps情况下实现高清晰度图像 (720X576X25帧/秒)的传输,同时将时延控制在300ms以内。另外,MPEG-4还把提高多 媒体系统的交互性和灵活性作为一项重要的目标,因此它比其他编码方式更适合交互式的 视频服务和远程监控。2、体系结构交互系统的体系结构有两种=ITU-T H. 320和H. 323。1990年推出的H. 320标准是第一代视频会议标准,主要适用于窄带ISDN(N-ISDN) 网及非拨号专用网,集中定义了 ISDN上的视频会议以及速率为56kbps 2Mbps的视频会 议,也是现今发展最为成熟的技术和系统。在过去几年被广泛使用在ISDN网络中。它的网 络结构主要是H. 243标准下的主从星形汇接结构,每个终端必须与它对应的MCU建立电路 连接,组网结构非常固定。由于基于电路交换,它能提供确定的带宽保证,充分保证视频会 议的质量。1996年推出的H. 323定义了在LAN、Intranet以及Internet上的视频会议框架 性建议。它使符合标准的不同厂商的系统,可以在LAN上进行相互通信,是视频会议发展的 新方向。H. 323定义了在LAN上进行视频通信的设备、规程和协议。H. 323使用与Internet 协议兼容的IETF RTP/RTCP标准,并计划使用各种分组交换网(PSN)协议,包括TCP/IP和 Novell SPX/IPX协议。H. 323协议就是IP视频会议的标准。H. 323标准涵盖了包交换网络上的音频、视频、数据通信,解决了点对点以及多点 视频会议中诸如呼叫与会话控制、多媒体与带宽控制等问题。H. 323引用T. 120协议来处理 数据交换。H. 323的标准名称是基于包的多媒体通信系统,它凭借TCP/IP这一协议,使网络 上的多媒体应用和业务与基础传输网络无关。视频会议也只是这一标准的应用之一,因此 可以利用H. 323将多种应用和业务(如视频点播、流媒体组播等)叠加到视频会议系统 中。也正因为H. 323视频会议系统建立在基于分组交换、QoS(英文全称为"Quality of Service",中文名为"服务质量",是网络的一种安全机制,用来解决网络延迟和阻塞等 问题)得不到保证的通信网的基础上,因而会议系统中的码流必须打包成一个一个分组, 根据分组标签统计复用。由于不同信息码各有特点,所以对下层网络的承载要求各不相同。 例如视音频码流对实时性要求较高,但可以容忍少量的分组丢失,因而它要求下层网络能 提供实时性好的传送机制;而对于数据和控制信息,情况完全不同,要求下层提供可靠性传送。H. 323最大的缺点在于它的网络环境是一个QoS得不到严格保证的通信网,因 此H. 323结构的视频会议系统使用RTCP (实时传输控制协议)来测量网络的QoS,并采用 RSVP(资源预留协议)来确保网络中预留一定的带宽,对不同特点的应用提供特定的通道。H. 323作为下一代多媒体通信平台代表着未来多媒体会议的的发展方向和潮流, 它的传输网络无关性、灵活性,使它越来越得到普遍地应用,但H. 320凭借其在带宽保证方 面的优势,仍是很多视频会议用户的最终选择。在H. 323建议中,采用的图像编解码格式有H. 261、H. 263、H263+。H. 263以及 H. 263+能够对图像提供更大的压缩速率,能够在低码率下提供比H. 261更好的图像质量, 因而更适合IP网络应用。音频编码格式必须兼容G. 711语音编码,另外也可以选择使用G. 722、G. 723. 1, G. 728,G. 729或MPEG-I的语音编码标准。3、流媒体服务随着视频会议技术的不断发展,流媒体服务概念也被引入到其中。流媒体指的是 在网络上使用流式传输技术的连续时基媒体,如视频会议系统中的实时视音频流,流媒体 的数据流总是随时传送随时播放的。在视频会议系统中主要使用的流式传输技术是实时流 式传输,它保证媒体信号带宽与网络连接的匹配,且总是实时传送特别适合视频会议,同时 也支持随机访问。在视频会议系统中主要有以下三种流媒体播放方式得到充分应用(1)单播在终端与MCU之间建立一个单独的数据通道,从一台MCU发送的每个数据流只能 传送给一台终端。这种方式对网络带宽要求较高,但非常灵活,适合召开双向交互式视频会 议时使用。(2)组播IP组播技术通过构建一个具有组播能力的网络,可以让MCU只发送一个数据流给 多个终端共享。这种方式非常节约带宽,适合在一些需要单向收看视频会议的场合中应用。(3)点播点播是指用户可以通过选择内容项目来初始化终端连接,对数据流可以开始、停 止、后退、快进或暂停。它主要应用于会议录像的点播。与常规的单播与广播通信相比,IP组播在多点音/视频数据传输方面具有很大的 优势并成为多媒体会议视频传输应用中的关键技术之一。其优势在于(1)可以减少不必要的重叠发送,减轻系统和网络的负担,提高资源和网络带宽的 利用率;(2)极大地改善了视音频数据传输的实时性。IP组播技术存在的缺陷在于,由于IP网络本身是一个尽力服务(best-ef fort) 的网络。尽力服务的特征是所有用户随时都在竞争网络的资源,信道是基于统计复用的。 这不仅意味着传输时延是不确定的,还意味着带宽的可用性和可用的带宽也是不确定的, 给多媒体数据的实时传输带来极大的影响,也对许多应用技术提出了很高的要求。其次,IP 网络上出现差错和网络拥塞时表现为分组的丢失。分组丢失对应用的质量影响很大,因为 往往一个发送分组中封装一帧以上的视频数据。因此,对基于IP组播的分布式多媒体视频会议系统,在QoS方面的要求尤为重要。
发明内容
本发明的目的是提供一种多媒体实时交互系统及方法,要解决现有的交互系统实 时传输不稳定和IP网络拥挤的问题,并解决出现差错时产生的分组丢失问题。为实现上述目的,本发明采用如下技术方案这种多媒体实时交互系统,其特征在于该系统包括用于管理组播成员并在会议 进行时对数据的流向、流量进行控制的控制端,以及与控制端连接的终端;其中终端由视频和音频数据流的发送端和接收端两大模块组成;发送端模块包括视频和音频数据流的采集模块、压缩模块,QoS控制模块和传输协 议模块,视频采集模块经视频压缩模块与QoS控制模块连接,音频采集模块经音频压缩模 块与QoS控制模块连接,QoS控制模块再与传输协议模块连接;接收端模块包括视频和音频数据流的传输协议模块、QoS控制模块、解压模块和回 放模块,传输协议模块与QoS控制模块连接,QoS控制模块再经视频解压模块与视频回放模 块连接,并经音频解压模块与音频回放模块连接;上述发送端模块和接收端模块中的传输协议模块之间由IP网络相互连接。上述发送端模块中还可带有与传输协议模块连接的文字等附加功能模块。上述接收端模块中的传输协议模块还可与文字显示模块连接。一种多媒体实时交互方法,其特征在于采用多媒体实时交互系统的控制端对组 播成员进行管理,并在会议进行时对数据的流向和流量进行控制;采用终端的视频及音频 流的发送模块将采集到的视频流和音频流经压缩、QoS控制处理、最后经传输协议封装后发 送出去,终端的接收端模块将视音频流经过传输协议、QoS控制、解压、回放处理最终得以回 放。与现有技术相比本发明具有以下特点和有益效果本发明主要由控制端和终端两部分组成。控制端的功能是完成对组播成员的管理 和在会议进行时对数据的流向和流量进行控制,可弥补IP组播技术在控制层面和数据层 面上的无根性。控制端可通过上线成员简单列表框,对上线成员进行监视并根据成员请求 决定是否发送其视频或音频,以避免组播成员随意发送数据,造成网络带宽的无谓浪费。终 端在IP组播的分布式多媒体视频会议系统中扮演着与会者的角色,主要由视音频流的发 送和接收两大模块组成,该系统还可带有文字聊天等附加功能。本发明能克服网络学生地域分散的缺点,实现网络教育的实时互动教学,使网络 学生能接受到与在校生一样的教师语音视像互动交流。本系统在大学远程教学方面试用,能进行远程会议,远程教学,各地学习中心可随 时随地通过该系统开展工作交流会议,进行优秀教师集体授课活动或考前辅导工作。既节 省了各学习中心的师资力量,又能将学校的优秀教师的授课范围普及到最广,实现教师资 源使用最大化。不仅增进了学校与学生的沟通交流,提高了教学质量,还能促进学生与教 师、学生之间的有益交流。


下面结合附图对本发明做进一步详细的说明。图1是本发明的系统组成示意图。图2是视频流的采集流程示意图。图3是音频流的采集流程示意图。
具体实施例方式实施例参见图1所示,这种多媒体实时交互系统,其特征在于该系统包括用于管 理组播成员并在会议进行时对数据的流向、流量进行控制的控制端,以及与控制端连接的 终端;其中终端由视频和音频数据流的发送端和接收端两大模块组成;发送端模块包括视频和音频数据流的采集模块、压缩模块,QoS控制模块和传输协 议模块,视频采集模块经视频压缩模块与QoS控制模块连接,音频采集模块经音频压缩模 块与QoS控制模块连接,QoS控制模块再与传输协议模块连接,传输协议模块还连接有文字 等附加功能模块。接收端模块包括视频和音频数据流的传输协议模块、QoS控制模块、解压模块和回 放模块,传输协议模块与QoS控制模块连接,QoS控制模块再经视频解压模块与视频回放模 块连接,并经音频解压模块与音频回放模块连接,传输协议模块还与文字显示模块连接。上述发送端模块和接收端模块中的传输协议模块之间由IP网络相互连接。—种多媒体实时交互方法,采用多媒体实时交互系统的控制端对组播成员进行管 理,并在会议进行时对数据的流向和流量进行控制;采用终端的视频及音频流的发送模块 将采集到的视频流和音频流经压缩、QoS控制处理、最后经传输协议封装后发送出去,终端 的接收端模块将视音频流经过传输协议、QoS控制、解压、回放处理最终得以回放。控制端可通过上线成员简单列表框,对上线成员进行监视并根据成员请求决定是 否发送其视频或音频。避免组播成员随意发送数据,造成网络带宽的无谓浪费。参见图2,终端的视频流采集流程有以下步骤步骤(1),创建视频捕捉窗口 ;
步骤(2),获取捕捉设备数目;步骤(3),获取视频捕捉窗口的参数设置;步骤(4),与视频捕捉设备连接;步骤(5),注册系统回调函数;步骤(6),捕捉图像到缓存中并进行处理;步骤(7),终止视频捕捉并断开与视频设备连接。参见图3所示,终端的音频流采集流程有以下步骤步骤(1),打开录音设备;步骤⑵,为录音分配内存;步骤(3),开始录音;步骤(4),停止录音;步骤(5),释放内存;
步骤(6),关闭录音设备。终端的视频回放过程有以下步骤步骤(1),创建视频数据回放显示窗口,获取显示设备上下文句柄;步骤(2),打开DrawDib函数库,获得一个DrawDib DC的句柄;步骤(3),准备回放的数据帧;步骤(4),回放显示所捕捉的视频数据;步骤(5),数据块回放完毕后,释放他们占用的资源,并且关闭DrawDib库。终端的音频回放过程相对简单,在此不做说明。本系统QoS控制模块的控制机制如下本系统采用了阻塞控制机制中的速率控制机制。阻塞控制技术的目的是采用某种 机制应付和防止网络阻塞,即改变在网络上传输的数据量。速率控制是一种根据网络的可 用带宽,决定视频流发送速率的技术。速率控制方案有3种基于发送源的、基于接收端的、 混合速率控制。本系统开发的实时交互系统采用了混合速率控制技术。混合速率控制接收 端通过增减通道数量来调节接收速率,同时发送端根据接收端的反馈来调节每个通道的传 输速率。其好处在于发送端和接收端交互进行,对视频流数据进行合理调节,能有效地避免 阻塞。在IP网络中,数据包可能由于出,在路由器处丢失或错误路由导致接收端收不到 分组,同时到达时延过大的分组也被认为没有用而丢失,这都降低了视频的质量。为了改 善视频质量,要进行差错控制。本系统的差错控制技术采用了 SFEC基于信源FEC(Forward Error Correction)编码。SFEC通过加入冗余信息来恢复丢失的数据,与信道编码不同的 是SFEC直接把冗余数据加入到压缩的视频流中,而且每一个包都可以单独解码,因此具有 低时延优势。以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用 本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关 的技术领域,均同理包括在本发明专利保护范围内。
8
权利要求
一种多媒体实时交互系统,其特征在于该系统包括用于管理组播成员并在会议进行时对数据的流向、流量进行控制的控制端,以及与控制端连接的终端;其中终端由视频和音频数据流的发送端和接收端两大模块组成;发送端模块包括视频和音频数据流的采集模块、压缩模块,QoS控制模块和传输协议模块,视频采集模块经视频压缩模块与QoS控制模块连接,音频采集模块经音频压缩模块与QoS控制模块连接,QoS控制模块再与传输协议模块连接;接收端模块包括视频和音频数据流的传输协议模块、QoS控制模块、解压模块和回放模块,传输协议模块与QoS控制模块连接,QoS控制模块再经视频解压模块与视频回放模块连接,并经音频解压模块与音频回放模块连接;上述发送端模块和接收端模块中的传输协议模块之间由IP网络相互连接。
2.根据权利要求1所述的多媒体实时交互系统,其特征在于上述发送端模块中还带 有与传输协议模块连接的文字等附加功能模块。
3.根据权利要求1所述的多媒体实时交互系统,其特征在于上述接收端模块中的传 输协议模块还与文字显示模块连接。
4.一种多媒体实时交互方法,其特征在于采用多媒体实时交互系统的控制端对组播 成员进行管理,并在会议进行时对数据的流向和流量进行控制;采用终端的视频及音频流 的发送模块将采集到的视频流和音频流经压缩、QoS控制处理、最后经传输协议封装后发送 出去,终端的接收端模块将视音频流经过传输协议、QoS控制、解压、回放处理最终得以回 放。
全文摘要
一种多媒体实时交互系统及方法,该系统包括用于管理组播成员并在会议进行时对数据的流向、流量进行控制的控制端,以及与控制端连接的终端;其中终端由视频和音频数据流的发送端和接收端两大模块组成。发送端模块包括视频和音频数据流的采集模块、压缩模块,QoS控制模块和传输协议模块。接收端模块包括视频和音频数据流的传输协议模块、QoS控制模块、解压模块和回放模块。发送端模块和接收端模块中的传输协议模块之间由IP网络相互连接。本发明能克服网络学生地域分散的缺点,实现网络教育的实时互动教学。不仅增进了学校与学生的沟通交流,提高了教学质量,还能促进学生与教师、学生之间的有益交流。
文档编号H04L29/06GK101924906SQ20091008632
公开日2010年12月22日 申请日期2009年6月10日 优先权日2009年6月10日
发明者傅泽田, 顾培德 申请人:北京中农大网络发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1