基于视频分割技术的流媒体分发和用户vcr操作方法

文档序号:7646541阅读:168来源:国知局

专利名称::基于视频分割技术的流媒体分发和用户vcr操作方法
技术领域
:本发明属于网络流媒体
技术领域
,具体涉及流媒体的分发和用户的VCR操作方法。技术背景伴随着网络技术的发展和普及,网络上的资源越来越丰富,它们改变着人们的生活方式,网络流媒体就是其中一个重要的方面。在传统的模式下,人们收看视频节目依赖于电视台的推入,是一种被动的收看模式;而网络流媒体允许用户自主的选择节目,并且提供快进、快退等操作(即VCR操作)满足用户的需求。但是,现今的系统存在两个主要问题一是,过多的VCR操作将会加重系统的负担,无论是传统的服务器一-客户端模式,还是现在流行的点对点模式;另一方面,现今的VCR操作只是简单地提供2倍速,4倍速或者8倍速等操作模式,这让用户很难迅速找到他们感兴趣的部分。
发明内容本发明的目的在于提出一种不增加系统负担,而让用户迅速找到感兴趣的节目的流媒体分发方式和用户VCR操作方法。本发明提出的流媒体分发方式和用户VCR操作,首先使用视频分割技术对视频数据进行预处理,将得到的镜头和场景分割结果用于流媒体的分发和用户的VCR操作,以减轻系统的负担并且满足用户的需求。系统的框架如图1所示。视频分割技术是本发明的基础,它的流程如图2所示。视频是由帧、镜头和场景按照从低到高的层次结构组成。帧,是组成视频的最小单位,它是传统的媒体分发以及用户进行VCR操作(包含播放、停止、暂定、快进和快退等)的单位。对于一般的视频数据,它们的速率为25-30帧每秒,因此帧的数量十分巨大,增加了系统的处理压力。镜头,是由一个相机动作(如开/关)中的连续帧组成,它包含了一致的背景或者物体特定的活动。在镜头分割模块中,本发明采用通用算法[1],首先计算每一帧在HSV(Hue-Saturation-Yalue)颜色空间内的192维直方图,然后得到它们的均值和方差,当超过某一阈值时,判定存在一个镜头。在系统中,我们用关键帧表示镜头,并用镜头为单位组织视频,这样我们在保留视频信息的同时,降低了系统的计算负担。场景,是由一组语义相关的镜头组成,它是视频结构中的语义单元。因此,基于场景的分割,将为用户提供基于视频语义的理解。在场景分割模块中,本发明根据已经提出的算法[2],首先利用流形学习的理论,自动的发掘视频的结构特征,而非依赖某些视频结构的先验知识,这保证了算法在各种类型的视频上都有好的表现。然后,根据已经得到的视频结构特征,利用马尔科夫链蒙特卡罗方法动态地进行模拟采样,寻找场景边界的最大后验概率分布,完成场景的自动分割。通过以上两步对视频数据的预处理,就可以得到镜头和场景分割的结果,它们提供了对视频数据不同层次的理解,将极大地方便流媒体的分发和用户的操作。表l的结果反映了视频数据不同层次结构的时间特性。本发明的系统拓扑如图3所示,各个部分所完成的功能如下主干网络主干网路15实现接入网间网络的互连。接入网接入主干网络的带宽较昂贵,如果视频服务器位于主干网络中,即使服务器带宽满足,接入网接入带宽的接入带宽也会成为瓶颈。小区驻地网络通过网关路由器16接入主干网。接入网内用户具有较高的接入带宽——10/100M,终端数目约为2000~10000。媒体服务器媒体服务器17具有海量的硬盘空间和较高的处理速度,拥有所有的视频资源,包括VoD视频和IPTV源。在添加新的视频资源时,需要对视频进行如前描述的预处理。在服务过程中,还要处理所有用户的视频请求,保存整个系统的视频内容索引,告知每个请求的用户获取资源的方式。用户节点边缘服务器以下的用户节18点采用P2P的工作方式,节目源由媒体服务器提供。每个采用P2P工作方式的节点都要提供其上行带宽,把自己缓冲区中传送给所需要的其他节点。流媒体系统P2P分发方式和VCR操作的实现方法如下(1)整个系统在初始化阶段时,媒体服务器上保存有视频资源,并进行预处理。所谓预处理就是利用以上提到的场景、镜头分割技术在服务器端对视频进行处理,得到场景和镜头的边界,提取场景和镜头的关键帧,单独保存在一个关键帧文件中,此文件比源文件小很多。该关键帧文件的结构是按照影片的播放顺序保存各个场景的关键帧,而每个场景又和若干个镜头的关键帧对应。流媒体VCR分发与传统的分发方式不同,不仅要传输视频源文件,还要分发给用户的关键帧文件。(2)当新用户加入系统准备观看时,首先向服务器发出视频请求,该请求包括所请求视频的编号。服务器对该请求进行响应,确认包含所需的该视频正常播放文件和关键帧文件的节点存在。如有其他用户节点拥有该视频的文件,通知拥有节点将正常播放文件部分块或者关键帧文件中的场景索引部分发送给请求节点。拥有节点可以是单个节点也可以是多个节点,但需保证不发送重复的块。如没有其他用户节点包含这些块,服务器直接对请求用户提供服务(3)当用户连入系统后,系统提供独特的操作界面,它除了包含传统的播放、暂停、停止等VCR操作方式外,还包括基于场景关键帧的直接访问和基于镜头关键帧的快进/快退浏览。上述操作都是建立在视频预处理的基础上的。在操作面板上设置有一个该段视频的场景索引,点击某一场景的索引号,可以看到该场景的代表帧,根据代表帧的内容,用户可以决定是否从该场景继续观看节目,如果不感兴趣,则可以继续在场景索引列表中选择。由于场景是视频的语义单元,因此它能更快地帮助用户寻找视频中令他们感兴趣的部分。系统提供的基于镜头的快进/快退操作,方便用户在某一场景内更快地找到感兴趣的部分,因为在预处理的过程中,场景是由若干帧图像表示,因此用户只需点击若干次快进或快退按钮,就可以在一个场景内快速的浏览。由于场景和镜头都属于视频的高级结构,所以由它们构成的索引文件数据量小,可以伴随着最初的视频流载入客户本地的机器,在方便用户操作的同时极大减轻了网络的负担。(4)用户在获得关键帧文件中的场景索引部分后,可以在播放器中显示各个场景的关键帧,根据观看兴趣可以选择跳至某些场景。这时用户会产生新的读取请求,发至服务器端。服务器对该请求进行响应,确认包含所需的该视频正常播放文件的节点存在。如有其他用户节点拥有该视频的文件,通知拥有节点将正常播放文件所需部分块发送给请求节点。如没有其他用户节点包含这些块,服务器直接对请求用户提供服务。(5)当用户在观看过程中,使用基于镜头的快进/快退功能时,服务器对该请求进行响应,确认包含所需的该视频关键帧文件块的节点存在。如有其他用户节点拥有该视频的关键帧文件块,通知拥有节点将关键帧文件所需部分块发送给请求节点。如没有其他用户节点包含这些块,服务器直接对请求用户提供服务。本发明中,客户端正常播放视频和关键帧文件的方式如图5所示,它包括两种缓存机制,镜头关键帧缓存(SKF)和正常播放缓存(NPB)。在播放正常播放缓存中的文件时,播放将按照正常的速率播放;播放镜头关键帧缓存中的文件时,如果是镜头关键帧的快进或快退操作时,将按照实现设置好的播放速度浏览,例如2帧/秒(如图6所示)。视频索引文件也保存在镜头关键帧缓存中,提供场景的关键帧预览和跳转的索引信息。传统的VCR快进/快退方式只是按照预置的速度向前或向后快速播放,在流媒体系统中这种操作会产生较大量的网络流量,服务器需要发送几倍于正常播放的流量大客户端。现在一般会采用步进/步退的VCR播放方式,按照一定的播放速率跳帧播放视频,这样就会大大减小服务器和客户端之间的流量。但是如果这个速率过大,会造成用户对于浏览过的视频的理解度降低,无法很好选择其所需要的场景;如果速率过低,仍会造成网络的巨大负担和服务器的计算能力开销。采用基于镜头关键帧的快进/快退,可以保证用户通过浏览关键帧获得对视频主要内容的了解情况下的网络较低的负载。图l为系统框架图。图2为视频分割流程图。图3为系统架构拓扑图。图4为流媒体的VCR操作的P2P分发方式。图5为缓存管理。图6为关键帧的处理流程。图中标号l为服务器节点,2为分发网络,3为客户端节点,4为视频源,5为分割后的视频,6为关键帧文件,7为点对点的分发方式,8为父结点选择,9为媒体播放器,10为媒体服务器,11为视频流,12为镜头分割模块,此模块通过比较HSV颜色空间内的颜色直方图进行镜头分割,13为场景结构分析模块,利用流形学习理论,进行场景结构计算,14为场景分割模块,利用马尔可夫链蒙特卡罗方法进行场景分割,15为主干网络,16为小区网关路由器,17为媒体服务器,18为小区用户节点,19为服务器,20为节点A,21为节点B,22为节点C,23为服务器上的视频源文件,24为服务器上的关键帧文件,25为节点A上的正常播放缓存,26为节点A上的关键帧播放缓存,27为节点B上的正常播放缓存,28为节点B上的关键帧播放缓存,29为节点C上的正常播放缓存,30为节点C上的关键帧播放缓存,31为节点C向服务器发出镜头快进请求,32为服务器对请求的响应,33为节点C向节点A发出关键帧文件请求,34为节点A向节点C发送关键帧文件块S2,35为节点的播放缓存,36为正常播放缓存,37为播放时间轴,38为关键帧快进开始的时间,39为视频源文件块,40为网络传输,41为关键帧播放缓存,42为解码,43为镜头关键帧,44为视频播放,45为视频播放器。具体实施方式下面通过一个例子进一步描述本发明。以图4中的情况为例,节点C(图4-22)是新加入系统的节点,系统中已经存在节点A(图4-20)和B(图4-21),他们和节点C具有相同的请求兴趣。1、系统首先进行初始化,媒体服务器(图4-19)上保存有视频资源(图4-23),并进行预处理,生成关键帧文件(图4-24)。2、新用户节点C加入系统准备观看时,首先向服务器发出视频请求(图4-31)。服务器对该请求进行响应(图4-32)并传送索引文件SI(图4-30)。节点C在获得关键帧文件中的场景索引部分后,可以在播放器中显示各个场景的关键帧,根据观看兴趣可以选择跳至某些场景。3、开始正常播放时,节点C把收到的视频内容保存在正常播放缓存(图4-29)中。4、当节点C正常播放完块16后,发起快进请求,需要播放关键帧文件块S2。用户节点A拥有节点C请求的视频的文件块S2,服务器通知节点A为节点C服务,正常播放时,节点C向节点A发出块S2的请求(图4-33),节点A相应该请求并传送块S2。否则服务器可以直接对请求用户提供服务。5、再如节点A发起快进操作,需要关键帧文件块S3时,拥有S3的节点B向节点A发送块S3。6、节点C正常播放视频和关键帧文件的缓存管理如图5所示。播放完正常播放缓存中块7之后(图5-38),播放镜头关键帧缓存中的S2和S3,当VCR请求结束时,从正常播放缓存中又开始正常播放源文件。在播放正常播放缓存中的文件(图5-36)时,播放将按照正常的速率播放;播放镜头关键帧缓存中的文件时,将按照实现设置好的播放速度浏览,例如2帧/秒(如图6-45所示)。视频索引文件也保存在镜头关键帧缓存中,提供场景的关键帧预览和跳转的索引信息。表1视频统计信息<table>tableseeoriginaldocumentpage8</column></row><table>[1]HongJiangZhang,PhilippeAigrainandDragutinPetkovic,"RepresentationandRetrievalofVideoDatainMultimediaSystems",Publisher:Springer(January31,1997)[2]张振原,路红,"一种基于视频结构的场景分割方法",中国图象图形学报,2007年10月权利要求1、一种基于视频分割技术的流媒体分发和用户VCR操作方法,在系统中,用关键帧表示镜头,并用镜头为单位组织视频,其特征在于具体步骤如下(1)在初始化阶段时,媒体服务器上保存有视频资源,并进行预处理,所谓预处理就是利用场景分割和镜头分割技术在服务器端对视频进行处理,得到场景和镜头的边界,提取场景和镜头的关键帧,单独保存在一个关键帧文件中;该关键帧文件的结构是按照影片的播放顺序保存各个场景的关键帧,每个场景又和若干个镜头的关键帧对应;(2)当新用户加入系统准备观看时,首先向服务器发出视频请求,该请求包括所请求视频的编号;服务器对该请求进行响应,确认包含所需的该视频正常播放文件和关键帧文件的节点存在;如有其他用户节点拥有该视频的文件,通知拥有节点将正常播放文件部分块或者关键帧文件中的场景索引部分发送给请求节点;拥有节点是单个节点或者是多个节点,但需保证不发送重复的块;如没有其他用户节点包含这些块,服务器直接对请求用户提供服务;(3)当用户连入系统后,系统提供独特的操作界面,它除了包含传统的播放、暂停、停止的VCR操作方式外,还包括基于场景关键帧的直接访问和基于镜头关键帧的快进/快退浏览;在操作面板上设置有一个该段视频的场景索引,点击某一场景的索引号,可以看到该场景的代表帧,根据代表帧的内容,用户可以决定是否从该场景继续观看节目,如果不感兴趣,则可以继续在场景索引列表中选择;(4)用户在获得关键帧文件中的场景索引部分后,在播放器中显示各个场景的关键帧,根据观看兴趣选择跳至某些场景;这时用户会产生新的读取请求,发至服务器端;服务器对该请求进行响应,确认包含所需的该视频正常播放文件的节点存在;如有其他用户节点拥有该视频的文件,通知拥有节点将正常播放文件所需部分块发送给请求节点;如没有其他用户节点包含这些块,服务器直接对请求用户提供服务。(5)当用户在观看过程中,使用基于镜头的快进/快退功能时,服务器对该请求进行响应,确认包含所需的该视频关键帧文件块的节点存在;如有其他用户节点拥有该视频的关键帧文件块,通知拥有节点将关键帧文件所需部分块发送给请求节点;如没有其他用户节点包含这些块,服务器直接对请求用户提供服务。2、根据权利要求1所述的基于视频分割技术的流媒体分发和用户VCR操作方法,其特征在于所述的镜头分割技术,其步骤为首先计算每一帧在HSV颜色空间内的192维直方图,然后得到它们的均值和方差,当超过某一阈值时,判定存在一个镜头。3、根据权利要求1所述的基于视频分割技术的流媒体分发和用户VCR操作方法,其特征在于所述的场景分割技术,其步骤为首先利用流形学习的理论,自动的发掘视频的结构特征,然后,根据已经得到的视频结构特征,利用马尔科夫链蒙特卡罗方法动态地进行模拟采样,寻找场景边界的最大后验概率分布,完成场景的自动分割。全文摘要本发明属于网络流媒体
技术领域
,具体为一种基于视频分割技术的流媒体分发方式和用户VCR操作。本发明提出的流媒体分发方式和用户VCR操作(包含播放、停止、暂定、快进和快退等)都依赖于视频分割技术,包括如下两个方面的内容一是改变传统的以视频帧单位的视频分发模式;二是提供新的快进和快退操作,不再是简单的2倍速,4倍速或8倍速等模式,而是根据视频分割的结果,提供给用户基于镜头和场景的快进或快退操作,这都将极大地方便用户的使用。文档编号H04N7/173GK101257615SQ20071004740公开日2008年9月3日申请日期2007年10月25日优先权日2007年10月25日发明者张振原,新王,薛向阳,红路,郑常熠申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1