一种多尺度视频表示与浏览方法

文档序号:7868869阅读:213来源:国知局
专利名称:一种多尺度视频表示与浏览方法
技术领域
本发明涉及多尺度视频处理方法,具体涉及一种多尺度的视频表示与浏览方法及其实现方法,属于计算机应用技术领域。
背景技术
在当今的信息化社会中,视频作为一种最常见的信息载体,在人们的日常生活与交流中扮演了十分重要的角色。随着软硬件技术的发展,视频的数量也呈现爆炸性增长。面对如此大量的视频资源,人们对快速理解视频内容、快速浏览及定位视频特定情节等的需求也越来越迫切,而这就需要一种高效的视频表示和交互方法。目前视频的表示、浏览以及人与视频间的交互方式已严重制约着视频应用的进一步发展,一般来说,在浏览和理解视频的过程中,首先用户通常希望在粗尺度上对视频进行总览,然后根据自己的喜好或目的对特定的内容进行更精细尺度上的浏览。因此,提取和表达不同尺度、不同层次上的信息对于视频内容的表示与高效浏览具有非常重要的意义。最常见的视频浏览与导航工具是时间轴,它通过控制滑块来达到浏览和定位的效果,这种设计虽然简单便捷,但其不能直观地呈现视频内容,导致视频内容和时间轴在表达上相对分离,使得难以对视频内容进行高效定位。目前一种改进的方式是对时间轴添加文本注释,对视频内容虽然起到的一定的索引和提示作用,但直观性和操作效率上提高有限。视频摘要是一种很重要的对视频内容的表示和概括方式,大部分视频摘要技术通过提取关键帧并按照一定的规则将其进行排列,与时间轴相比提高了视频内容的表示效率,但大多缺乏可交互性。同时,现有的对视频的交互方式多采用基于WIMP的界面范式(Windows、Icon、Menu、Pointing device),要完成一个命令,用户需要在不同的交互资源(如鼠标定位、菜单命令、键盘输入等)之间进行频繁转换,这种方式在一定程度上降低了交互效率,并且对输入参数要求精确,阻碍了用户操作的流畅表达。 如何能够帮助用户用较少的时间对视频所展现的信息进行有效地认知、分析视频内容进而支持视频媒体的闻效交互,是当如视频领域研究的热点和难点问题。目如视频的表示与浏览存在的问题主要包括①对视频的表示多是从计算机处理的角度出发,没有从有利于用户认知的角度出发。人们在认知复杂事物时,最大的困难在于对事物组成各部分之间关系的认知,而目前视频的信息传递多是基于对信息本身的计算机呈现,在强调真实感的同时却忽视了视频间或视频内容间多尺度关系的有效表达;②对视频的交互方式单一,多是关注于视频的低层特征和精确信息。所以,如何充分利用交互反馈来辅助用户意图的表达和感知以及如何通过有效的交互方式针对视频进行编辑进而形成直观的、利于用户认知的表示形式也是一类需要解决的重要问题。可改善单纯被动式的视频信息接受方式,增强用户的参与性。发明内容
本发明的目的在于提供一种面向视频内容的多尺度表示和浏览方法,从而解决现有方法难以有效表达视频的总体内容和各部分之间的关系、难以对视频进行准确而高效地浏览等问题。本发明利用增强时间轴、草图注释、草图摘要以及紧凑的关键帧摘要等四种方式来提供不同尺度下视频的内容表达和浏览,采用的技术方案包括如下步骤
一种多尺度视频表示和浏览方法,其步骤包括
I)在输入端对待处理视频进行预处理,用户可对所述待处理视频进行手势输入和 /或注释,所述预处理包括
1-1)对待处理视频进行镜头分割并提取视频关键帧;
1-2)根据所述视频关键帧进行感兴趣区域ROI提取,得到关键帧ROI图像;
1-3)将所述关键帧ROI图像进行聚类和分层处理,得到ROI聚类结果及分层结构;
1-4)对所述步骤I)中视频关键帧进行草图风格化处理,生成关键帧草图,完成预处理;
2)预处理完成后的视频按照顺序或打乱时序加载下述表示形式,进行多尺度表
表示1:根据所述ROI聚类及分层信息加载得到增强时间轴;
表示2 :根据用户在添加的视频草图注释和所述步骤1-3)中分层结果加载得到多层次草图注释;
表示3 :根据所述步骤1-4)中关键帧草图和所述步骤1-3)中聚类和分层结果加载得到草图摘要;
表示4 :根据所述步骤1-1)中待处理视频关键帧和所述步骤1-3)中聚类结构加载得到关键帧摘要;
3)输出端根据用户的手势输入选择上述一种或多种方法对该视频进行浏览,输出浏览结果。
所述步骤1-1)关键帧提取的方法为根据镜头边界检测方法和关键帧颜色直方图将待处理视频分割为多个镜头。
所述步骤1-2)得到关键帧的ROI图像方法如下
3-1)根据全局对比度将图像分割成若干块,
3-2)利用颜色直方图计算每块图像的颜色概率分布,并根据该分布计算每两块在图像颜色空间中的距离,
3-3)将所述每一块与其它所有块距离之和作为该块的显著值,得到图像显著图,
3-4)以所述显著图的重心为中心对原关键帧进行裁剪,对所述图像显著图进行二值化处理,得到关键帧的ROI图像。
所述步骤1-3)中 得到ROI聚类结果
权利要求
1.一种多尺度视频表示和浏览方法,其步骤包括 1)在输入端对待处理视频进行预处理,用户可对所述待处理视频进行手势输入和/或注释,所述预处理包括 1-1)对待处理视频进行镜头分割并提取视频关键帧; 1-2)根据所述视频关键帧进行感兴趣区域ROI提取,得到关键帧ROI图像; 1-3)将所述关键帧ROI图像进行聚类和分层处理,得到ROI聚类结果及分层结构; 1-4)对所述步骤I)中视频关键帧进行草图风格化处理,生成关键帧草图,完成预处理; 2)预处理完成后的视频按照顺序或打乱时序加载下述多尺度表示形式, 表示1:根据所述ROI聚类及分层信息加载得到增强时间轴; 表示2 :根据用户在添加的视频草图注释和所述步骤1-3)中分层结果加载得到多层次草图注释; 表示3 :根据所述步骤1-4)中关键帧草图和所述步骤1-3)中聚类和分层结果加载得到草图摘要; 表示4 :根据所述步骤1-1)中待处理视频关键帧和所述步骤1-3)中聚类结构加载得到关键帧摘要; 3)输出端根据用户的手势输入选择上述一种或多种方法对该视频进行浏览,输出浏览结果。
2.如权利要求1所述的多尺度视频表示和浏览方法,其特征在于,所述步骤1-1)关键帧提取的方法为根据镜头边界检测方法和关键帧颜色直方图将待处理视频分割为多个镜头。
3.如权利要求1所述的多尺度视频表示和浏览方法,其特征在于,所述步骤1-2)得到关键帧的ROI图像方法如下 3-1)根据全局对比度将图像分割成若干块, 3-2)利用颜色直方图计算每块图像的颜色概率分布,并根据该分布计算每两块在图像颜色空间中的距离, 3-3)将所述每一块与其它所有块距离之和作为该块的显著值,得到图像显著图, 3-4)以所述显著图的重心为中心对原关键帧进行裁剪,对所述图像显著图进行二值化处理,得到关键帧的ROI图像。
4.如权利要求1所述的多尺度视频表示和浏览方法,其特征在于,所述步骤1-3)中 得到ROI聚类结果
5.如权利要求1所述的多尺度视频表示和浏览方法,其特征在于,所述步骤1-4)生成关键帧草图的方法如下5-1)检测所述视频关键帧的所有轮廓面积,若面积小于设定的阈值且轮廓区域的长宽比在规定的范围之内,则去掉该区域中所有像素点;5-2)去除所述像素点后,对草图进行处理得到线条宽度合适的关键帧草图。5-3)调整所述关键帧草图中靠近边界的像素alpha值,对生成的草图进行去硬边界处理。
6.如权利要求1所述的多尺度视频表示和浏览方法,其特征在于,加载得到增强时间轴的方法为根据所述ROI聚类及分层得到每一个最终聚类用一种颜色表示,每一个镜头在所述增强时间轴中用一段线段表示,该线段的长短与镜头的长短成正比,根据用户的操作显示level≤η层,隐藏其他层次,其中η=1, 2,3,4,5。
7.如权利要求1所述的多尺度视频表示和浏览方法,其特征在于,加载得到多层次草图注释的方法为根据用户在视频上的草图注释,对用户进行注释的镜头进行关联,同时将用户添加的草图注释进行规则排列。
8.如权利要求1所述的多尺度视频表示和浏览方法,其特征在于,加载得到草图摘要从所述同一层次的关键帧草图中提取。
9.如权利要求1所述的多尺度视频表示和浏览方法,其特征在于,加载得到关键帧摘要的方法为;采用两行紧凑显示的结构,通过调整靠近边界的像素透明度去除帧的硬边界。
10.如权利要求1所述的多尺度视频表示和浏览方法,其特征在于,对所述用户的手势输入进行手势操作处理方法中可识别包括直线、圆圈和自由曲线的几何图形,以及移动、缩放、删除。
全文摘要
本发明涉及一种多尺度视频表示和浏览方法,其步骤包括1)在输入端对待处理视频进行预处理,用户可对所述待处理视频进行手势输入和/或注释,2)预处理完成后的视频按照顺序或打破时序限制加载下述表示形式,进行多尺度表示,3)输出端根据用户的手势输入选择上述一种或多种方法对该视频进行浏览,输出浏览结果。本发明提供了多种不同的方式对用户进行表达与浏览,有效克服了单一表达方式的局限,能够按照用户需求较好的表达从较粗尺度到较精细尺度的内容,帮助用户理解与定位视频内容。同时提供了与内容相关的聚类和分层方法,从而给用户提供不同层次内容的表达,更好的满足用户的不同浏览需要。
文档编号H04N21/472GK103067781SQ201210557460
公开日2013年4月24日 申请日期2012年12月20日 优先权日2012年12月20日
发明者王宏安, 马翠霞, 钟康 申请人:中国科学院软件研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1