基于自顶向下运动注意机制的视频事件识别方法

文档序号：6619346阅读：203来源：国知局

专利名称：基于自顶向下运动注意机制的视频事件识别方法
技术领域：
本发明涉及计算机应用技术领域，特别涉及视频事件识别方法。
技术背景
近几年来，随着hternet的飞速发展，视频压缩技术、DVD、WiebTV、第三代移动通信技术(3G)等技术的推广和普及，尤其是宽带网的建设使得人们交互访问视频信息的机会越来越多，一些视频门户网站应运而生，如国内的优酷和土豆网，国外的youtube等。世界上的视频信息制作者，如电视台、电影制片商、广告制作商等，甚至各种各样的数字捕捉设备如数码相机、数码摄像机等已走入平常百姓家，每时每刻都在源源不断地生产制作出新的视频材料，数字视频媒体已开始大量充斥人们的生活空间。
如何使人们对视频中包含的有用信息进行快捷定位、方便获取以及有效管理是一个亟待解决的问题，该问题的本质就是如何用计算机技术对视频内容进行有效管理和表达；而视频内容理解已经是国际上的一个研究热点，很多研究人员开始运用相关的视频数据处理技术来提取视频中隐含的、有用的、可以理解的语义信息，从而实现视频内容理解。视频信息有其自身的特点，那就是数据量大，结构性差，所以视频信息膨胀带来的问题也非常严重。很多领域由于对大量的视频信息无法有效的处理而导致采集的视频信息闲置。
事件识别一直都是TRECVID的主要任务之一。随着网络上各种多媒体信息的不断丰富，基于内容的多媒体检索技术越来越受到关注和重视。目前，基于内容检索所面临的最大问题就是底层特征和高层语义之间存在的“语义鸿沟”。视频事件的检测与识别是将计算机视觉技术与基于内容的多媒体检索技术相结合，联系上下文的信息和相关的领域知识，融合各种线索进行推理，以事件为基础建立底层特征和高层语义之间的联系。通过建立基于事件的视频语义描述，我们可以对多媒体视频进行更高层次的语义分析，建立高效的索引和检索机制。以前的视频分析都局限于一些固定摄像机下的视频或者是严格控制的视频如ffeizman、KTH、IXMAS等数据库，不同于普通视频，事件检测中的视频都来源于真实视频如新闻广播视频、体育比赛视频和电影中的视频等，这就使得事件检测面临了诸多挑战无序的运动、复杂的背景、目标的遮挡、光照以及目标的几何形变等等。
通常一个视频事件是由是什么(what)和如何发生(how)个方面描述。what通常指的是视频帧镜头特征，即表观特征，例如人、物体、建筑物等；how通常指的是视频的动态特征即运动特征。运动信息是视频数据所独有的，它表示了视频内容随时间的发展变化情况，对于描述和理解视频内容具有相当重要的作用。如何有效地融合这两个方面也是一个很有挑战性的问题。但是目前还缺乏有效的描述事件的方法，这主要是因为目前的方法只考虑事件的某一方面，如what或者是how，尤其是有些方法只利用运动的分布信息，这种方法在真实视频中并不鲁棒。对于两者的融合方面目前的工作都很少，而且对于传统的融合方法如先融合与后融合方法，基本上都是自底向上的，只是盲目地去将事件的两个方面结合起来，并不是任务驱动的。4发明内容
(一)要解决的技术问题
为了解决现有技术背景信息对分类过程的干扰，使得提取到的特征具针对性不强，识别的准确度低的技术问题，为此本发明的目的是提供一种视频静态特征和动态特征融合的基于自顶向下运动注意机制的视频事件识别方法。
( 二 )技术方案
为达到上述目的，本发明提供了一种基于自顶向下运动注意机制的视频事件识别方法，该方法的解决技术问题的技术方案包括
步骤Sl 利用高斯差分检测子，在计算机上检测视频集中每一个视频每一帧的兴趣点，所述视频集包括训练视频集和测试视频集；
步骤S2 对检测得到每一帧的兴趣点提取表观特征和运动特征，所述表观特征为尺度不变特征描述子特征，所述运动特征为光流特征；
步骤S3 对得到的尺度不变特征描述子特征和光流特征进行聚类，并分别建立表观词汇表和运动词汇表；
步骤S4 在训练视频集上学习每一个运动单词关于每一类事件的概率并建立基于运动信息的注意直方步骤S5 利用视频集的基于运动注意直方图特征，采用推土机距离计算训练视频集与训练视频集之间的相似度、及训练视频集与测试视频集之间的相似度，并生成核函数矩阵；
步骤S6 利用得到的核函数矩阵对支持向量机分类器进行训练，得到分类器参数，利用训练好的支持向量机分类器模型对测试视频集分类，输出测试视频集的分类结果。
其中，所述每一帧的兴趣点提取采用哈里斯角点、哈里斯-拉普拉斯兴趣点、黑森-拉普拉斯兴趣点、哈里斯-仿射变换兴趣点、黑森-仿射变换兴趣点、最大稳定极值区域兴趣点、快速鲁棒特征兴趣点或网格点及高斯差分检测子中的一种。
其中，所述建立基于运动信息的注意直方图的步骤包括
步骤S41 设定视频集中视频每一帧Ii由下式表示
权利要求
1.一种基于自顶向下运动注意机制的视频事件识别方法，包括步骤步骤Sl 利用高斯差分检测子，在计算机上检测视频集中每一个视频每一帧的兴趣点，所述视频集包括训练视频集和测试视频集；步骤S2 对检测得到每一帧的兴趣点提取表观特征和运动特征，所述表观特征为尺度不变特征描述子特征，所述运动特征为光流特征；步骤S3 对得到的尺度不变特征描述子特征和光流特征进行聚类，并分别建立表观词汇表和运动词汇表；步骤S4 在训练视频集上计算每一个运动单词关于每一类事件的概率并建立基于运动信息的注意直方图；步骤S5 利用视频集的基于运动注意直方图特征，采用推土机距离计算训练视频集与训练视频集之间的相似度、及训练视频集与测试视频集之间的相似度，并生成核函数矩阵；步骤S6 利用得到的核函数矩阵对支持向量机分类器进行训练，得到分类器参数，利用训练好的支持向量机分类器模型对测试视频集分类，输出测试视频集的分类结果。
2.根据权利要求1所述的视频事件识别方法，其特征在于，所述每一帧的兴趣点提取采用哈里斯角点、哈里斯-拉普拉斯兴趣点、黑森-拉普拉斯兴趣点、哈里斯-仿射变换兴趣点、黑森-仿射变换兴趣点、最大稳定极值区域兴趣点、快速鲁棒特征兴趣点或网格点及高斯差分检测子中的一种。
3.根据权利要求1所述的视频事件识别方法，其特征在于，所述建立基于运动信息的注意直方图的步骤包括步骤S41 设定视频集中视频每一帧Ii由下式表示,、IMI , η 、式中η( ·)是第i帧Ii的直方图表示，Wv是表观特征单词，Wm是运动特征单词，C是事件的类别标签，c e {1，2，...}，尸(0 =。<)是运动单词"^《属于第(；类的概率；3为示性函数，Wg、”^,分别为兴趣点…的运动和表观特征单词指标；步骤S42 对于运动强度和运动方向建立两种类型的注意直方图为基于视觉单词的运动强度直方图(MMA-BOW)如下式表示
4.根据权利要求3所述的视频事件识别方法，其特征在于，对于训练视频集中的每一类c e C，每一个运动单词Wm关于每一类的概率P(C = c |wm)通过贝叶斯法则得到
5.根据权利要求1所述的视频事件识别方法，其特征在于，采用推土机距离来度量视频集的两个视频序列的距离，对于任意两段视频P和Q，分别表示为
全文摘要
本发明是一种基于自顶向下运动注意机制的视频事件识别方法，包括步骤S1利用高斯差分检测子，在计算机上检测视频集中每一个视频每一帧的兴趣点，所述视频集包括训练视频集和测试视频集；步骤S2对检测得到每一帧的兴趣点提取尺度不变特征描述子特征和光流特征；步骤S3建立表观词汇表和运动词汇表；步骤S4在训练视频集上学习每一个运动单词关于每一类事件的概率并由此建立基于运动信息的注意直方图；步骤S5采用推土机距离计算视频集中的视频之间的相似度，并生成核函数矩阵；步骤S6利用得到的核函数矩阵对支持向量机分类器进行训练，得到分类器参数并对测试视频集分类，输出分类结果。
文档编号G06K9/66GK102034096SQ20101059151
公开日2011年4月27日申请日期2010年12月8日优先权日2010年12月8日
发明者李莉, 胡卫明申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡卫明;李莉
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：摄像头与惯性传感器组合定位定姿系统的标定方法
上一篇：一种高分辨率的全分布式水文模型topx的设计方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。