一种基于关键信息的无人机侦察视频检索方法与流程

文档序号：11864746阅读：408来源：国知局

本发明属于视频检索领域，具体涉及一种无人机侦察视频的基于文本与内容的检索方法。
背景技术：
：视频检索简单的可以理解为从视频中搜索有用或者需要的资料。传统的视频检索技术往往是对视频进行人工分析、标注，建立类似于文本索引数据库。随着视频数据的爆炸式增长，这种基于文本检索的手工描述视频信息的方式已经越来越不适应视频检索的要求，究其原因主要有如下两点：第一，视频量太大，手工对视频标注文本信息费时费力；第二，对视频的文本描述主观性很大，不同的人对统一视频有不同的主观理解，因此文本信息描述存在歧义性，用户在查询时如输入的关键词和数据库中的关键词不匹配，则查询会失败。为了解决文本检索方式的不足，人们又将视频中所包含的内容信息作为索引，这就是基于内容的视频检索。视频是在时间上连续的一系列图像帧的集合，是一种没有结构的图像流，如果把视频看作一本没有目录结构和索引信息的书，那么一幅图像帧就相当于书中的一页。由于视频这部书缺乏有效地目录结构和索引信息，人们无法对它进行高效的浏览和检索鉴于此人们提出了利用关键帧作为基本访问单元进行视频浏览和检索。在视频检索领域中，国内外诞生了许多基于文本与基于内容视频检索系统。基于文本的视频检索系统如YouTube、优酷、爱奇艺、乐视网等视频网站的检索系统；基于内容的视频检索系统如微软亚洲研究院研制的Ifind信息检索系统，国防科技大学研制的NewVedioCAR系统，清华大学开发的TV-FI系统，IBM的QBIC系统，哥伦比亚大学的Visualseek系统研究性的如，卡内基梅隆大学的Infomedia数字工程系统，商用的如以色列Nevelan公司的BriefCam系统。鉴于无人机侦察任务的重点往往是目标或者区域，关键帧集合的内容应尽可能覆盖所出现的目标，所以，是否出现侦察目标是关键帧提取的重要衡量标准。因此，传统方法中采用聚类中心、熵最大值的衡量标准不能满足无人机侦察关键帧提取的应用需求。而由于目标的多样性，基于所关注的目标通过建立注意机制模型提取关键帧的方法也不适用于无人机视频。技术实现要素：本发明的目的是为了提高无人机侦察视频检索的效率与用户交互性，系统友好性，通过针对无人机视频的关键信息提取，实现减少信息冗余的基于视频内容的高效视频检索。本发明方法在基于内容视频分析、处理和检索技术的基础上，结合无人机的遥感测控的数据信息与任务应用，自动提取无人机侦察视频的视频结构、时空信息、视觉内容信息及对视频内容的理解信息等特征作为索引，辅以传统的基于文本的视频检索方式，能够满足无人机侦察视频检索自动化和人机交互需求，提高检索效率。本发明提供一种基于关键信息的无人机侦察视频信息检索方法，具体步骤如下：第一步，无人机侦察视频关键信息提取；无人机侦察视频的关键信息主要包括：无人机侦察视频提取到的关键帧，与关键帧对应的语义标签信息和地貌统计信息。第二步，将无人机侦察视频信息及其关键信息存储到数据库并进行维护；无人机侦察视频数据库：无人机图像侦察视频信息，无人机侦察视频关键信息包括提取到的关键帧，与关键帧对应的语义标签和地貌统计信息；第三步，输入检索条件，进行视频检索。无人机侦察视频检索流程，根据检索条件的不同分为两种情况：(1)输入语义标签时，将输入的语义标签与数据库中的关键帧语义标签进行匹配，得到检索视频；(2)输入查询图像时，系统首先对其进行由图4所示的语义信息的提取与感知哈希距离τd的提取；然后根据数据库内存储的关键帧信息，根据其语义标签确定检索的图像范围；最后选取与查询图像感知哈希编码汉明距最小的关键帧，该关键帧所在的视频为最终视频。本发明方法的优点在于：(1)在处理大量视频帧时，具备较优的时间性能；(2)在衡量关键帧时高效且更符合无人机图像的应用；(3)可以用单帧图像或文字快速检索到所需的视频；因此，使用本发明方法能提高视频检索效率，实现无人机侦察视频内容的基于关键信息、全方位的高效检索。附图说明图1是本发明基于关键信息的无人机侦察视频检索方法的整体步骤图；图2是本发明第一步中所设计的关键信息提取流程图；图3是本发明第一步中所设计的特征提取流程图；图4是本发明第三步中所设计的检索流程图；图5是实施例中关键帧提取与场景分割示意图；图6是地貌统计信息示例图；图7是数据存储示意图；图8是视频检索结果图。具体实施方式下面将结合附图对本发明的具体实施方法进行详细说明。本发明的一种基于关键信息的无人机侦察视频检索方法，整体流程如图1所示，包括以下几个步骤：第一步，无人机侦察视频关键信息提取该步骤包括无人机侦察视频特征提取、场景分割、关键帧提取、语义提取及场景信息统计。第一步的步骤流程如图2所示，具体包括：步骤1.1，输入帧数为N的无人机侦察视频，提取无人侦察视频特征感知哈希矩，生成感知哈希矩集合Mphash与感知哈希距离集合Γd。添加步骤流程图如图3所示，具体步骤如下：步骤1.1.1，输入帧数为N的无人机侦察视频，提取视频帧fi，生成二值图像若提取成功，对提取成功的视频帧进行判断，若为该视频的第一帧，则先设定为初始二值图I0，否则，进入步骤1.1.2，若提取失败，则表示该视频已提取完毕，视频提取工作结束；步骤1.1.2，根据步骤1.1.1生成的二值图像计算得出其感知哈希矩εi，感知哈希矩εi是指感知哈希编码的二值图像的Hu矩组的一阶矩。图像感知哈希矩获取方法如下：1)去除图像的高频信息，使用最近邻插值法将原图像I变成尺寸为8×8的灰度图I′；2)计算灰度图的像素平均灰度值gavrggavrg=164Σx=0,y=07g(x,y)---(1)]]>其中：x,y分别表示图像的行与列，二维离散函数g(x,y)用于表示图像I′；3)生成尺寸为8×8的二值图像IpHash，用二维离散函数f(x,y)表示：f(x,y)=0,g(x,y)<gavrg1,g(x,y)≥gavrg---(2)]]>4)计算图像感知哈希矩εi：mpq=Σy=1NΣx=1Mxpyqf(x,y)---(3)]]>μpq=Σy=1NΣx=1M(x-x‾)p(y-y‾)qf(x,y)---(4)]]>x‾=m10m00,y‾=m01m00---(5)]]>ηpq=μpqμ00ρ,ρ=(p+q)2---(6)]]>ε＝η20+η02(7)其中，M＝N＝8，p,q＝0,1,2,...，M为x的最大取值，N为y的最大取值，p为x的阶数，q为y的阶数。将生成的二值图像，步骤1.1.1生成的二值图像按行输出，得到一64位的编码pHashi，求取pHashi与pHashi-1的汉明距离重复以上步骤直到视频帧提取结束后，得到感知哈希矩集合Mphash与感知哈希距离集合Γd。Mphash为视频提取到的所有感知哈希矩的集合Mphash＝{ε1,ε2,ε3,...,εi,...,εn}，汉明距离为64位汉明编码pHashi与64位汉明编码pHashi-1对应位置的不同字符的个数，换句话说，它就是将一个字符串pHashi变换成另外一个字符串pHashi-1所需要替换的字符个数，Γd为视频提取到的所有汉明距离的集合。步骤1.2，基于步骤1.1中得到的感知哈希距离Γd对无人机侦察视频进行场景分割，得到场景集合S＝{s1,s2,s3,...,sj,...,sm}，具体步骤如下：步骤1.2.1输入感知哈希距离集合Γd为视频提取到的所有汉明距离的集合，定义为感知哈希距离集合，使用Otsu法求取自适应分割阈值τphash，从时间维对视频进行分割，划分成若干个场景，设定第一个场景的开始帧为α1＝1，依次比较与自适应分割阈值τphash，若且i-αj≥Smin，Smin一个场景包含的视频帧最小帧数，aj为第j个场景的开始帧，则将视频帧fi设定为场景边缘帧，即β1＝i，得到场景S1＝(α1,β1)；步骤1.2.2将新的场景开始帧设定为αj＝βj-1+1，步骤1.2.1中对的比较以及场景结束帧的判定；将视频最后一帧设定为场景的结束，得到m个场景，且βm＝n，最终将视频分割成m个视频段，得到场景集合S＝{s1,s2,s3,...,sj,...,sm}，其中sj＝(αj,βj)，m＜n。αi、βi分别表示第j个场景的开始帧与结束帧序号。步骤1.3无人机侦察视频关键帧提取，基于对图像感知哈希矩εi的分析，通过图像感知哈希矩εi衡量得到视频帧内容重要性λ。λ由公式得到εmax为视频提取到的感知哈希矩的最大值，εi为与视频帧fi对应的感知哈希矩，λi为与视频帧fi对应的视频帧内容重要性，对于每一场景，得到场景内的重要性集合{λ1,...,λt,...,λT}，求取集合内的最大值λmax，λmax所对应的视频帧即为该场景的关键帧，其中t表示该场景中的第t帧，T为场景总帧数。由上述过程的计算得到λmax所对应的关键帧，最终得到视频的关键帧集合KF＝{kf1,kf2,kf3,......,kfm}，kfi为第i个场景中视频帧内容重要性λ最大所对应的视频帧为该场景的关键帧，KF为m个场景的关键帧集合；步骤1.4，对步骤1.3提取到的无人机侦察视频关键帧进行语义提取及场景信息统计。具体步骤如下：步骤1.4.1对步骤1.3提取到的每个关键帧进行语义提取，每个关键帧对应一个语义标签，得到m个数据的关键帧语义集合KW＝{kw1,kw2,kw3,......,kwm}；步骤1.4.2按时间顺序求取每个语义标签所在的场景帧数占视频帧数的比例，若相邻场景关键帧的语义相同，则把它们整合在一起。最终以饼状图呈现每个语义标签所在的场景帧数占视频帧数的比例，顺时针方向表示视频的时序。第二步，将无人机侦察视频信息及其关键信息存储到数据库并进行维护。该步骤包括：将第一步提取到的无人机侦察视频信息与提取到的无人机关键信息存储到数据库中如表一与表二，备份数据库中的各项数据并进行维护。表一无人机侦察视频信息存储表视频信息名称视频信息字符类型存储信息描述视频编号int按照既定规则给视频编号名称char视频名称大小float视频大小视频帧数int视频帧的数量关键帧数int关键帧的数量高度int视频帧的高度宽度int视频帧的宽度建筑物float建筑物场景村庄float村庄场景植物float植物场景裸地float裸地场景水域float水域场景雪地float雪地场景表二无人机侦察视频关键帧存储表第三步，输入检索条件，进行视频检索。第三步的检索流程如图4所示，根据检索条件的不同分为两种情况：(1)输入语义标签时，将输入的语义标签与数据库中的关键帧语义标签进行匹配，得到检索视频；(2)输入查询图像时，系统首先对其进行由图4所示的语义信息的提取与感知哈希距离τd的提取；然后根据数据库内存储的关键帧信息，根据其语义标签确定检索的图像范围；最后选取与查询图像感知哈希距离最小的关键帧，该关键帧所在的视频为最终视频。实施例本实例采用4核计算机对一段无人机侦察视频进行关键信息提取测试，测试过程及结果如下所示。第一步：输入无人机侦察视频，帧数N为659，对无人机侦察视频进行场景分割，场景数m＝20。场景分割如图5所示，虚线为场景分割点，每个场景的长度可以由虚线间的间隔看出。然后，对该视频进行关键帧提取，得到20个关键帧KF＝{kf1,kf2,kf3,......,kf20}。关键帧为图5的20幅小图，底下的颜色带由0到1表示的是视频帧的内容重要性低与高。对每个关键帧进行语义提取，每个关键帧对应一个语义标签，得到20个数据的关键帧语义集合KW＝{kw1,kw2,kw3,......,kw20}。根据图5可得，侦察视频一开始主要侦察乡村的路面，且从场景长度看出视场基本是静止的，其次是建筑，随后是侦察公路，从场景的长度可以看出视角是沿着公路匀速移动，最后是建筑群与植被的侦察。对以上信息进行统计整理。按时间顺序求取每个语义标签所在的场景帧数占视频帧数的比例，若相邻场景关键帧的语义相同，则把它们整合在一起，最终以饼状图呈现，顺时针方向表示侦察视频的时序。图6表示的是视频的地貌统计信息，可以看出文中主要包含6个不同的场景，百分比表示包含的帧数占整个视频的比例。场景3与4虽然内容相似，都是公路侦察，但由于公路两旁的环境差异大，所以被标注成乡村和裸地。其中，场景1和场景3占据的份额最大，是整个视频的重点内容。第二步：图7表示的是将本地数据的属性信息单个或批量的存储到数据库中。视频本身则存储在文件系统，通过存储位置与数据库相关联。第三步：图8表示检索流程。输入图像，可检索到主观让认为与查询条件较为接近的侦察视频关键帧，该关键帧所在的视频为最终检索的视频。当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁文锐;时阳;李红光;
技术所有人：北京航空航天大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。