通过检索视频内容实现超感体验的方法_2

文档序号：9766056阅读：来源：国知局

过程性属性进行描述和表示，比如在某个时刻或时间段的基本特征表示(可W描述颜色、纹理、运动信息等）。运相当于在原有特征上增加一个时间维度，用来对事件在时间维度上的发展过程进行描述，不同的视频事件通常展现出不同的序列特征。
[0040] 在视频事件检测中，采用视觉词袋特征(8日旨-(^-￥1311日1-￥〇'(13,8〇￥)。首先在视频帖图像集上利用DoG(Difference of Gaussian)和Hessian-Laplacian检测关键点，对每个关键点用尺度无关变换特征（Scale Invariant FeaUire Transform,SIFT)进行描述。然后把所有关键点用K-Means方法进行聚类，建立一个视觉词典，其中每个类称作一个视觉单词，最后把每个关键点映射到最近的一个视觉单词，形成一个在视觉词典上的直方图，用于描述视频中的静态信息;在运些静态信息的基础上，计算不同的视觉单词的运动特征，方法如下：
[0041] 给定一个视频，按照每秒5帖的速率均匀提取关键帖。在相邻关键帖之间采用KLT 化anade-Lucas-Tomasi)算法跟踪其中的关键点，并计算每个关键点的运动向量。对任意两个视觉单词a和b，计算它们之间的相对运动如下
[0043] 其中，Na、化分别是视频中映射到a和b上的关键点的集合，mr、mt分别是两个关键点 r，t的运动向量，mr-mt是他们之间的相对运动向量，Di (.Ki = I，2,3,4)将运动向量分别投射到前、后、左、右四个方向。由此生成一个SX S(S是视觉词典大小）的矩阵R，其中每个元素描述了两个不同视觉单词之间的相对运动。使用视觉单词间的视觉关联性对RMH-BoW特征进行扩展，进一步得出邸MH-BoW化xpanded RMH-BoW)。
[0044] 最后，使用信息增益的方法，选择ERMH-BoW中对事件检测最重要的运动单词特征。
[0045] 在基于视觉词袋特征的图像概念检测中，需要对不同的概念，针对性的选择不同的视觉单词描述图像内容。也就是说，要根据其重要程度，给不同视觉单词赋予不同的权重。提出了核优化的视觉词袋信息量加权方法去解决运个问题，步骤如下：
[0046] 0首先是在一组训练图像上构建视觉词典。
[0047] ii )其次基于视觉词典，产生图像的BoW特征向量，用于表示图像内容
[004引化）然后对于给定概念的检测，根据重要程度不同，分配不同的权重给视觉单词，形成权重向量W= [Wl，w2…WC]，使得重要的视觉单词(权重大)对于样本之间的距离测量贡献更多。
[0049] 用内核对齐得分KAS化ernel Alignment Score)来衡量核K与最优核的对齐程度。
[0050] 通过内核对齐得分，对视觉单词权重的度量问题转变成为寻找一个最优权重向量，使得S得分最大化的问题，所得到的视觉单词权重用于SVM分类器的训练和分类。
[0051] 图1中的提取运动单词特征用于视频中事件的位置属性进行描述和表示的，即从空间的维度上提取视频事件特征。
[0052] 在视频处理中，通过对视频事件的分析，得到同一视频事件对象在一个事件序列的变化数据，受限于超感设备的运动方式，需要建立起系统与控制子系统的动作之间的映射关系，对应的，采用XML格式的文件作为控制输入接口文件，通过"ActionIcT，" StartTime" ,"runnin巧ime" ,W及"motion"等参数，控制超感设备的运动。
[0053] 图1中的视频检测结果处理流程用于处理视频检索结果。
[0054] 参阅图2,将本发明设置于系统中，该系统包括：
[0055] 系统运行模块10,用于启动系统；
[0056] 视频事件预处理模块20,用于对已加载到系统中的视频内容进行预处理，记录视频内容中关键事件描述，提高视频事件检索模块30中的视频检索效率；
[0057] 视频事件检索模块30，用于对已加载到系统中的视频内容进行视频检测；
[0058] 视频事件检索结果处理模块40,用于根据超感设备提供的接口格式处理视频检索模块的检索结果，并生成相应的接口文件；
[0059] 系统退出模块50,用于退出或关闭系统。
[0060] 本发明的操作过程：
[0061 ]点击系统运行图标，进入系统界面。
[0062] 通过点击界面按钮:文件-〉载入视频文件，导入所需检索的视频文件。
[0063] 通过点击界面按钮:工具-〉运动目标检测，进入视频检索窗口；
[0064] 在视频检索窗口，通过W下方式选择检测对象：
[0065] i)点击鼠柄;左键并保持；
[0066] ii )拖动鼠标W矩形线圈选择带检测对象；
[0067] 化）放开鼠标左键，检测将自动进行。
[0068] 待检测完成窗口弹出，在系统运行目录下找到result.xml文件即为检测结果文件。最后将生成的xml文件，传输到超感设备中，控制超感设备，完成映射行为。
【主权项】
1. 一种通过检索视频内容实现超感体验的方法，其特征在于该方法包括以下具体步骤：步骤一:视频预处理，对视频内容提取语义特征的预处理;具体为： i)以视频帧为最小单位，把视频分割成多个分析单元并获取其有代表性的语义特征； ? )使用从i)获得的语义特征，建立语义模型；步骤二:视频事件检索，用语义图的方式选择检索对象，并根据已选择的检索对象，对视频中与检索对象有关的事件进行检索;具体包括： i)基于步骤一的? )语义模型，根据语义图检索条件，结合采用等长视频段、视频段局部兴趣点两种方法提取视频时序特征，并对视频中事件的过程性属性进行描述和表示； ? )基于步骤一的? )语义模型，根据语义图检索条件，提取运动相对特征；步骤三:视频事件检索结果处理，对视频事件检索中的结果进行处理;具体为： i)基于视频事件检索结果，根据事件发生的时间和事件发生对象的运动特征，剔除无效结果，得到最终检索结果； ? )生成超感设备能够理解的命令文件，以XML格式保存;最终使超感设备能通过执行命令文件后与视频内容中的事件在运动轨迹上保持同步。2. 根据权利要求1所述的方法，其特征在于所述等长视频段的提取方法是通过把给定视频分割成一系列大小相等的视频片断，在每一个视频片断内分别提取基于运动点的运动直方图的运动特征和基于运动轨迹的运动词典的运动特征，生成一个等长时序距离的运动特征序列。3. 根据权利要求1所述的方法，其特征在于所述视频段局部兴趣点的提取方法是通过对运动轨迹在时间维度上提取局部兴趣点并对其进行相应描述，其中，事件中物体的运动信息被表示成为一个运动序列，针对不同长度的事件时序发展过程提取出稳定的特征集合，再对得到的特征集合结合使用Hausdorff距离和编辑距离，计算得到不同时序特征的距离，从而生成不等长时序的运动特征序列。4. 根据权利要求1所述的方法，其特征在于所述根据语义图检索条件，提取运动相对特征，具体包括： i)采用视觉词袋特征;首先在视频帧图像集上利用DoG和Hessian-Laplacian检测关键点，对每个关键点用尺度无关变换特征进行描述;然后把所有关键点用K-Means方法进行聚类，建立一个视觉词典，其中每个类称作一个视觉单词，最后把每个关键点映射到最近的一个视觉单词，形成一个在视觉词典上的直方图，用于描述视频中的静态信息； ? )在i)的静态信息基础上，计算不同的视觉单词的运动特征，给定一个视频，按照每秒5帧的速率均勾提取关键帧;在相邻关键帧之间米用KLT算法跟踪其中的关键点，并计算每个关键点的运动向量;对任意两个视觉单词a和b，计算它们之间的相对运动如下：其中，Na、Nb分别是视频中映射到a和b上的关键点的集合，mr、m t分别是两个关键点r，t的运动向量，mr-mt是他们之间的相对运动向量，Di (.) (i = 1，2，3，4)将运动向量分别投射到前、后、左、右四个方向；由此生成一个S X S的矩阵R，S是视觉词典大小;其中每个元素描述了两个不同视觉单词之间的相对运动;使用视觉单词间的视觉关联性对RMH-BoW特征进行扩展，进一步得出ERMH-Bol iii)使用信息增益的方法，选择ERMH-BoW中对事件检测最重要的运动单词特征。
【专利摘要】本发明公开了一种通过检索视频内容实现超感体验的方法，该方法包括视频预处理、视频事件检索及视频事件检索结果处理三个步骤，涉及视频事件检索、超感设备映射技术领域。本发明所述方法目的是为了实现4D影院中引入4D特技的自动化，本发明与现有的4D影院中全人工引入4D特技的方法相比，最大程度的实现引入4D特技的自动化，很大程度上提高了在4D影院中引入4D特技的效率，能为观众提供更为真实的4D体验。
【IPC分类】G06F17/30
【公开号】CN105528458
【申请号】CN201610008160
【发明人】吕钊, 刘欢, 陈梦伟
【申请人】华东师范大学
【公开日】2016年4月27日
【申请日】2016年1月7日

完整全部详细技术资料下载

当前第2页1 2