基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法

文档序号：9888663阅读：192来源：国知局

基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法
【技术领域】
[0001] 本发明涉及计算机图形图像处理技术领域，特别涉及一种基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法。
【背景技术】
[0002] 随着智能手机、数码相机等终端设备和互联网的普及，视频的制作、存储和传输更加便捷，越来越多的人通过网络观看视频，并将自己的生活见闻制作成视频上传至网络分享，视频业务已不再局限于传统的广播电视、娱乐电影等生活服务行业，而广泛应用于政治、军事、科教、医疗、交通、安全等众多领域。面对视频数量的"爆炸式"增长，如何快速准确地检索、匹配、分类视频信息面临巨大挑战，同时也是学术界研究的热点问题。
[0003] 现有智能分析关键技术主要包括三种:关键帧提取、特征检测和机器学习，关键帧提取:关键帧是反映视频片段主要内容的一组图像，基于镜头分割的关键帧提取方法准确性高，但计算量太大、耗时严重，基于固定速率的关键帧提取具有很高的时效性，但是提取的关键帧序列可能无法准确描述视频片段的主要内容，缺乏代表性;特征检测:一类利用简洁的全局特征快速检测视频，例如颜色直方图等，这类技术具有较高的检测效率，但是仅能检测一些没有添加全局线性变化的视频；另一类采用高维局部特征增强算法的鲁棒性，例如尺度不变特征变换、快速鲁棒性特征等，这类技术对一些非线性变化的视频依然具有良好的检测效果，如视角变化、几何变化、画面裁剪，甚至是包括一些背景变化，但是每帧视频中都会提取成百上千个局部特征，导致特征匹配的计算量巨大，检测效率无法保证;机器学习：视频分析一般采用机器学习的方法，但机器学习算法的准确性有待进一步改善，机器学习分类算法往往会受到以下因素的影响:大部分机器学习算法对近似椭球形分布的训练样本集有较好的分类效果，但对凹形的复杂分布结构却得不到很好的分类性能;在实际应用中难免会包含一些孤立点、未知数据或者错误数据等噪声，这些都会影响分类算法的质量；不能自适应于视频环境的变化，实时识别新出现的视频类型。

【发明内容】

[0004] 针对现有技术中的不足，本发明提供一种基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法，解决现有技术中关键视频帧不能兼顾效率和精度的问题，增强视频特征对近似全局线性变化的鲁棒性，实现能够自适应于视频模式变化的精确智能检测。
[0005] 按照本发明所提供的设计方案，一种基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法，包含如下步骤：
[0006] 步骤1.针对视频样本，使用抽样保持策略提取关键视频帧；
[0007] 步骤2.针对关键视频帧，计算基于顺序度量的0M特征向量；
[0008] 步骤3.利用基于半监督近邻传播学习对所有0M特征向量进行智能聚类，形成各个视频子簇；
[0009] 步骤4.确定每个视频子簇对应的类别标签，构建多视觉词典，类别标签包含未知类型视频标签；
[0010] 步骤5.将待检视频依次执行步骤1中的使用抽样保持策略提取关键视频帧和步骤 2中的计算基于顺序度量的0M特征向量，并根据步骤4中的多视觉词典，依据最小距离法则判断待检视频的类别标签；
[0011] 步骤6.若出现未知类型视频标签的视频个数大于设定阈值时，使用闭环反馈的自适应重构学习方法，返回步骤3,重构出能够适应新环境的多视觉词典，进一步判断待检视频的类别标签，否则，结束。
[0012] 上述的，步骤1具体包含如下内容:针对任意到达的视频帧，提取视频帧的摘要信息;将摘要信息与关键特征库进行匹配，若匹配成功，则将该视频帧判定为关键视频帧，否贝1J，依概率P进行随机抽样，若抽中，则判定为关键视频帧，否则，丢弃该视频帧。
[0013] 上述的，步骤2计算基于顺序度量的0M特征向量具体包含如下步骤：
[0014] 步骤2.1、将关键视频帧转换成灰度图像；
[0015] 步骤2.2、将灰度图像平均分割成~个图像块，其中4 =啦*办，其中，啦代表乂轴方向的图像块;Ny代表Y轴方向的图像块；
[0016] 步骤2.3、计算每个图像块的平均亮度值Ik，即其中，f(x， J y)是坐标为(X，y)的像素的亮度值，ke[l，N];m，n为图像块的行数和列数；
[0017] 步骤2.4、对各图像块平均亮度值进行排序，生成0M特征向量I = [ h，12，……，IN]。 [0018]上述的，步骤3具体包含如下内容：
[0019]步骤3.1、针对已标记视频样本空间Vi、未标记视频样本空间Vnl，提取所有视频关键帧的0M特征向量；
[0020] 步骤3.2、依次判断任意两个0M特征向量Ii、Ij是否属于％，若均属于Vi，且已标记视频属于同一类型，则将两个0M特征向量之间的距离设为最大值0;若均属于￥1，且已标记视频不属于统一类型，则将两个山之间的距离设为最小值若冲至少有一个属于V nl，则计算L·、I」的欧式距离，即为两者之间的距离Du;
[0021 ]步骤3.3、将视频样本空间中的η个样本点任意两个0M特征向量的距离存储在矩阵 Ε中；
[0022] 步骤3.4、基于近邻传播原理进行聚类划分，形成Κ个聚簇0={&，···，CK}。
[0023]上述的，步骤4具体包含如下内容：
[0024]步骤4.1、针对任意视频子簇Ci，计算Ci中属于任意类别标签lj的已标记视频帧的个数Ni;
[0025] 步骤4.2、利用多数投票策略，将包含最多样本的类别标签Γ赋给子簇Ci;
[0026] 步骤4.3、计算视频子簇Ci的质心wi，即为类别标签Γ的视觉码本Wi ;
[0027] 步骤4.4、所有视觉码本构成多视觉词典。
[0028]上述的，步骤5具体包含如下内容：
[0029]步骤5.1、将待检视频使用抽样保持策略提取关键视频帧；
[0030] 步骤5.2、计算基于顺序度量的0M特征向量0;
[0031] 步骤5.3、计算0M特征向量0与多视觉词典中任意视觉码本Wi的距离；
[0032]步骤5.4、找出最小距离对应的视觉码本Wj;
[0033] 步骤5.5、将待检视频判为视觉码本Wj所属子簇。
[0034] 上述的，步骤6中闭环反馈的自适应重构学习方法，重构出能够适应新环境的多视觉词典，具体包含如下内容：
[0035]步骤6.1、初始化最大判别距离Dmax和阈值δ;
[0036] 步骤6.2、针对视频关键帧0Μ特征向量0i，比较0i与所有视觉码本的距离是否均大于Dmax;
[0037] 步骤6.3、若Oi与所有视觉码本的距离均大于Dmax，则该视频判为未知类型视频；否则，跳转步骤5.3执行；
[0038] 步骤6.4、若未知类型视频个数大于阈值δ，跳转至步骤3，构造适应新环境的多视觉词典，进一步判断待检视频的类型，否则，结束。
[0039]本发明的有益效果：
[0040] 1、本发明利用基于抽样保持策略提取视频关键帧、计算0Μ特征向量、基于半监督 ΑΡ的聚类划分、基于标签映射的多视觉词典构建以及闭环反馈重构学习的方法，有效降低海量视频的特征匹配的计算复杂度，又大大提高视频分类的精度，实现海量视频的智能分析。
[0041] 2、本发明基于抽样保持策略的关键视频帧提取，以方便保持了抽样处理，保证处理效率不受影响，另一方面对关键视频帧基于已知关键特征的粗匹配，避免因关键视频帧提取引起的差异;顺序度量的0Μ特征向量不强调每个图像块的平均亮度，只注重各图像块平均亮度的排序，对添加噪声、调节参数、重新编码等近似全局线性变化具有良好的鲁棒性，特征简洁、易于提取；引入半监督学习机制，利用大多数无标签样本和少量有标签样本，大大降低标记视频样本的计算复杂度，利用少量标记样本，自动获知视频类别标签，提高分类精度和准确性，利用近邻传播学习提高大规模高维特征的聚类效果，环节视觉码本的同义性和歧义性问题;若视频环境中出现未知视频类型，能够通过闭环反馈重构方式智能识别出新的视频模式，能够适应于视频模式变化的精确智能检测。
【附图说明】：
[0042]图1为本发明的流程示意图；
[0043] 图2为本发明的基于抽样保持策略的关键视频帧提取流程示意图；
[0044] 图3为本发明的计算0Μ特征向量的流程示意图；
[0045] 图4为本发明的基于半监督ΑΡ的智能聚类流程示意图；
[0046] 图5为本发明的构建多视觉词典流程示意图；
[0047] 图6为本发明的依据最小距离法则判断待检视频的类别标签的流程示意图；
[0048]图7为本发明的基于闭环反馈的自适应重构学习方法流程示意图。
【具体实施方式】：
[0049]下面结合附图和技术方案对本发明作进一步详细的说明，并通过优选的实施例详细说明本发明的实施方式，但本发明的实施方式并不限于此。
[0050] 实施例一，参见图1所示，一种基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法，包含如下步骤：
[0051] 步骤1.针对视频样本，使用抽样保持策略提取关键视频帧；
[0052] 步骤2.针对关键视频帧，计算基于顺序度量的0M特征向量；
[0053]步骤3.利用基于半监督近邻传播学习对所有0M特征向量进行智能聚类，形成各个视频子簇；
[0054] 步骤4.确定每个视频子簇对应的类别标签，构建多视觉词典，类别标签包含未知类型视频标签；
[0055] 步骤5.将待检视频依次执行步骤1中的使用抽样保持策略提取关键视频帧和步骤 2中的计算基于顺序度量的0M特征向量，并根据步骤4中的多视觉词典，依据最小距离法则判断待检视频的类别标签；
[0056] 步骤6.当出现未知类型视频标签的视频个数大于设定阈值时，使用闭环反馈的自适应重构学习方法，返回步骤3,重构出能够适应新环境的多视觉词典，否则，结束。
[005

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱珂;许维纲;夏冰;
技术所有人：上海颐本信息科技有限公司;
我是此专利的发明人

上一篇：一种利用视频数据进行人脸识别训练的方法
上一篇：基于改进约束ekf算法的动态振荡信号参数辨识方法