一种基于语义内容多层表示的重复视频检测方法与装置制造方法

文档序号：6520792阅读：146来源：国知局

一种基于语义内容多层表示的重复视频检测方法与装置制造方法
【专利摘要】本发明涉及一种基于语义内容多层表示的重复视频检测方法，包括以下步骤：根据索引视频的信息建立特征数据库；将待查询的查询视频进行镜头检测；对每个查询视频片段提取关键帧；对每个查询关键帧利用特征提取算法进行处理；将每个查询高维特征向量分别进行哈希处理；将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联，在特征数据库中检索特征标签；对检索得到的每组相似特征标签进行特征过滤；对每个备选特征向量集合中的特征向量进行相似度匹配，得到重复视频检测结果。本发明能够避免造成性能瓶颈的高维特征向量的距离计算，在保证检测准确率的同时，有效的提高重复视频检测的处理速度。
【专利说明】—种基于语义内容多层表示的重复视频检测方法与装置
【技术领域】
[0001]本发明涉及一种视频检测方法，特别涉及一种基于语义内容多层表示的重复视频检测方法及装置。
【背景技术】
[0002]随着网络数字视频应用的迅速发展，为了保护和管理视频内容，大规模重复视频检测成为研究关注的问题。重复视频检测方法主要分为两大类:数字水印和基于内容的重复检测。数字水印方法将隐藏的数据信息(即水印)嵌入到图像和视频中进行检测。而基于内容的方法釆用视频内容分析算法，生成视频签名或者关键帧特征进行检索，具有较高的处理效率和准确性。大多数研究关注基于内容的重复视频检索。
[0003]现有方法的通用处理过程可以分为如下三个步骤:
[0004]首先，视频通过镜头分割算法生成视频片段，每个视频片段提取一或多个关键帧；
[0005]然后，对每一个视频关键帧采用特征提取算法生成一组高维特征向量；
[0006]最后，用特征向量的时间和空间匹配算法定义视频的相似度用来进行检测。
[0007]首先是镜头分割和关键帧提取算法。镜头分割又称为镜头边缘检测(ShotBoundary Detection)。镜头是摄像机从开始到停止两个操作之间的一系列视频巾贞序列，现有的镜头分割算法一般分为两类:第一类是基于阈值的方法当两帧之间的相似度低于预先定义的阈值时，即判定为边缘。阈值可以是全局的，自适应的或者全局自适应结合的。第二类是基于统计学习的方法，其中包括督学习和非监督学习两类方法，监督学习分类的算法比如SVM，Adaboost和其他模型的方法，非监督学习的算法主要是聚类算法，比如K-means, fuzzy K_means。关键巾贞提取算法从用一个镜头中提取出最能代表镜头内容的帧作为关键帧，关注的特征包括颜色，边缘，形状，MPEG-7动作描述符等。主要包括两大类:帧序列比较的方法和全局比较的方法。
[0008]在经过镜头分割和关键巾贞提取的预处理之后，索引和检索的基本对象是关键中贞的特征表示，即图像的特征表示，可以分为两类:全局特征和局部特征，分别对应于不同的视频内容表示算法和相似性度量的选取。Yeh等人提出一种全局的关键帧级别的16维分区描述符和一种对应的序列匹配算法。Chiu等人整合了全局和局部特征描述符并采用min-hashing和时空匹配来检测重复视频。Shang等人提出一种二进制全局时空特征并使用基于倒排文件的方法进行索引和快速检测。Pan等人提出一种釆用DCT分析的时空联合特征，并基于该特征设计了视频拷贝检测框架。Wu等人进一步考虑局部关键点的运动，抽象出一种轨迹行为特征，并釆用马尔可夫链模型进行表示和匹配。Liu等人提出了一种结合局部SIFT特征和局部敏感哈希(LSH)算法以及随机抽样一致性(RANSAC)算法的重复视频检测框架。Avrithis等人将局部特征表示成视觉单词并利用类似RANSAC匹配算法进行检测。
[0009]SURF是近年来提出的用于表示数字图像的基于近似Hessian的检测器，已经被实验证明在计算效率方面优于其他局部特征表示方法，如SIFT，PCA-SIFT等。本发明利用SURF的特征对索引进行相应优化:利用特征向量计算的中间结果Laplacian的符号，即Hessian矩阵迹来划分哈希索引生成的桶空间，并且利用兴趣点的位置来进行特征向量的过滤。
[0010]局部敏感哈希LSH算法是一种在高维空间进行近似最近邻查找的有效算法。LSH哈希函数族具有如下性质:距离相近的对象相比距离较远的对象有较高的概率碰撞。不同的LSH函数族对应不同的距离度量。
[0011]基于局部特征的方法相比基于全局特征的方法具有更好的鲁棒性，特别是应对颜色调整，裁剪，添加字幕，转码等经过变换的视频，但同时要付出更高的计算代价。
[0012]基于局部特征的方法，在基本的LSH算法的检索过程中，一个查询点经过哈希到几个不同的哈希表的对应桶中，然后计算桶内所有点与查询点的距离取出距离最近的若干特征向量作为检索结果。我们认为，检索过程中的高维特征向量(比如:64维SURF描述符)的欧式距离计算需要消耗大量时间作为代价，是现有基于LSH算法的性能瓶颈所在。由于网络的应用场景对实时性要求较高，同时，基于多层内容分析的重复视频检测需要处理海量的高维特征向量，所以，处理速度比“局部准确性”更重要。另外，相比于仅使用一个整合的高维向量来描述一个关键帧的基于全局特征的算法，基于局部特征的算法将每一个关键帧表示为几百个高维向量。因此，如何有效的过滤削减特征向量备选集和降低计算负载是关注的重点问题。

【发明内容】

[0013]本发明所要解决的技术问题是提供一种通过自适应局部敏感哈希ADLSH对视频帧的SURF特征向量进行索引和检索、通过参数学习有效的估计每个桶内的平均特征向量数的基于语义内容多层表示的重复视频检测方法及装置。
[0014]本发明解决上述技术问题的技术方案如下:一种基于语义内容多层表示的重复视频检测方法，包括以下步骤:
[0015]步骤1:根据索引视频的信息建立特征数据库；
[0016]步骤2:将待查询的查询视频进行镜头检测，得到多个查询视频片段；所述查询视频设置有查询视频标识，每个查询视频片段分别设置有查询视频片段标识；
[0017]步骤3:对每个查询视频片段提取关键帧，得到多个查询关键帧，每个查询关键帧分别设置有查询关键帧标识；
[0018]步骤4:对每个查询关键帧利用特征提取算法进行处理，得到一组查询高维特征向量，每个查询高维特征向量均设置有查询高维特征向量标识；
[0019]步骤5:将每个查询高维特征向量分别进行哈希处理，得到一组查询特征标签；
[0020]步骤6:将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联，并将上述标识作为每个查询特征标签的关联项，在特征数据库中检索查询特征标签及其关联项，得到多组相似特征标签；
[0021]步骤7:根据每组特征标签的位置信息，对检索得到的每组相似特征标签进行特征过滤，得到包含有多个特征向量的备选特征向量集合；
[0022]步骤8:根据查询关键帧标识和查询视频片段标识，对每个备选特征向量集合中的特征向量进行相似度匹配，得到重复视频检测结果。
[0023]本发明的有益效果是:本发明对基于语义内容多层表示的重复视频检测进行研究，采用SURF描述符作为局部特征，设计一种新的基于LSH的索引结构，该索引结合了 SURF描述符的内在特征，通过参数学习和自适应设置来减少检索时的计算消耗，同时保持了检索的可扩展性和鲁棒性。对检索得到的特征向量集合采用一种简单有效的过滤算法和两层匹配算法，进一步削减备选特征向量集合的数量并生成整个视频的相关分数，通过设置相关分数阈值进行重复视频检测；
[0024]该算法通过自适应局部敏感哈希ADLSH对视频帧的SURF特征向量进行索引和检索，通过参数学习有效的估计每个桶内的平均特征向量数，从而避免了造成性能瓶颈的高维特征向量的距离计算，然后，经过特征过滤和两层匹配完成特征向量到关键帧和视频的多层匹配，得到相关分数作为检测结果，该算法能够在保证检测准确率的同时，有效的提高重复视频检测的处理速度，优于目前基于局部敏感哈希LSH的其他算法。
[0025]在上述技术方案的基础上，本发明还可以做如下改进。
[0026]进一步，所述步骤I具体包括以下步骤:
[0027]步骤1.1:将索引视频进行镜头检测，得到多个视频片段，每个视频片段分别设置有视频片段标识，所述索引视频设置有索引视频标识；
[0028]步骤1.2:对每个视频片段提取关键帧，得到多个关键帧，每个关键帧分别设置有关键帧标识；
[0029]步骤1.3:对每个关键帧利用特征提取算法进行处理，得到一组高维特征向量，每个高维特征向量均设置有高维特征向量标识；
[0030]步骤1.4:将每个高维特征向量分别进行哈希处理，得到一组特征标签；
[0031]步骤1.5:将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联，将关联后的所有特征标签存入特征数据库中。
[0032]进一步，所述步骤5具体包括以下步骤:
[0033]步骤5.1:将每个查询高维特征向量利用如下符号函数表示:
[0034]
【权利要求】
1.一种基于语义内容多层表示的重复视频检测方法，其特征在于，包括以下步骤: 步骤1:根据索引视频的信息建立特征数据库；步骤2:将待查询的查询视频进行镜头检测，得到多个查询视频片段；所述查询视频设置有查询视频标识，每个查询视频片段分别设置有查询视频片段标识；步骤3:对每个查询视频片段提取关键帧，得到多个查询关键帧，每个查询关键帧分别设置有查询关键帧标识；步骤4:对每个查询关键帧利用特征提取算法进行处理，得到一组查询高维特征向量，每个查询高维特征向量均设置有查询高维特征向量标识；步骤5:将每个查询高维特征向量分别进行哈希处理，得到一组查询特征标签；步骤6:将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联，并将上述标识作为每个查询特征标签的关联项，在特征数据库中检索查询特征标签及其关联项，得到多组相似特征标签；步骤7:根据每组特征标签的位置信息，对检索得到的每组相似特征标签进行特征过滤，得到包含有多个特征向量的备选特征向量集合；步骤8:根据查询关键帧标识和查询视频片段标识，对每个备选特征向量集合中的特征向量进行相似度匹配，得到重复视频检测结果。
2.根据权利要求1所述的基于语义内容多层表示的重复视频检测方法，其特征在于，所述步骤I具体包括以下步骤:
步骤1.1:将索引视频进行镜头检测，得到多个视频片段，每个视频片段分别设置有视频片段标识，所述索引视频设置有索引视频标识；步骤1.2:对每个视频片段提取关键帧，得到多个关键帧，每个关键帧分别设置有关键帧标识；步骤1.3:对每个关键帧利用特征提取算法进行处理，得到一组高维特征向量，每个高维特征向量均设置有高维特征向量标识；步骤1.4:将每个高维特征向量分别进行哈希处理，得到一组特征标签；步骤1.5:将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联，将关联后的所有特征标签存入特征数据库中。
3.根据权利要求1或2所述的基于语义内容多层表示的重复视频检测方法，其特征在于，所述步骤5具体包括以下步骤: 步骤5.1:将每个查询高维特征向量利用如下符号函数表示:
4.根据权利要求1所述的基于语义内容多层表示的重复视频检测方法，其特征在于，所述步骤7具体包括以下步骤: 步骤7.1:在提取查询关键帧的过程中，存储中间结果作为每个特征点的位置信息；步骤7.2:将经过哈希处理得到的每个查询特征标签作为一个特征点，根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离；步骤7.3:根据查询关键帧标识进行分类统计，得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差；步骤7.4将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。
5.根据权利要求1所述的基于语义内容多层表示的重复视频检测方法，其特征在于，所述步骤8具体包括以下步骤: 步骤8.1:根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理，利用线性遍历查找与查询关键帧的匹配关键帧:匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧; 步骤8.2:对于查询视频片段标识的每个关键帧，与匹配关键帧/,的相似度为:
6.一种基于语义内容多层表示的重复视频检测装置，其特征在于:包括建立模块(1)，镜头检测模块(2)，关键帧提取模块(3)，特征提取模块(4)，哈希处理模块(5)，关联模块(6)，特征过滤模块(7)和相似度匹配模块(8)；所述建立模块(1)，用于根据索引视频的信息建立特征数据库；所述镜头检测模块(2)，用于将待查询的查询视频进行镜头检测，得到多个查询视频片段，每个查询视频片段分别设置有查询视频片段标识，所述查询视频设置有查询视频标识；所述关键帧提取模块(3)，用于对每个查询视频片段提取关键帧，得到多个查询关键帧，每个查询关键帧分别设置有查询关键帧标识；所述特征提取模块(4)，用于对每个查询关键帧利用特征提取算法进行处理，得到一组查询高维特征向量，每个查询高维特征向量均设置有查询高维特征向量标识；所述哈希处理模块(5)，用于将每个查询高维特征向量分别进行哈希处理，得到一组查询特征标签；所述关联模块(6)，用于将每个查询特征标签与对应的查询高维特征向量标识、查询关键帧标识、查询视频片段标识和查询视频标识进行关联，并将上述标识作为每个查询特征标签的关联项，在特征数据库中检索查询特征标签及其关联项，得到多组相似特征标签；所述特征过滤模块(7)，用于根据每组特征标签的位置信息，对检索得到的每组相似特征标签进行特征过滤，得到包含有多个特征向量的备选特征向量集合；所述相似度匹配模块(8)，用于根据查询关键帧标识和查询视频片段标识，对每个备选特征向量集合中的特征向量进行相似度匹配，得到重复视频检测结果。
7.根据权利要求6所述的基于语义内容多层表示的重复视频检测方法，其特征在于:所述建立模块(I)进一步包括检测子模块(1-1 )，关键帧提取子模块(1-2)，特征提取子模块(1-3)，哈希子模块(1-4)和关联子模块(1-5)；所述检测子模块(1-1)，用于将索引视频进行镜头检测，得到多个视频片段，每个视频片段分别设置有视频片段标识，所述索引视频设置有索引视频标识；所述关键帧提取子模块(1-2)，用于对每个视频片段提取关键帧，得到多个关键帧，每个关键帧分别设置有关键帧标识；所述特征提取子模块(1-3)，用于该对每个关键帧利用特征提取算法进行处理，得到一组高维特征向量，每个高维特征向量均设置有高维特征向量标识；所述哈希子模块(1-4)，用于将每个高维特征向量分别进行哈希处理，得到一组特征标签; 所述关联子模块(1-5)，用于将每个特征标签与对应的高维特征向量标识、关键帧标识、视频片段标识和索引视频标识进行关联，将关联后的所有特征标签存入特征数据库中。
8.根据权利要求6或7所述的基于语义内容多层表示的重复视频检测装置，其特征在于:所述哈希处理模块(5)进一步包括高维向量子模块(5-1)，哈希函数子模块(5-2)，映射子模块(5-3)，抽取子模块(5-4)，多次哈希子模块(5-5)和多次关联子模块(5-6); 所述高维向量子模块(5-1)，用于将每个查询高维特征向量利用如下符号函数表示:
9.根据权利要求6所述的基于语义内容多层表示的重复视频检测装置，其特征在于:所述特征过滤模块(7)进一步包括中间存储子模块(7-1)，计算距离子模块(7-2)，分类统计子模块(7-3)和去除子模块(7-4)；所述中间存储子模块(7-1)，用于在提取查询关键帧的过程中，存储中间结果作为每个特征点的位置信息；所述计算距离子模块(7-2)，用于将经过哈希处理得到的每个查询特征标签作为一个特征点，根据每个特征点的位置信息计算每两个特征点在二维空间里的相对距离；所述分类统计子模块(7-3)，用于根据查询关键帧标识进行分类统计，得到在两个对应关键帧图像中所有特征点相对距离的平均值和标准差；所述去除子模块(7-4)，用于将相对距离超过平均值并且远大于标准差的特征点作为噪声点去除。
10.根据权利要求6所述的基于语义内容多层表示的重复视频检测装置，其特征在于:所述相似度匹配模块(8)进一步包括遍历子模块(8-1 )，相似度子模块(8-2)和相关子模块(8-3)；所述遍历子模块(8-1)，用于根据查询关键帧标识将每个备选特征向量集合中的每个查询特征向量进行再一次哈希处理，利用线性遍历查找与查询关键帧的匹配关键帧:匹配关键帧的数量超过预定阈值的关键帧为匹配关键帧；所述相似度子模块(8-2)，用于对于查询视频片段标识的每个关键帧_/7，与匹配关键帧//的相似度为:
【文档编号】G06K9/46GK103617233SQ201310611187
【公开日】2014年3月5日申请日期:2013年11月26日优先权日:2013年11月26日
【发明者】刘大伟, 徐伟申请人:烟台中科网络技术研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘大伟;徐伟
技术所有人：烟台中科网络技术研究所
我是此专利的发明人

上一篇：一种基于图像识别的地铁防逃票系统及其工作方法
上一篇：一种存储设备中数据读取的方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。