基于描述符的视频特征提取方法及装置与流程

文档序号:12125869阅读:308来源:国知局

技术领域

本发明属于视频处理的技术领域,尤其涉及一种基于描述符的视频特征提取方法及装置。



背景技术:

随着计算机网络技术的发展广泛应用,视频技术也得到广泛应用,当人们在对视频检索过程中,通常会将视频的内容检索居于首位,而目前的视频内容检索通常都是基于视频内容开发商给预先出的关键词等特征,这已经完全不能满足视频用户对于视频内容的多样化、广泛性的需求,而目前后期的视频内容中的特征提取主要是人工提取,其效率低下,海量视频的内容特征提取成为不可能实现的任务。虽然已经出现了少量的视频特征提取算法,但其准确性及稳定性有不尽如人意。因此,有待提出一种新型的视频内容特征提取算法,来克服现有技术中的上述诸多问题。



技术实现要素:

本发明的目的在于解决现有技术的问题,提出一种基于描述符的视频特征提取方法和装置。具体如下:

一种基于描述符的视频特征提取方法,包括如下步骤:

S1,视频特征预处理,用于加载视频内容,并以帧为单位分割视频,由内容分析器提取所述视频内容中的关键特征,建立与所述关键特征相对应的第一描述符;

S2,视频特征检索,将所述第一描述符与预先存储的多个第二描述符进行匹配,并分析匹配的拟合度,得到与所述第一描述符拟合度最高的所述第二描述符,并建立第一描述符、第二描述符和拟合度之间的对应关系链表;

S3,检索结果处理,将所述拟合度大于预先设定的拟合度阈值的链表项目进行存储,以供用户决策或检索。

优选的,所述步骤S1还包括:提取视频帧里的关键特征,所述关键特征根据特征类别分为人体特征和物体特征,所述人体特征和物体特征可以在人机交互界面供用户选择;所述关键特征具体为语义特征,并根据所述语义特征建立语义模型,并为每一个视频帧对应的语义特征建立描述符。

优选的,所述步骤S2还包括:所述第二描述符为预先构建的与人体特征和物体特征相关联的描述符,并由多个第二描述符共同构成特征数据库;所述特征数据库存储在远程服务器,以减少本地的数据存储负担。

优选的,所述步骤S2还包括:所述视频检索过程基于远程服务器,或者,基于用户本地客户端。

优选的,所述步骤S3还包括:所述拟合度阈值有多个,每个拟合度区间的链表项目作为一项进行存储,共同构成分级存储单元。

一种基于描述符的视频特征提取装置,包括如下模块:

视频特征预处理模块,用于加载视频内容,并以帧为单位分割视频,由内容分析器提取所述视频内容中的关键特征,建立与所述关键特征相对应的第一描述符;

视频特征检索模块,用于将所述第一描述符与预先存储的多个第二描述符进行匹配,并分析匹配的拟合度,得到与所述第一描述符拟合度最高的所述第二描述符,并建立第一描述符、第二描述符和拟合度之间的对应关系链表;

检索结果处理模块,用于将所述拟合度大于预先设定的拟合度阈值的链表项目进行存储,以供用户决策或检索。

优选的,所述视频特征预处理模块还包括:提取视频帧里的关键特征,所述关键特征根据特征类别分为人体特征和物体特征,所述人体特征和物体特征可以在人机交互界面供用户选择;所述关键特征具体为语义特征,并根据所述语义特征建立语义模型,并为每一个视频帧对应的语义特征建立描述符。

优选的,所述视频特征检索模块还包括:所述第二描述符为预先构建的与人体特征和物体特征相关联的描述符,并由多个第二描述符共同构成特征数据库;所述特征数据库存储在远程服务器,以减少本地的数据存储负担。

优选的,所述视频特征检索模块还包括:所述视频检索过程基于远程服务器,或者,基于用户本地客户端。

优选的,所述检索结果处理模块还包括:所述拟合度阈值有多个,每个拟合度区间的链表项目作为一项进行存储,共同构成分级存储单元。

本发明的视频特征提取方法及装置有如下优点:1.为每一帧视频建立描述符,最大可能的节约了存储空间。2.建立了分级的拟合度存储方法,综合考虑了你和算法和人工干预,从而提高了视频内容特征提取的准确性。3.视频内容的特征检索过程在远程服务器端可以节约用户本地运算负担,也可以设置在用户本地,具有很高的灵活性。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

一种基于描述符的视频特征提取方法,包括如下步骤:

S1,视频特征预处理,用于加载视频内容,并以帧为单位分割视频,由内容分析器提取所述视频内容中的关键特征,建立与所述关键特征相对应的第一描述符。

其中在视频预处理中,以视频帧为最小单位,把视频分割成多个分析单元并获取其有代表性的语义特征,进而得到其语义信息,通过得到的语义信息建立语义模型,其中对视频事件的描述,主要包括了事件发生对象及事件发展过程两方面。本申请所述方法研究3个方面:事件动态信息的描述与特征提取,建立运动词典和解决事件间相互作用对事件的影响。对于事件动态信息的描述与特征提取,即采取噪声最少的静态信息的描述方法,分析物体运动轨迹,探索合适的特征和方法,来描述运动轨迹。通过定义不同轨迹间相似度的计算方法,在此基础上对轨迹进行聚类,实现对动态特征的编码,以有效地描述事件中物体运动信息。对于运动词典,是把动态与静态信息统一在单一特征中。而解决事件间的相互作用对事件的影响,是为了更好的描述事件以及消除摄像机运动的影响的问题。

S2,视频特征检索,将所述第一描述符与预先存储的多个第二描述符进行匹配,并分析匹配的拟合度,得到与所述第一描述符拟合度最高的所述第二描述符,并建立第一描述符、第二描述符和拟合度之间的对应关系链表。

在视频事件检索中,着重考虑事件的过程性属性和时间维度上的关联,研究特征的时序化处理和表示方法;同时对现有的SVM(支持向量机)分类器进行相应改进,并研究其他适用于序列特征的分类器,从特征提取和机器学习两方面提高事件检索的准确率。对事件描述,通过融合概念检测、语义知识网、概念对事件检测的贡献度等信息,提取与事件相关的各种概念和要素。

也可以采用如下方式,首先构建从捕获自周围环境的关键帧图像的集合提取的SURF特征的图。在提取第一视频帧的SURF特征并将它们与该图匹配之后,该算法在后续帧中局部地跟踪这些特征。与当前视频帧具有最大重叠区域的关键帧被称为关键节点。附近关键帧的重叠区域基于它们的帧间单应性在每帧中更新,并且因此,关键节点不断地切换到数据库中最相似的图像,允许不断地跟踪并发现视频序列中的新区域。

S3,检索结果处理,将所述拟合度大于预先设定的拟合度阈值的链表项目进行存储,以供用户决策或检索。

优选的,所述步骤S1还包括:提取视频帧里的关键特征,所述关键特征根据特征类别分为人体特征和物体特征,所述人体特征和物体特征可以在人机交互界面供用户选择;所述关键特征具体为语义特征,并根据所述语义特征建立语义模型,并为每一个视频帧对应的语义特征建立描述符。

也可以采用另一种提取方法,首先对第一帧的运动向量的角度做直方图。帧的直方图表示总的运动趋势,可认为与直方图中的少的角度对应的运动产生为添加到实际运动中的包括随机误差的运动。因此,可从表示帧的总的运动趋势中排除与直方图中的少的角度对应的运动。因此,可按做成直方图的角度的幅度的顺序选择预定数量的运动向量,选择的运动向量可被定义为第一帧的第一帧特征。对于包括在第一场景中的每个第一帧,从每个第一帧中提取被选为第 一帧特征的预定数量的数据,对所有第一帧的数据进行分组,从而限定第一场景的选择因素,也就是第一场景特征。

优选的,所述步骤S2还包括:所述第二描述符为预先构建的与人体特征和物体特征相关联的描述符,并由多个第二描述符共同构成特征数据库;所述特征数据库存储在远程服务器,以减少本地的数据存储负担。

优选的,所述步骤S2还包括:所述视频检索过程基于远程服务器,或者,基于用户本地客户端。

优选的,所述步骤S3还包括:所述拟合度阈值有多个,每个拟合度区间的链表项目作为一项进行存储,共同构成分级存储单元。分级存储单元将接收到的视频内容数据存储到后端存储数据中心,并将视频内容数据的存储节点信息存储到本地数据库中;再通过P2P架构并采用DHT技术和分级存储技术的存储模块形成存储不同特征的数据库群,将数据按信息内容分级存储,使存储更便于管理和归档,降低存储成本;并保存既有的版本式滚动存储,又有远程存储备份;同时,存储的数据具有很高的可靠性、可扩展性和可用性;与此同时,分级存储后端模块3还提供一定缓存,缓存必要信息,作为以后用户访问的接口。

一种基于描述符的视频特征提取装置,包括如下模块:

视频特征预处理模块,用于加载视频内容,并以帧为单位分割视频,由内容分析器提取所述视频内容中的关键特征,建立与所述关键特征相对应的第一描述符。

其中在视频预处理中,以视频帧为最小单位,把视频分割成多个分析单元并获取其有代表性的语义特征,进而得到其语义信息,通过得到的语义信息建立语义模型,其中对视频事件的描述,主要包括了事件发生对象及事件发展过程两方面。本申请所述方法研究3个方面:事件动态信息的描述与特征提取,建立运动词典和解决事件间相互作用对事件的影响。对于事件动态信息的描述与特征提取,即采取噪声最少的静态信息的描述方法,分析物体运动轨迹,探索合适的特征和方法,来描述运动轨迹。通过定义不同轨迹间相似度的计算方法,在此基础上对轨迹进行聚类,实现对动态特征的编码,以有效地描述事件中物体运动信息。对于运动词典,是把动态与静态信息统一在单一特征中。而解决事件间的相互作用对事件的影响,是为了更好的描述事件以及消除摄像机运动的影响的问题。

视频特征检索模块,用于将所述第一描述符与预先存储的多个第二描述符进行匹配,并分析匹配的拟合度,得到与所述第一描述符拟合度最高的所述第二描述符,并建立第一描述符、第二描述符和拟合度之间的对应关系链表。

在视频事件检索中,着重考虑事件的过程性属性和时间维度上的关联,研究特征的时序化处理和表示方法;同时对现有的SVM(支持向量机)分类器进行相应改进,并研究其他适用于序列特征的分类器,从特征提取和机器学习两方面提高事件检索的准确率。对事件描述,通过融合概念检测、语义知识网、概念对事件检测的贡献度等信息,提取与事件相关的各种概念和要素。

也可以采用如下方式,首先构建从捕获自周围环境的关键帧图像的集合提取的SURF特征的图。在提取第一视频帧的SURF特征并将它们与该图匹配之后,该算法在后续帧中局部地跟踪这些特征。与当前视频帧具有最大重叠区域的关键帧被称为关键节点。附近关键帧的重叠区域基于它们的帧间单应性在每帧中更新,并且因此,关键节点不断地切换到数据库中最相似的图像,允许不断地跟踪并发现视频序列中的新区域。

检索结果处理模块,用于将所述拟合度大于预先设定的拟合度阈值的链表项目进行存储,以供用户决策或检索。

优选的,所述视频特征预处理模块还包括:提取视频帧里的关键特征,所述关键特征根据特征类别分为人体特征和物体特征,所述人体特征和物体特征可以在人机交互界面供用户选择;所述关键特征具体为语义特征,并根据所述语义特征建立语义模型,并为每一个视频帧对应的语义特征建立描述符。

也可以采用另一种提取方法,首先对第一帧的运动向量的角度做直方图。帧的直方图表示总的运动趋势,可认为与直方图中的少的角度对应的运动产生为添加到实际运动中的包括随机误差的运动。因此,可从表示帧的总的运动趋势中排除与直方图中的少的角度对应的运动。因此,可按做成直方图的角度的幅度的顺序选择预定数量的运动向量,选择的运动向量可被定义为第一帧的第一帧特征。对于包括在第一场景中的每个第一帧,从每个第一帧中提取被选为第 一帧特征的预定数量的数据,对所有第一帧的数据进行分组,从而限定第一场景的选择因素,也就是第一场景特征。

优选的,所述视频特征检索模块还包括:所述第二描述符为预先构建的与人体特征和物体特征相关联的描述符,并由多个第二描述符共同构成特征数据库;所述特征数据库存储在远程服务器,以减少本地的数据存储负担。

优选的,所述视频特征检索模块还包括:所述视频检索过程基于远程服务器,或者,基于用户本地客户端。

优选的,所述检索结果处理模块还包括:所述拟合度阈值有多个,每个拟合度区间的链表项目作为一项进行存储,共同构成分级存储单元。分级存储单元将接收到的视频内容数据存储到后端存储数据中心,并将视频内容数据的存储节点信息存储到本地数据库中;再通过P2P架构并采用DHT技术和分级存储技术的存储模块形成存储不同特征的数据库群,将数据按信息内容分级存储,使存储更便于管理和归档,降低存储成本;并保存既有的版本式滚动存储,又有远程存储备份;同时,存储的数据具有很高的可靠性、可扩展性和可用性;与此同时,分级存储后端模块3还提供一定缓存,缓存必要信息,作为以后用户访问的接口。

本发明的视频特征提取方法及装置有如下优点:1.为每一帧视频建立描述符,最大可能的节约了存储空间。2.建立了分级的拟合度存储方法,综合考虑了你和算法和人工干预,从而提高了视频内容特征提取的准确性。3.视频内容的特征检索过程在远程服务器端可以节约用户本地运算负担,也可以设置在用户本地,具有很高的灵活性。

上述说明示出并描述了发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1