高维空间点超球覆盖视频序列标注的系统和方法

文档序号:10655208阅读:505来源:国知局
高维空间点超球覆盖视频序列标注的系统和方法
【专利摘要】本发明公开了一种高维空间点超球覆盖视频序列标注的系统和方法,该方法包括以下步骤:利用词汇网路辅助分析标注词之间的相关性,从一幅图像的众多候选关键词中挑出最相关、最具代表性的词,滤除掉无关噪声词汇,同时结合通过视觉信息判断图像的相似性,从相似的图像中获得缺失的标注信息;生成语义场并将在逻辑上将具有相同语义信息的图像组织在一起,构成等势线;通过分析这些具有图像的语义,进一步进行标注的传播和噪声的消除,实现图像标注改善。本发明的目的是为了使视频内容的检索更加方便,符合人的主观效果。
【专利说明】
高维空间点超球覆盖视频序列标注的系统和方法
技术领域
[0001 ]本发明涉及一种高维空间点智能视频检索技术,特别是涉及一种高维空间点超球覆盖视频序列标注的系统和方法。
【背景技术】
[0002]随着多媒体影像技术和存储设备的快速发展,互联网上视频信息呈爆炸性增长。视觉图像信息与文本信息相比,更加生动、易于理解。如何帮助用户快速、准确地找到需要的图像成为近年来多媒体研究的热点课题之一,无论是商业界还是学术界,快速、高效的视频检索技术都成为了一个重要研究方向。
[0003]视频检索技术始于基于文本的图像检索,然而,随着数字图像越来越多,基于文本的图像检索不仅费时费力,而且标注结果带有主观性。为了克服这些问题,研究人员于20世纪80年代提出了基于内容的图像检索。由于基于内容的图像检索是基于图像底层视觉特征的表示,避免了人工标注的不准确性和主观性,但是它也带来了若干新的问题,如“语义鸿沟”问题,“维数灾难”问题等,因此,基于内容的图像检索技术很难被实用化。近几年来,研究人员试图将基于文本的图像检索和基于内容的图像检索结合起来,提高检索性能和速度,自动视频标注方法自然地被提出来,成为新的研究热点。
[0004]真实世界环境(Real-World)的概念与一般自动图像标注方法所设定的受限环境相对。在受限环境下,训练数据和测试数据都是来自于同一个人工收集的小规模图像数据库,同时可能待标注的概念非常少,测试图像一般不包含其它信息等等。而在真实世界环境下,特别是互联网环境下,这些限制一般都不存在或者是不合理的。许多受限条件下的自动图像标注方法基本没有考虑真实世界环境下的图像标注问题,在实际应用中表现并不好,如图像标注性能不高,用户对图像标注的感受不好,无法处理大量的语义概念等问题。因此,如果要将图像标注实用化,必须要实现真实世界环境下的自动图像标注方法。现在对真实世界环境下的自动图像标注的研究才刚刚开始,比如如何利用图像的元数据进行图像标注,如何建立真实世界下的图像标注方法的标准数据库等。

【发明内容】

[0005]本发明所要解决的技术问题是提供一种高维空间点超球覆盖视频序列标注的系统和方法,其使视频内容的检索更加方便,符合人的主观效果,可以用于监控、视频流等领域,可以在大规模视频数据库建立有效的索引结构,提高判断近似重复视频的查询过程,提高查询的效率。
[0006]本发明是通过下述技术方案来解决上述技术问题的:一种高维空间点超球覆盖视频序列标注的方法,其特征在于,其包括以下步骤:步骤一:利用词汇网路辅助分析标注词之间的相关性,从一幅图像的众多候选关键词中挑出最相关、最具代表性的词,滤除掉无关噪声词汇,同时结合通过视觉信息判断图像的相似性,从相似的图像中获得缺失的标注信息;步骤二:生成语义场并将在逻辑上将具有相同语义信息的图像组织在一起,构成等势线;步骤三:通过分析这些具有图像的语义,进一步进行标注的传播和噪声的消除,实现图像标注改善。
[0007]优选地,所述步骤二包括以下步骤:对自然图像所在的语意环境进行分析并生成语意场;对原始视频图像进行自动归类处理,按语意网络环境进行归属;自动归类当前使用局部特征点归属,得到集合;使用空间覆盖体进行集合的覆盖,覆盖体的形状是超球或超椭球体;对覆盖体的每个学习阶段标记其优先关系,按优先关系的不同,描述其回归覆盖的优先次序;对样本学习的每个角度,用不同的优先关系的构造序列。
[0008]优选地,所述步骤三包括以下步骤:对原始图像内容进行网络归类;对视频图像进行特征获取;按语义场获取优先顺序,使用优先顺序进行的高维空间点比对;按比较结果进行空间点覆盖的获取,比较局部特征点和整个图像特征点的逻辑关系,排序后获取可能的图像。
[0009]本发明还提供一种高维空间点超球覆盖视频序列标注的系统,其特征在于,其包括:
[0010]语意分析模块,用于对视频图像的上下文进行语意分析;
[0011]语意场管理模块,通过不同的语意通道,实现对语意的优先关系覆盖模型;
[0012]视觉相似性度量计算模块,通过对图像内容的空间点覆盖,实现基于高维空间的点几何关系运算;
[0013]图像数据库,用于存取图像数据可的训练数据样本,训练数据样本包括对同角度的优先排序序列。
[0014]优选地,所述图像数据库支持高维空间点覆盖方法的比较方法。
[0015]本发明的积极进步效果在于:本发明的目的是为了使视频内容的检索更加方便,符合人的主观效果。发明结果可以用于监控、视频流等领域。研究结果可以在大规模视频数据库建立有效的索引结构,提高判断近似重复视频的查询过程,提高查询的效率。在进行图像标注改善时,根据目标的语义信息,有针对性地定位到在语义上与之相同或接近的等势线上,等势线的引入可以将真实世界图像的标注信息进行有效地组织,使语义上相近的图像有机地聚集在一起。这样的组织不仅可以提高基于关键字的检索,使检索过程更有针对性,而且,由于在同一等势线上的图像具有某一相同的语义,可以认为这些图像间的其他语义也具有相关性,通过语义分析和筛选,实现图像标注的补充。需要说明的是,本项目中图像标注改善是一个不断迭代和完善的过程,即语义场是建立在结合词汇网路和视觉相似性滤除噪声词汇之上的,而构建语义场后进行具有同等势线间的图像标注传播后难免会存在噪声词汇,需要进一步利用词汇网路和视觉相似性进行噪声标注的消除,循环往复,逐步提高图像标注的质量。使用者通过文字标记的方法获取视频检索,有很大的局限性,很难实现对视频的精准搜索。通过本发明描述的视频语意网络及高维空间点的覆盖方法,可以实现快速视频标注和定位。对于互联网应用来说,当一个视频被上传时,若能快速地检测出视频库中是否已经存在重复视频不仅可以避免版权纠分,而且可以删除视频库中的重复视频,减少存储空间,提高网络视频检索系统中检索结果的效果,更好的满足用户的需求。
【附图说明】
[0016]图1为本发明尚维空间点超球覆盖视频序列标注方法的视频序列等势线不意图。
[0017]图2为本发明高维空间点超球覆盖视频序列标注方法的视频图像标注改善框架示意图。
[0018]图3为本发明高维空间点超球覆盖视频序列标注的系统的原理框图。
【具体实施方式】
[0019]下面结合附图及实施例来详细说明本发明较佳实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
[0020]如图3所示,本发明高维空间点超球覆盖视频序列标注的系统包括:
[0021]语意分析模块,用于对视频图像的上下文进行语意分析;
[0022]语意场管理模块,通过不同的语意通道,实现对语意的优先关系覆盖模型;
[0023]视觉相似性度量计算模块,通过对图像内容的空间点覆盖,实现基于高维空间的点几何关系运算;
[0024]图像数据库,用于存取图像数据可的训练数据样本,训练数据样本包括对同角度的优先排序序列。图像数据库支持高维空间点覆盖方法的比较方法,能够快速定位到具体的局部特征点序列。
[0025]语意分析模块、视觉相似性度量计算模块、图像数据库都与语意场管理模块连接。
[0026]如图1和图2所示,本发明高维空间点超球覆盖视频序列标注的方法包括以下步骤:
[0027]步骤一:利用词汇网路辅助分析标注词之间的相关性,从一幅图像的众多候选关键词中挑出最相关、最具代表性的词,滤除掉无关噪声词汇,同时结合通过视觉信息判断图像的相似性,从相似的图像中获得缺失的标注信息;
[0028]步骤二:生成语义场并将在逻辑上将具有相同语义信息的图像组织在一起,构成等势线;图像包括第一图像1、第二图像2、第三图像3、第四图像4、第五图像5、第六图像6。等势线包括第一等势线11、第二等势线12、第三等势线13。
[0029]步骤三:通过分析这些具有图像的语义,进一步进行标注的传播和噪声的消除,实现图像标注改善。
[0030]步骤二包括以下步骤:对自然图像所在的语意环境进行分析并生成语意场;对原始视频图像进行自动归类处理,按语意网络环境进行归属;自动归类当前使用局部特征点归属,得到集合;使用空间覆盖体进行集合的覆盖,覆盖体的形状可以是超球或超椭球体;对覆盖体的每个学习阶段标记其优先关系P,按优先关系P的不同,可以描述其回归覆盖的优先次序;对样本学习的每个角度,用不同的优先关系P的构造’序列。
[0031]步骤三包括以下步骤:对原始图像内容进行网络归类;对视频图像进行特征获取;按语义场获取优先顺序Pl,使用优先顺序Pl进行的高维空间点比对;按比较结果进行空间点覆盖的获取,比较局部特征点和整个图像特征点的逻辑关系,排序后获取可能的图像。
[0032]本发明主要从如下几个方面进行处理:
[0033]—、基于编程模型的并行化计算,实现大规模数据集的图像语义学习。
[0034]真实世界环境下一般需要大规模的图像训练集才能实现有效的语义概念的学习和标注。研究基于编程模型的学习任务并行化操作机制,提升针对大规模数据进行学习的能力。如何推广现有算法来适用大规模图像训练数据库,如何构建大规模图像训练数据并行处理结构,把一个学习任务划合理分成若干并行子任务,并将子任务合理的分派给线程,使各线程的工作量均衡。如何处理并行操作中出现的故障,如何对最后的学习任务进行合并汇总等等。这些都是值得研究的问题。
[0035]二、基于迀移学习的标注模型扩展。
[0036]基于分类的图像标注方法可以在少量概念时获得比较好的标注性能,却无法同时对大规模概念同时学习。研究基于迀移学习的标注模型扩展,将学习好的标注模型推广到其它标注。迀移哪些知识到目标对象中,何种情况下进行知识的迀移以及如何设计合理的迀移策略,将学习好的标注模型自动地推广到其它标注的情况,降低对标注问题训练集的要求,降低学习的代价,这些都是本项目需要研究的问题。
[0037]三、图像标注改善。
[0038]由于在真实世界环境下图像来源于不同的领域,因此,图像标注不仅范围广,而且同一个语义往往可用不同的标注词进行标注,此外,一幅图像含义的语义信息是非常丰富的,通过外部信息或者学习获得的图像标注往往是不完整的、含有大量的噪声数据。项目研究在真实世界环境下,图像标注结果的组织和统一,分析标注词间的语义相关性,并结合视觉特征,去除不相关的标注,以达到图像标注改善的目的。
[0039]本发明主要运用高维空间超球交织快速定位技术。对线性时间视频而言,其中关键视频帧描述是快速定位的关键,主要分为以下三个关键点:
[0040]—、分析过程
[0041 ]对关键数据帧的内容,帧数据的某个特征区域进行特征点获取F,F = {FI,F2,...Fm},其中Fk被定义为区域特征值集合Fk= {Cl,C2,...Cp},同理通过对时间序列Tt,可以得到Ft。而后对其中的特征排序,使得其特征有序分布在特定半径的超球面上,最终Tt描述为竹={^142,...切},同理可以另外一段时间序列为扩的不同或相同的视频为1'‘^‘t’ = {t‘l,t‘2,...t‘m},其中t与t‘可以不同。
[0042]二、定位过程
[0043]通过排序后的特征组Tt,T‘t’进行快速比较。通过判断空间几何判断:t‘l与tl及tn关系分别为dll,dln,tm与tl及tn关系分别为dml,dmn,得到Dl = (dll-dml)*(dll_dmn)与D2=(dln-dml)*(dln-dmn),如果 516~(01)〈>516~(02)或01=0|02 = 0,说明两个序列在空间球中有相互覆盖,那么继续l/2*t时间内的序列进行搜着,直到没有超球交织为止,然后定位最小的Dl,D2位置,此时得到的特征序列可能是分布在有限时间范围内的一个或多个镜头场景帧。如何解决超球中的交叉关系是本研究提尚速度的关键。
[0044]三、时间复杂度分析
[0045]视频流获取特征时间O(N),特征排序时间为N*L0G2N,超球获取相似特征时间因为涉及到I /2查找,所以时间复杂度为N*L0G2N。所以总的时间复杂度可以为N*L0G2N,算法可以达到较高的速度。
[0046]视频标注不仅范围广,而且同一个语义往往可用不同的标注词进行标注,此外,一幅图像含义的语义信息是非常丰富的,通过外部信息或者学习获得的图像标注往往是不完整的、含有大量的噪声数据,建立语意框架
[0047]项目首先利用WordNet辅助分析标注词之间的相关性,从一幅图像的众多候选关键词中挑出最相关、最具代表性的词,滤除掉无关噪声词汇,同时结合通过视觉信息判断图像的相似性,从相似的图像中获得缺失的标注信息;然后生成语义场并将在逻辑上将具有相同语义信息的图像组织在一起,构成等势线。由于在同一等势线上的图像具有某种相同的语义,可以认为这些图像间的其他语义也具有相关性;最后,通过分析这些具有图像的语义,进一步进行标注的传播和噪声的消除,实现图像标注改善。
[0048]定义视频关联场、等势线,场的概念最早是1937年由英国物理学家法拉第提出,用于描述物质粒子间的非接触相互作用。随着场论思想的发展,人们将其抽象为一个数学概念,用来描述某个物理量或者数学函数在空间内的分布规律。基础物理学中讨论得最多的是有源矢量场,主要特征是空间中存在无数条以场源为中心的等势线。处在同一等势线上的物体受力的虽方向不同,但大小相同。受上述物理思想的启发,本研究尝试将场理论抽象到语义空间中,考虑将具有相同语义信息的图像组织在一起,构成等势线,因此,真实世界的图像可以构成若干条等势线,等势线图如附录。
[0049]在进行图像标注改善时,根据目标的语义信息,有针对性地定位到在语义上与之相同或接近的等势线上,等势线的引入可以将真实世界图像的标注信息进行有效地组织,使语义上相近的图像有机地聚集在一起。这样的组织不仅可以提高基于关键字的检索,使检索过程更有针对性,而且,由于在同一等势线上的图像具有某一相同的语义,可以认为这些图像间的其他语义也具有相关性,通过语义分析和筛选,实现图像标注的补充。需要说明的是,本项目中图像标注改善是一个不断迭代和完善的过程,即语义场是建立在结合WordNet和视觉相似性滤除噪声词汇之上的,而构建语义场后进行具有同等势线间的图像标注传播后难免会存在噪声词汇,需要进一步利用WordNet和视觉相似性进行噪声标注的消除,循环往复,逐步提尚图像标注的质量。
[0050]除了设计向量空间或距离空间这类单层次的索引外,如何创建一个类似的层次结构用于索引全局特征及其对应的局部特征也是本发明的要点。
[0051]以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种高维空间点超球覆盖视频序列标注的方法,其特征在于,其包括以下步骤: 步骤一:利用词汇网路辅助分析标注词之间的相关性,从一幅图像的众多候选关键词中挑出最相关、最具代表性的词,滤除掉无关噪声词汇,同时结合通过视觉信息判断图像的相似性,从相似的图像中获得缺失的标注信息; 步骤二:生成语义场并将在逻辑上将具有相同语义信息的图像组织在一起,构成等势线; 步骤三:通过分析这些具有图像的语义,进一步进行标注的传播和噪声的消除,实现图像标注改善。2.根据权利要求1所述的高维空间点超球覆盖视频序列标注的方法,其特征在于,所述步骤二包括以下步骤:对自然图像所在的语意环境进行分析并生成语意场;对原始视频图像进行自动归类处理,按语意网络环境进行归属;自动归类当前使用局部特征点归属,得到集合;使用空间覆盖体进行集合的覆盖,覆盖体的形状是超球或超椭球体;对覆盖体的每个学习阶段标记其优先关系,按优先关系的不同,描述其回归覆盖的优先次序;对样本学习的每个角度,用不同的优先关系的构造序列。3.根据权利要求1所述的高维空间点超球覆盖视频序列标注的方法,其特征在于,所述步骤三包括以下步骤:对原始图像内容进行网络归类;对视频图像进行特征获取;按语义场获取优先顺序,使用优先顺序进行的高维空间点比对;按比较结果进行空间点覆盖的获取,比较局部特征点和整个图像特征点的逻辑关系,排序后获取可能的图像。4.一种高维空间点超球覆盖视频序列标注的系统,其特征在于,其包括: 语意分析模块,用于对视频图像的上下文进行语意分析; 语意场管理模块,通过不同的语意通道,实现对语意的优先关系覆盖模型; 视觉相似性度量计算模块,通过对图像内容的空间点覆盖,实现基于高维空间的点几何关系运算; 图像数据库,用于存取图像数据可的训练数据样本,训练数据样本包括对同角度的优先排序序列。5.根据权利要求4所述的高维空间点超球覆盖视频序列标注的系统,其特征在于,所述图像数据库支持高维空间点覆盖方法的比较方法。
【文档编号】G06K9/00GK106021365SQ201610307201
【公开日】2016年10月12日
【申请日】2016年5月11日
【发明人】杨珺, 朱世交
【申请人】上海迪目信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1