一种基于镜头间上下文的视频概念标注方法

文档序号：6331897阅读：173来源：国知局

专利名称：一种基于镜头间上下文的视频概念标注方法
技术领域：
本发明属于视频内容分析和理解技术领域，具体涉及一种基于镜头间上下文的视频概念标注方法
背景技术：
近年来，随着互联网技术与多媒体技术的迅速发展，网络上出现了海量的视频内容，面对如此海量的视频信息，如何利用计算机来对之进行有效的管理，使用户能够迅速准确地检索到想要的内容，成为了一个急待解决的关键问题。然而，人类理解的视频和计算机理解的视频之间存在着差异人类是从语义的角度理解视频的，而计算机只能提取视频内容中的底层特征，例如颜色、纹理、形状及声音等，并不能理解其中的语义，因此，人类的理解和计算机的理解之间存在着一条鸿沟，称为语义鸿沟，语义鸿沟成为了计算机对视频内容进行自动分析和管理的一大障碍。为了缩短语义鸿沟的距离，帮助计算机更好地理解和管理视频内容，研究者们提出了视频概念标注技术，该方法首先定义语义概念词典，词典中包含的语义概念尽量广地覆盖视频中可能出现的内容，对于一段视频，可以选取相应的概念对视频的主要内容进行描述；在定义了语义概念词典之后，视频概念标注技术主要研究如何建立视频与语义概念之间的映射关系，对于每一段视频，把它映射到相应的语义概念上去，并用这些语义概念来对视频内容进行描述，可以有效缩短语义鸿沟的距离。图1给出了一个例子进行说明，这些概念取自文献“Lscom lexicon definitions and annotations version 1.0, dto challengeworkshop on large scale concept ontology for multimedia”(该文献是2006年Columbia大学的技术报告)中定义的语义概念词典，可以看到，视频包含的语义概念能够对视频的主要内容进行描述。在对视频进行检索的时候，可以利用相应的概念来对视频进行索引，从而实现对海量视频的有效管理。因此，视频概念标注技术具有十分重要的研究和应用价值。现有视频概念标注技术可以分为两类，第一类方法直接建立视频底层特征与语义概念的映射关系。例如，在2007年的Columbia大学技术报告中，A. Yanagawa和S. F. Chang 等在文 “Columbia university' s baseline detectors for 374 LSCOM semantic visual concepts"中提取了视频的三种底层特征，对每一个概念，分别基于这三种特征训练得到三个检测子，在对某一镜头进行标注时，这三个检测子分别输出一个预测概率，最后取这三个概率值的平均值作为该镜头包含相应概念的概率。第二类在第一类方法的基础上，利用相邻视频镜头在语义上的关系来进一步优化概念标注的结果。一般而言，具体关注某一给定概念，称之为目标概念时，我们把视频中镜头之间的关系分为四类一致性，正相关、负相关和无关。其中，一致性是指，如果一个镜头中包含目标概念，则可增大其相邻镜头包含目标概念的概率；正相关是指，如果一个镜头中包含的概念与目标概念正相关，则能增大其相邻镜头中包含目标概念的概率；负相关是指，如果一个镜头中包含的概念与目标概念负相关，则会降低其相邻镜头中包含目标概念的概率；无关是指，镜头中包含的概念与目标概念无关，那么该镜头对于其相邻镜头中是否包含目标概念不会产生影响。在2008年的ACM Multimedia Conference ±,M. F. Weng 禾口 Y. Y. Chuang 在文献"Multi-cue fusion for semantic video indexing"中利用视频相邻镜头在语义上的一致性，对语义概念标注的结果进行优化。然而，该方法只考虑了连续镜头在语义上的一致性，而没有考虑其他关系，例如正相关和负相关等，因此具有进一步提高的改进空间
发明内容

针对现有技术的不足，本发明提出了一种基于镜头间上下文的视频概念标注方法，用于把视频镜头标注为相关的语义概念，以达到对视频内容进行描述的目的。该方法充分考虑了视频中镜头的各种关系，包括一致性、正相关、负相关和无关等，能够进一步优化视频概念标注的结果，从而有利于对视频内容的理解和管理。
为达到以上目的，本发明的技术方案如下一种基于镜头间上下文的视频概念标注方法，包括以下步骤1)给定具有人工标注结果的视频训练集，为标注的每一个语义概念训练得到一个概念检测子，把训练集和待标注测试集中的视频镜头输入到概念检测子，输出每个镜头中包含相应概念的预测概率；2)将某一给定的语义概念作为目标概念，按照训练集视频镜头中包含的概念和目标概念的关系，把镜头分类为不同类型，并提取镜头类型特征；3)基于步骤2)中的镜头分类和提取的类型特征，对训练集视频中镜头之间的相互关系进行建模，构建的关系模型表示某一镜头的类型特征和类型标注之间的关系，同时表示相邻镜头的类型标注之间的关系，提取测试集视频镜头的类型特征，输入关系模型，得到镜头标注为某一类型的概率，并由此作为目标概念优化后的预测概率；4)重复步骤2)和步骤3)，直到测试集中所有的概念都作为目标概念被优化过为止，这时，如果一个镜头包含某个概念的概率大于给定阈值，则用这个概念对该镜头进行标注。所述步骤1)根据人工标注结果把训练集分为正样本和负样本，然后利用机器学习的方法训练得到分类器，该分类器即作为相应概念的检测子。所述步骤2)把镜头分为四种类型目标概念镜头，正相关概念镜头，负相关概念镜头，以及无关概念镜头。四类镜头定义如下目标概念镜头中包含目标概念；正相关概念镜头不包含目标概念，但包含和目标概念正相关的概念；负相关概念镜头不包含目标概念及其正相关的概念，但包含和目标概念负相关的概念；无关概念镜头既不包含目标概念，也不包含和目标概念正相关或负相关的概念。给定某一目标概念，一个概念和目标概念正相关，表示该概念和目标概念在语义上是相互关联的；一个概念和目标概念负相关，表示该概念和目标概念在语义上是相互排斥的。所述步骤2)中，类型特征根据概念检测子输出的预测概率提取，表示把镜头分类为不同类型的概率。所述步骤3)中，把训练集中同属于一个视频的镜头按照时间先后关系进行排列，得到镜头序列，基于镜头序列训练得到镜头之间的关系模型。
所述步骤3)给定的阈值为0. 5。本发明的效果在于与现有方法相比，本发明能够取得更为准确的视频概念标注结果，从而充分发挥概念标注在视频内容分析和理解中的重要作用。本发明之所以具有上述发明效果，其原因在于本发明充分考虑了视频中镜头之间的不同关系，包括一致性、正相关、负相关以及无关，能够更为有效地优化概念标注的结果。

图1是视频概念标注示意图；图2是本发明方法的流程示意图。
具体实施例方式下面结合附图和具体实施例对本发明作进一步详细的描述。如图2所示，本发明的一种基于镜头间上下文的视频概念标注方法，具体包含以下步骤(1)为训练集中的每一个语义概念训练得到一个概念检测子需要根据人工标注结果把训练集分为正样本和负样本，然后利用机器学习的方法训练得到分类器，该分类器即作为相应概念的检测子。本实施例采用2007年Columbia大学技术报告中文献"Columbia university's baseline detectors for 374 LSCOM semantic visualconc印ts”(作者是A. Yanagawa和S. F. Chang)中提出的方法得到概念检测子。该方法首先对视频镜头提取三种底层特征即颜色矩特征，Gabor纹理特征，以及边缘直方图特征；然后分别基于这三种特征训练得到三个检测子，对于一个待处理的镜头，这三个检测子分别输出一个预测概率，取这三个预测概率的平均值作为该镜头包含相应概念的概率。因此，在该方法中，每个概念的检测子由三个检测子组成。符号定义为了下文能够清楚说明本发明所使用的方法，先将一些将要用到的符号进行说明。把属于同一视频内的镜头记作S = {Sl，s2，...，sn}，其中，镜头的下标是按照镜头在视频中的时间先后顺序赋值的镜头S"在镜头Si之前，镜头si+1在镜头Si之后，η为视频中包含镜头的个数。用L= {11； I2, ... , IJ表示S中镜头的人工标注，其中^ ={/丨,/,2,·..，/；"}表示训
练集中镜头Si的人工标注，//的值为1表示镜头Si包含概念，//的值为0表示该镜头Si 不含概念…。m为语义词典中概念的个数。用示训练集的人工概念标记。用P = {P1, P2，...，Pm}表示概念检测子对S中镜头的预测概率，其中， Pj =< P11,P^,...,PJ >是概念…的检测子输出的预测概率，if为概念…的检测子对镜头Si 的预测概率。用pTrain和pTest分别表示概念检测子对训练集和测试集中镜头输出的预测概率。用Y = {y1，y2，· · ·，ym}表示 S 中镜头的类型，其中，/ =<>是以 Cj 为目标概念时，根据镜头中包含的概念与…的关系对镜头进行分类的结果，少/为镜头Si的类型。表示训练集的类型标记。
用X= (X1jX2,... ,xm}表示S中镜头的类型特征，其中，X7'=<<，与,...,XjJ >是以
概念…为目标概念时，对镜头提取的类型特征。χ/为镜头Si的类型特征。用Xftain 分别表示训练集和测试集中镜头的类型特征用P = G1,P2,...,Pm)表示利用镜头间关系模型对S中镜头的预测概率进行优化后的结果，伊=< Ρ Η,…,H >是对概念…的预测概率进行优化后的结果，贫是对概念 Cj在镜头Si上的预测概率进行优化后的结果。用表示测试集中镜头经过优化后的预测概率。(2)对于某一给定的语义概念…，称之为目标概念，根据镜头中所包含的概念和目标概念之间的关系对训练集中的镜头进行分类。我们把训练集中的镜头分为四类目标概念镜头，记为正相关概念镜头，记为；负相关概念镜头，记为Tig ；和无关概念镜头，记为7;ie/。四类镜头定义如下目标概念镜头中包含概念Cj ；正相关概念镜头不包含概念Cj，但包含和Cj正相关的概念；负相关概念镜头不包含概念Cj及其正相关的概念，但包含和Cj负相关的概念；无关概念镜头既不包含概念Cj,也不包含与Cj正相关或负相关的概念。这里把这四种类型记为
rTj -1 rTJJ1J rTj J1J j
1 consist, pos y neg， irrel ^ 0(3)关注于目标概念…，提取训练集和测试集中镜头的类型特征。在本实施例中，我们是基于概念检测子对视频镜头的预测概率提取类型特征的，也可以采用别的方法，例如基于视频镜头的底层特征提取类型特征等。镜头Si的类型特征是一个四维的特征向量，记为Xf =< Xiconsist，Xipos，Xineg， Xiirrel >，各维值由下列公式定义公式一 <_如=斤公式二Π α-^))
ChEPOSj公式三乂呢=(1-")>< Π (l-")x(l- Π (l-"))
chePOSjcheNEGj公式四务沙ΠΠ α-^))
ChCPOSjcheNEGj其中，PiJ是概念…的检测子对镜头Si的输出值，即镜头Si包含概念…的预测概率。POSj是和概念Cj正相关的概念集合，NEGj是和概念Cj负相关的概念集合。一个概念和正相关，表示该概念常常和…在同一镜头中出现；一个概念和…负相关，表示该概念基本不和Cj在同一镜头中出现。公式五和公式六给出了 POSj和NEGj的定义，满足公式五的概念ch属于集合POSj,满足公式六的概念Ch属于集合NEG」。公式五-.NormMIpJchiCj)> Thjpos公式六..NormMmg(CpCj)> Thjneg其中，NormMIp。s(ch，Cj)和NormMIneg(ch，Cj)的值由公式七、八、九、十、i^一给出NormMIpos (ch, Cj)的值越大，表示ch与Cj正相关的程度越强，NormMIneg(ch, Cj)的值越大，表示Ch与…负相关的程度越强。77‘dn77<g分别是一个阈值，在本实施例中，我们把77‘,取为所有NormMIp。s (ch，Cj)中第六大的值(h乒j)，这样，满足公式五的概念Ch有且仅有五个， 7\夂的取值也采取了同样的方法。公式七NormMIp。s(ch，Cj) = MIpos (ch，Cj) /min {H (ch)，H (Cj)}公式八NormMIneg(ch，Cj) = MIneg (ch，Cj) /min {H (ch)，H (Cj)}
_6]公式九:
剛公式十..MI^cj) - U"、^^公式十一丑化)=—ΣP(^)IOgρ(/0
/^{-1,1}其中，P'的值为1表示概念…在镜头中出现，Ij的值为O表示概念…在镜头中没有出现。Ρ( 是概念Cj是否在镜头中出现的先验概率，可以通过统计训练集中概念Cj出现的次数得到。(4)目标概念标注结果优化本发明采用条件随机场(Conditional Random Field, CRF)为视频中镜头之间的相互关系进行建模。除此之外，也可以利用别的方法进行建模，例如马尔可夫随机场等。场是在 2001 年的 International Conference on Machine Learning ±, 由 J. Lafferty 等人在文献"Conditional random fields !Probabilistic models for segmenting and labelingsequence data”中提出的，该方法被用来解决序列标注问题。在条件随机场中，结点i的类型标注Ii不仅取决于该结点的类型特征，还依赖于其相邻结点的标注结果。在本发明中，把属于同一视频的镜头按照时间顺序排列成一个镜头序列，每个镜头将被标注为疒={71_，7^，TJeg, 7；^}这四种类型之一，这样，镜头标注的问题就可以看作是一个序列标注问题，可以用条件随机场很好的解决，镜头被标注为类型
概率则被看作是镜头中包含概念…的概率，可以作为概念…优化后的预测概率，由于考虑了镜头之间的依赖关系，优化后的概率值更为准确，下面给出条件随机场的定义令X和Y分别为两个随机向量，G= (V，E)是一个无向图，ν e V是图中的一个结点，ν用来对应随机变量yv，这样向量Y中的变量可以由G中的结点一一对应。当变量yv关于X的条件概率分布满足以图G表示结点关系的马尔可夫性质时，我们称〈X，Y>为一个条件随机场，即P(yv|X，yw, w ^ ν) = P(yv|X, yw，w ν)，其中，w ν表示结点w和ν在图G 中是相邻结点。在实际问题中，通常X表示结点的类型特征，而Y为结点的类型标注。如文献"Conditional random fields !Probabilistic models for segmenting and labelingsequence data，，(作者是 J. Lafferty，A. McCallum 禾口 F. Pereira,发表在 2001 年的 International Conference on Machine Learning 上)中所述,在给定 X 的前提下,Y 的条件概率由公式十二给出公式十二IX) =β,Χ,Λ) + Σ^v,7丨^x^))
.乙eeEveV 其中，D= {e, ν}是G的一个子图，Y | D是Y中与子图D相关的随机变量;A是条件随机场的自相关势函数，用来对结点的类型特征和类型标记之间的关系建模；I是互相关势函数，用来对不同结点类型标注之间的关系进行建模；Z用来对计算结果归一化，使得 P(Ylx)的值在0到1之间取值。在具体问题中，一旦给定自相关势函数和互相关势函数的定义，利用条件随机场进行标注的过程可以分为两个阶段训练和预测，训练阶段对参数 θ = (λ, μ)进行学习；在得到θ之后，预测阶段的目标就是要找到一个标注序列圹，使得P (Y Ix)取到最大值，如公式十三所示公式十三广=argmax P(Y | Χ, θ)
Y关于条件随机场具体的学习和预测过程可参看文献“Conditional random fields -Probabilistic models for segmenting and labeling sequence data，，(作者是 J. Lafferty, A. McCallum 禾口 F. Pereira，发表在 2001 年的 International Conference on Machine Learning _t)。在本发明中，我们如下定义条件随机场中的两个势函数，即自相关势函数 (AssociationPotential)禾口互相关势函数(Interactive Potential)自相关势函数用来表示镜头的类型特征和类型标记之间的关系，对于目标概念 Cj，定义自相关势函数如下
< j j
,consist i 一丄 consist X1yj - Tj公式十四雄W)=广一 η
^i,neg yi 一 neg ^i,irreli 一 ^irrel如上述定义，是以Cj为目标函数时镜头Si的类型标记，yjeTJ。 yJ=<y(, yJ2,…，乂>是视频中η个镜头的类型标记。V=<x/，4’…,χ；；>是η个镜头的
类型特征，χ/是镜头Si的类型特征。互相关势函数用来表示不同类型镜头类型标记之间的相互关系，对于目标概念 Cj，定义自相关势函数如下公式十五八乂，乂”V)= Σ= = 0
t\teTJ其中，δ (.)为指示函数，当括弧中声明的条件为真时，该函数的值为1，否则为O。 Tj = [TJonsisl, Tjpos, Tjeg, 7;ie/}是基于目标概念…定义的镜头类型。在得到自相关势函数和互相关势函数的定义之后，即可通过训练集学习得到镜头间的关系模型％，对于需要进行标注的视频，按照步骤(3)中的方法提取镜头的类型特征，输入模型Mp可以得到把镜头标注为类型的边缘概率，作为概念q优化后的预测概率，如果优化后的概率大于阈值0. 5，则用概念…对镜头进行标注。
下面的实验结果表明，与现有方法相比，本发明可以取得更为准确的概念标注结果，从而充分发挥视频概念标注在视频内容分析与理解中的巨大作用本实施例采用了 TRECVID 2006的数据集进行评测，TRECVID是由美国国家标准技术局组织的视频检索领域的权威评测活动。该数据集分为两部分训练集和测试集。训练集中包含了 85个小时的新闻视频节目，涉及阿拉伯文新闻、中文新闻以及英文新闻。这些新闻节目由137个视频组成，被分割为43907个镜头。文献“Columbia university' s baseline detectorsfor 374 lscom semantic visual concepts，，(作者为 A. Yanagawa 禾口 S. F. Chang等，是Columbia大学的一个技术报告)对这些训练集中的镜头进行了人工标注，每个镜头被标注为相应的概念，本实施例采用了这些数据作为训练集的标注数据。测试集包含了 259个视频，这些视频被分割为79484个镜头，我们用不同的概念标注方法在对这些镜头进行处理之后，在TRECVID 2006官方采用的20个概念之上进行评测。我们测试了以下3种方法作为实验对比I.文献"Columbia university's baseline detectors for 374 LSCOM semantic visualconcepts”(作者 A. Yanagawa 和 S. F. Chang,是 2007 年 Columbia 大学的技术报告) 中的方法，该方法采用支持向量机作为分类器，直接建立视频底层特征与语义概念之间的映射关系；II.文献"Association and temporal rule mining for post-processing of semanticconcept detection in video”(作者 K. H. Liu 禾口 M. F. Weng，发表在 2008 年的 IEEETransactions on Multimedia上)中的方法，该方法在方法I的基础上，采用基于规则的方法对概念标注结果进行优化；III.文献“Multi-cue fusion for semantic video indexing，，(作者 Μ· F. Weng 和Y. Y. Chuang，发表在2008年的ACM Multimedia Conference上)中的方法，该方法在方法 I的基础上，利用视频中相邻镜头之间在语义上的一致性来对概念的预测概率进行优化；IV.本实施例的方法。实验米用文献"Estimating average precision with incomplete and imperfect judgments ”(作者是 Ε· Yilmaz 和 J. A. Aslam,发表在 2006 年的 ACM Conference onlnformation and Knowledge Management 之上)中提出的 InfAP 作为评测指标，InfAP 的值越大，说明概念标注的结果就越好。表1实验结果对比
InfAP
方法 I 0. 0948 方法 II 0. 1108 方法 III 0. 1112 本发明IV 0. 1252从表1中可以看出，本发明IV取得了最好的概念标注结果，对比方法I和本发明IV，方法I中没有用到镜头间的上下文来对概念标注结果进行优化，而在本发明IV中，利用镜头之间的相互关系可以提高概念标注的性能。对比方法II、III和本发明IV，方法II是基于规则的方法，而总结出来的规则总是有限的，具有局限性，方法III中只考虑相邻镜头之间的一致性，而没有考虑镜头之间的其他关系，因此具有进一步改进的空间。本发明利用条件随机场对视频镜头之间的相互关系进行建模，包括一致性，正相关和负相关等，大大改进了概念标注的准确率。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
权利要求
一种基于镜头间上下文的视频概念标注方法，包括以下步骤1)给定具有人工标注结果的视频训练集，为标注的每一个语义概念训练得到一个概念检测子，把训练集和待标注测试集中的视频镜头输入到概念检测子，输出每个镜头中包含相应概念的预测概率；2)将某一给定的语义概念作为目标概念，按照训练集视频镜头中包含的概念和目标概念的关系，把镜头分类为不同类型，并提取镜头类型特征；3)基于步骤2)中的镜头分类和提取的类型特征，对训练集视频中镜头之间的相互关系进行建模，构建的关系模型表示某一镜头的类型特征和类型标注之间的关系，同时表示相邻镜头的类型标注之间的关系，提取测试集视频镜头的类型特征，输入关系模型，得到镜头标注为某一类型的概率，并由此作为目标概念优化后的预测概率；4)重复步骤2)和步骤3)，直到测试集中所有的概念都作为目标概念被优化过为止，这时，如果一个镜头包含某个概念的概率大于给定阈值，则用这个概念对该镜头进行标注。
2.如权利要求1所述的视频概念标注方法，其特征在于，所述步骤1)根据人工标注结果把训练集分为正样本和负样本，然后利用机器学习的方法训练得到分类器，该分类器即作为相应概念的检测子。
3.如权利要求1所述的视频概念标注方法，其特征在于，所述步骤2)把镜头分为四种类型目标概念镜头，正相关概念镜头，负相关概念镜头，以及无关概念镜头。
4.如权利要求3所述的视频概念标注方法，其特征在于，给定某一目标概念，四类镜头定义如下目标概念镜头中包含目标概念；正相关概念镜头不包含目标概念，但包含和目标概念正相关的概念；负相关概念镜头不包含目标概念及其正相关的概念，但包含和目标概念负相关的概念；无关概念镜头既不包含目标概念，也不包含和目标概念正相关或负相关的概念。
5.如权利要求4所述的视频概念标注方法，其特征在于，给定某一目标概念，一个概念和目标概念正相关，表示该概念和目标概念在语义上是相互关联的；一个概念和目标概念负相关，表示该概念和目标概念在语义上是相互排斥的。
6.如权利要求1所述的视频概念标注方法，其特征在于，所述步骤2)中，类型特征根据概念检测子输出的预测概率提取，表示把镜头分类为不同类型的概率。
7.如权利要求1所述的视频概念标注方法，其特征在于，所述步骤3)中，把训练集中同属于一个视频的镜头按照时间先后关系进行排列，得到镜头序列，基于镜头序列训练得到镜头之间的关系模型。
8.如权利要求1所述的视频概念标注方法，其特征在于，所述步骤3)给定的阈值为`0. 5。
全文摘要
本发明提供了一种基于镜头间上下文的视频概念标注方法，包括为训练集中标注的每一概念训练得到一个检测子，把训练集和测试集中的镜头输入概念检测子，输出镜头包含相应概念的预测概率；指定一目标概念，按照训练集镜头中概念和目标概念的关系，把镜头分为不同类型，提取类型特征；按照训练集视频镜头中镜头类型特征和类型标注间关系，及相邻镜头类型标注间的关系构建模型，提取测试集视频镜头的类型特征，输入模型，得到镜头标注为某一类型的概率，作为目标概念优化后的预测概率；依次优化所有概念，若优化后的预测概率大于给定阈值，用相应概念标注镜头。本发明方法由于充分考虑了视频中镜头之间的不同关系能够更为有效地优化概念标注的结果。
文档编号G06F17/30GK101968797SQ20101027908
公开日2011年2月9日申请日期2010年9月10日优先权日2010年9月10日
发明者彭宇新, 易剑, 肖建国申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：易剑;彭宇新;肖建国
技术所有人：北京大学
我是此专利的发明人

上一篇：触控系统的控制方法及触控系统的制作方法
上一篇：用于共享外包数据库的数据完整性验证方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。