视频序列结构的自动提取方法

文档序号：7573444阅读：351来源：国知局

专利名称：视频序列结构的自动提取方法
技术领域：
本发明涉及一种用于自动提取对应于连续帧的视频序列的结构的方法。本发明还涉及一个用于索引包含所说定义方法的数据的一种方法、涉及执行所说索引方法的一个装置、以及其中实施所说方法的一个图像检索系统。本发明在与MPEG-7标准关联应用中非常有用。
背景技术：
MTEG-7标准力图提供一种灵活和可扩展的结构，用于定义那些可用于描述各种类型的多媒体文件的描述的一个标准设置。与给定内容相关的描述允许实现快速及有效地搜索用户感兴趣的资料。本发明更具体地涉及视频序列的表现情况。
一个图像序列是一系列顺序排列的图像(按时间排序)。在存储在一个数据库之前，对应图像数据流分段成基本单元(即拍摄镜头，一个拍摄镜头是在一个连续操作过程中产生的连续帧，并且表示时间和空间中的一个连续动作)，被随后标识和索引。一个图像索引技术在例如文献″经过目标运动分析的自动图像索引″(J.D.Courtney，Pattem Recognition，1997，4月，第4期，卷30 pp.607-625)中描述。如在该文件中阐明的那样，利用一个分级分割确定视频序列的逻辑结构，以同样方式把文本细分为章和段落。然而在大多数情况下，时间分段似乎不是完全适当，例如在体育(足球、网球比赛)的应用中，图像拍摄镜头能够很长。
本发明概要本发明的一个目的是建议一种能够自动创建一个图像序列的描述的方法，即根据一个新的、具体的判据创建所说序列的一个目录。
为此目的，本发明涉及在本说明书的开头段落中描述的一种方法，并且该方法包括(1)一个拍摄镜头检测步聚，用于检测连续拍摄镜头之间的边界，一个拍摄镜头是一组无编辑效果的连续帧；(2)一个分段(partitioning)步骤，用于把每一拍摄镜头分解成称为小段(micro-segments)的子实体；(3)一个集群步聚，用于创建该已经处理的图像序列的一个最终分级结构。
这种方法允许获得已经处理成称为微段的子实体的图像序列的每一拍摄镜头的一个分区。根据建议的判据，这些微段最好表现出关于已经捕获了原始图像(这些图像已经转换成构成所说已处理的视频序列的一个图像比特数据流)的摄像机的运动参数的高水平的均匀性。
更精确地说，每一微段的均匀性是根据一个运动直方图计算的，每一条块示出具有一个具体运动类型的帧的百分比。当表示沿所有帧的摄像机运动参数的单一组合时，一个微段是完全均匀的，该直方图条块等于1或0。相反，如果该直方图的条块不等于1或0，则当前的中间值指示一个微段不是完全均匀的，以便分段一个拍摄镜头，根据分段连接的均匀性计算两个部分之间的距离。所说均匀性是从一个微段的直方图和不同运动类型的本身推断而来的，一个拍摄镜头的均匀性等于由其每一长度加权的微段的均匀性，根据相对于一个预定阈值T(H)的拍摄镜头的均匀性的值并且假定选择部分已经被合并，确定是否在任何部分对之间的一个结合，当不存在能够合并的进一步的相邻微段对时，这种可能的微段之间的合并过程结束。
本发明的另一目的是建议一个图像索引装置，包括用于执行这种方法的装置以及用于把一个标记添加到由本方法定义的分级结构的每一单元的相关索引装置。
本发明的另一目的是建议一个图像检索系统，包括这样的一个图像索引装置和相关的用于执行索引的装置，使用此图像的一个或几个特征而根据从所说的索引操作得出的分类而执行任何图像的检索。
附图的简要描述现在参照附图举例来更详细地描述本发明，其中

图1示出根据本发明定义的方法的一个方框图；图2示出用于一个给定帧序列的mDFD曲线；图3示出一个说明该分段均匀性的测量的直方图的例子；图4示出初始的超分段分区创建的处理；图5示出一个二进制树形，例如由在所说定义方法中提供的合并子步骤的一个拍摄镜头的实施方案产生的二进制树形；图6示出在一个树形重建子步骤之后产生的树形；图7示出用于索引已经根据本发明处理的数据的一个方法；图8示出实施所说的索引方法的一个图像检索系统，以及借助适当的相关装置，根据从这样一个索引操作给出的分类而实现图像检索的执行。
本发明的详细说明用于视频序列的一个内容表的目的是以一个分级方式，可能以一个文本文档方式，定义此顺序的构造。因此该原始序列被细分为子序列，其还可以进一步分成更短的子序列。在分段处理的结束后，要描述的最短实体将是微段。
更精确地说根据建议策略，该方法分成三个步骤，如图1所示，它们是一个拍摄镜头检测步骤11(在一个图像序列中，一个图像拍摄镜头是展现单一背景的一个具体序列，无编辑效果，例如定义一个陕速切换的剪切、对应于一个滑行窗口效果的画面消除、让暗点拥入该帧的配合、表示由帧的线性组合从一个摄像机记录渐变到另一摄像机记录的淡入淡出等等)，把该检测的拍摄镜头分区的步骤12，以及一个拍摄镜头集群步骤13。
第一步骤11用于把输入图像序列拆分成构成用于该随后步骤的输入数据的拍摄镜头。此步骤必须允许检测在连续拍摄镜头之间的切换，此步骤借助于两个主要子步骤实现一个计算子步骤111，实现确定的一个平均移位帧间差(mDFD)曲线，以及一个分割子步骤112。
在子步骤111过程中计算的mDFD曲线的获得既考虑亮度又考虑色度信息。对于在时间t的一帧来说具有下面定义亮度Y＝{fK(i，j，t，)}K＝Y(1)色度分量(U，V)＝{fK(i，j，t)}K＝U，V(2)DFD由下式给出DFDK(i，j；t-1，t+1)＝fK(i，j，t+1)-fK(i-dx(i，j)，j-dy(i，j)，t-1) (3)并且该mDFD由下式给出mDFD(t)=1IXIYΣKY,U,VWkΣi,jIX,IY|DFDK(i,j;t-1,t+1)|---(4)]]>其中IX，IY是图像尺度，wk是Y、U、V成份的加权。所获得曲线的一个例子(而且是相应的已滤波的一个曲线)表示拍摄镜头s1到s10，在图2中以已经设置为{wY，wU，wV}＝{1，3，3}的加权示出。连续拍摄镜头之间的切换可以是从一帧到下一帧的突变或更复杂的情况，像淡入淡出、褪色以及消除曲线的最高峰值对应于突然过渡(帧21100、21195、21633、21724)，而另一方面从帧21260到帧21279的振荡对应于淡入淡出以及在帧21100-21195中的大移动前景目标的出现，以及帧21633-21724产生mDFD曲线的高级别振荡。
用于检测图像编辑效果和把mDFD曲线分段成拍摄镜头的子步骤112使用一个以分段为基础的阈值，提取mDFD曲线的最高峰值(即一维曲线的另一类型)。这样的一个技术在文献″MPEG-2压缩视频序列中的分级场景改变检测″中有描述(T.Shin等，1998IEEE关于电路以及系统的国际讨论会，ISCAS′98，卷4，1998，三月，pp.253-256)。
分区步骤12是一个时间分段，用于把每一检测的拍摄镜头拆分成称为微段的子实体。应用到每一检测拍摄镜头的此时间分段步骤包括两个子步骤一个超分段(oversegmentation)子步骤121，力图把每一拍摄镜头分成必须显示出完全均匀性的所谓的微段。以及一个合并子步骤122。
为了执行第一子步骤121，有必要首先定义所谓″距离″的含义(如此定义的距离将实现与微段的比较)，也是实现评价一个微段或一个分区(＝一组微段)的品质的一个参数。两种情况中都使用一个运动直方图，其中的每一个条块都示出具有具体运动类型的帧的百分比，并且由下面关系式(5)所定义Hs[i]=NiLs----(5)]]>其中S表示涉及在拍摄镜头内的微段的标记，i表示运动类型(这些运动是所谓的左跟踪、右跟踪、速降、速升、俯摄、仰摄、左摇摄全景、右摇摄全景、左卷摄、右卷摄、移前、移出、固定)，Ls表示所涉及的微段s的长度，而Ni表示具有运动类型i的微段s的帧的数量(由于不同运动能够同时出现，所以有可能Hs[i]＞1)。
当其表示沿着所有的帧的摄像机运动参数的单一组合时，一个微段被认为是完全均匀的，或当其表示有关这些参数的重大变化时则该微段被认为是不均匀的。该微段的均匀性是根据其直方图计算的(关系(5))如果一个微段是完全均匀的，则其直方图条块或等于0(认为根本没有运动出现)或等于1(在整个部分上出现运动)，而如果不是1或0，则该直方图条块可以表现中间值。随后通过测量其直方图与该理想直方图的差异程度(即计算直方图的条块不同于1或0的程度)获得该微段均匀性的测量。对应于具有高值的条块的距离是该条块值和1之间的差值；相似地，，对于具有小值的条块来说该距离是该条块值本身。一个直方图的例子在图3中示出，其中该坐标轴表明每一运动类型的比例(＝运动出现)因为运动不在该微段的所有帧中出现(左摇摄全景PL和移前ZI)，所以两个运动类型的引入某些误差，而且两个其他运动类型(速降BD和右卷RR)将因为相反的原因引入某些误差。
由关系式(6)数学地给出一个微段的均匀性H(s)=Σie(i)----(6)]]>其中e(i)＝1-Hs[i] 如果H，[i]＝0，5e(i)＝Hs[i]如果Hs[i]＜0，5Hs[i]＝该微段s的直方图i＝运动类型。
一个拍摄镜头S的均匀性则等于由它们每一个的长度加权的微段的均匀性，如方程式(7)示出H(S)=1L(S)Σj=1j=NLjH(sj)----(7)]]>其中L(S)=ΣlNLj]]>是该拍摄镜头S的总长度，N是所说拍摄镜头包括的微段的数量(注意，较小的H(S)值对应于高级别的均匀性。两个微段s1和s2之间的距离则是该微段连接的均匀性d(s1，s2)＝H(s1Us2) (8)现在可以重新开始时间分段。因此，初始的超分段子步骤121实现对该相关拍摄镜头的超分段，以便获得一组完全均匀的微段，对应于下面的关系(9)H(s)＝0，无论S中包括什么(9)如何获得最初超分段分区的例子在图4中显示(其中坐标表明帧号和对应的运动类型)，具有指定该微段的运动类型，左摇摄全景(PL)、移出(ZO)和固定(FLX)，s1至s7(针对某些帧的摄像机运动参数可以是未知的在该例子中，该拍摄镜头的最后帧-微段s7不具有任何相关的参数)。
合并子步骤122首先包括一个计算操作，其中使用方程式(8)计算(时间连接的)全部相邻微段之间的距离，用于选择最接近的微段对(用于在随后操作过程中的可能的合并)，以及一个结合判定操作，其中确定是否该微段选择对将被合并，假定该最小间距微段已经被合并，(根据该方程式(7))计算该拍摄镜头的均匀性。执行下面的结合判据合并，如果H(S)＝阈值T(H)不合并，如果H(S)＞阈值T(H)(此结合判据是全局判据该判定取决于产生分区的均匀性，而不是仅仅根据产生微段该的均匀性)。如果实现该合并，以第二子步骤该水平开始一个新迭代(执行一个第二计算操作等等…)。当不存在仍能被合并的相邻微段对时，合并过程结束。
该第三步骤13是一个拍摄镜头集群步骤用于把连续拍摄镜头组合并成更连贯的实体，该第三步骤13被分成两个子步骤一个拍摄镜头合并子步骤131，其中拍摄镜头对被分组在一起，用于创建一个二进制树，以及一个树形结构子步骤132，用于重建所说的二进制树，以便反映存在于该图像序列中的相似性。
该拍摄镜头合并子步骤131被用于产生表示该初始的拍摄镜头的合并次序的一个二进制树左边表示这些初始的拍摄镜头，顶节点表示整个顺序，中间节点表示通过该几个拍摄镜头的合并产生的序列。合并判据由拍摄镜头之间的距离定义，并且最接近的拍摄镜头被首先合并。为了计算拍摄镜头之间的距离，有必要定义一个拍摄镜头模型，提供将要被比较的特征，并且设置它们之间的邻近链路(表明能够做什么合并)。当全部该初始拍摄镜头已经合并成单一结点或当所有的链接结点的耦合之间最小间距是大于一种规定的阈值时，该处理结束。
该拍摄镜头模型必须明显地允许比较几个拍摄镜头的内容，以便确定何种拍摄镜头必须合并以及它们的合并顺序如何。在静止图象中，亮度和色度是该图像的主要特性，而在一个图像序列中，由于该时间的进展，运动是一个重要信息源。所以，平均图像、亮度和色度信息的直方图(YUV分量)以及运动信息将被用于模拟该拍摄镜头。
为了实施该拍摄镜头合并子步骤131，有必要执行下面五个操作(a)得到最小间距链接(操作1311)；(b)检验一个距离判据(操作1312)；(c)合并结点(操作1313)；(d)更新链接和距离(操作1314)；(e)检验该顶部结点(操作1315)。
在操作1311中，针对每一对链接结点计算最小和最大距离。首先检验最大距离如果其高于最大距离阈值d(max)，放弃该链接，否则考虑该链路。一旦已经扫描了所有的链接，则获得该最小间距。
在该操作1312中，为了确定是否必须合并该最小间距链接的节点，该最小间距被与一个最小间距阈值d(min)比较如果其高于所说的阈值，则不执行合并并且结束该处理否则指示的结点被合并并且继续该处理。
在该操作1313中，由最小间距链接的节点被合并。在操作1314中，所说链路被更新以便考虑已经完成的合并，并且一旦链接已经更新，则指向该新模式的那些链路的距离将被重算。在最终操作1315中，检验剩余结点的数量如果全部初始拍摄镜头已经合并成单一结点，该处理结束，否则开始一新迭代。
如果全部该初始拍摄镜头非常类似，则该拍摄镜头合并子步骤131可以产生单一树形；或如果初始拍摄镜头相当不同，则合并子步骤131可以产生一个树群。用于一个内容表格的创建的二进制树形的例子在图5中示出。在此树的树叶结点内，其标记以及在括号之间，已经指示一些拍摄镜头的开始和结束帧；在其余结点内，该标记示出结合次序(在括弧之间)和在两个同类物之间的最小和最大距离。
树形重建子步骤132被用于把子步骤131中获得的二进制树形重建成将更清楚地反映该图像结构的一个任意树形。为此目的，决定消除那些已经由合并过程产生但不传输任何相关信息的结点，所说的消除是根据在以该结点中包含的拍摄镜头之间的相似程度(距离)的变化为基础的一判据而进行-如果该分析结点是根节点(或该根节点之一，如果在合并过程之后已经获得各种二进制树)，随后该结点被保存，并且将出现在该最终树形中；-如果该分析结点被叶节点(即对应于一个初始的拍摄镜头)，则其也必须保留在该最终树形中；否则，如果如下状态(10)和(11)被满足，该结点将仅保持在该最终树形中|d(min)[分析结点]-d(min)[亲体节点]|＜T(H)(10)|d(max)[分析结点]-d(max)[亲体节点]|＜T(H)(11)如图6所示，从重建子步骤132产生的树形更清楚地表示该图像序列的结构在分层结构(28、12、13、21)的第二层中的结点表示该序列的四个场景，而第三(或偶而在第四)层中的结点表示初始拍摄镜头。
本发明不局限于上述实施方案，从该实施方案可以在不背离本本发明的范围的条件下推导出其修改或更宽广的应用。例如，本发明还涉及一种用于索引已经根据先前描述的方法处理过的数据的方法。这种方法在图7中示出，包括构造步骤71，执行把每一处理序列子分段成连续地拍摄镜头，以及把获得拍摄镜头的每一个拆分成子实体(即微段)，和一个集群步骤72，创建该最终分级结构。步骤71和72分别与步骤11-12和先前描述的步骤13类似，随后是一个附加索引步骤73，用于把一个标记的加到针对每一处理图像序列定义的该分级结构的每一单元。
本发明还涉及例如图8中示出的一个图像检索系统包括一个摄像机81，用于该视频序列的采集(能以顺序图像比特数据流的形式可得)，一个图像索引装置82，用于执行所说的数据索引方法(所说的装置通过分析捕获在所说序列中的内容信息的不同级别、等级的分段，并且根据从所说的分段产生的分类进行索引)，一个数据库83，存储从所说的分类得出的数据(这些数据有时称为元数据)，一个图形用户接口84，用于执行从该数据库请求的检索，以及一个视频监视器85，用于显示该检索信息(本发明还明显地涉及图像索引装置82，实现实施根据本发明的这种方法)。
权利要求
1.一种用于自动提取对应于连续帧的视频序列的结构的方法，包括下列步骤(1)一个拍摄镜头检测步骤，用于检测连续拍摄镜头之间的边界，一个拍摄镜头是一组无编辑效果的连续帧；(2)一个分段(partitioning)步骤，用于把每一拍摄镜头分解成称为小段(micro-segments)的子实体；(3)一个集群步骤，用于创建该已经处理的图像序列的一个最终分级结构。
2.根据权利要求1的方法，其中所说的拍摄镜头检测步骤使用根据平均移位帧间差曲线的计算以及所说曲线的最高峰值的检测的一个相似判据。
3.根据权利要求1和2任一个的方法，其中所说的子分段步骤使用一个判据，包括有关用于产生该处理的图像序列的摄像机的运动参数的均匀性的水平。
4.根据权利要求3的方法，其中，根据一个运动直方图计算一个微段的均匀性该直方图的每一条块表示具有一个具体运动类型的帧的百分比。
5.根据权利要求4的方法，其中，如果该直方图的条块不等于1或0，即表现指示一个微段不是完全均匀的中间值，则根据分微段连接的均匀性计算两个部分之间的距离，所说均匀性是从一个微段的直方图和不同运动类型的本身推断而来的，一个拍摄镜头的均匀性等于由其每一长度加权的微段的均匀性，根据相对于一个预定阈值T(H)的拍摄镜头的均匀性的值确定在任何微段对之间是否存在一个结合，并且假定选择的微段部分已经被合并，以及当不存在能够合并的进一步的相邻微段对时，这种可能的微段之间的合并过程结束。
6用于索引对应于连续帧的视频序列形式的可用数据的一种方法，包括下列分段步骤(1)一个构造步骤，用于把所说的序列细分成连续的拍摄镜头并且把所说拍摄镜头的每一个拆分成称为微段的子实体；(2)一个集群步骤，用于根据所说的分段创建该已经处理的图像序列的一个最终分级结构；(3)一个索引步骤，用于把一个标记添加到所说分级结构的每一单元。
7.一个图像索引装置，包括用于执行根据权利要求6的方法的装置。
8.一个图像检索设备，包括(1)用于执行根据权利要求6的方法的装置，用于以分级的方式定义对应于连续帧的一个视频序列的结构，把一个索引标记给到如此定义的该分级结构的每一单元并且存储所说的标记；(2)使用将要检索的所说图像的一个或几个特征，用于根据该存储的标记而执行任何图像检索的装置。
全文摘要
本发明涉及一种方法,利用对图像序列的分析,力图自动地创建所说的图像序列的一个描述,即内容表。所说方法的主要步骤是使用摄像机运动参数的序列图像拍摄镜头的时间分段。针对每一拍摄镜头的子实体,此分段使用一个相似判据,包括根据该摄像机的运动参数的这些子实体的均匀性的水平,该摄像机用于获取原始图像并且产生构成该处理序列的比特数据流。
文档编号H04N5/14GK1336071SQ00801244
公开日2002年2月13日申请日期2000年6月30日优先权日1999年7月6日
发明者J·拉克－平萨克, P·萨莱姆比尔申请人:皇家菲利浦电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.拉克-平萨克;P.萨莱姆比尔
技术所有人：皇家菲利浦电子有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。