一种面向非均匀退化视频中对象的结构化跟踪方法与流程

文档序号：12365454阅读：来源：国知局

技术特征：

1.一种面向非均匀退化视频中对象的结构化跟踪方法，其特征在于：包括如下步骤：

1)退化评价

给每一个超像素方向矢量来描述运动退化，单一超像素的方向评估是通过一个局部自相关函数而获得，并且该模糊度由Tenengrad函数计算得到的，然后，构建定向矢量来表示一个超像素的运动，以这种方式来生成图像的方向的地图，过程如下：

1.1)方向评价

通过局部自相关函数来计算位置(x,y)的值：

f(x,y)＝∑_{(xi，yi)∈P}[I(xi,yi)-I(xi+Δx,yi+Δy)]² (1)

其中I(x_i,y_i)为图像中3*3矩阵的中心位置的梯度值，Δx和Δy表示在x和y方向上的移位；

该公式近似的表示为：

$<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>&cong;</mo> <msub> <mi>Σ</mi> <mrow> <mo>(</mo> <mi>x</mi> <mi>i</mi> <mo>,</mo> <mi>y</mi> <mi>i</mi> <mo>)</mo> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <mo>[</mo> <mi>I</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>x</mi> <mi>i</mi> <mo>,</mo> <mi>y</mi> <mi>i</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>I</mi> <mi>y</mi> <mrow> <mo>(</mo> <mi>x</mi> <mi>i</mi> <mo>,</mo> <mi>y</mi> <mi>i</mi> <mo>]</mo> <msup> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>Δ</mi> <mi>x</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>Δ</mi> <mi>y</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mn>2</mn> </msup> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mo>[</mo> <mi>Δ</mi> <mi>x</mi> <mo>,</mo> <mi>Δ</mi> <mi>y</mi> <mo>]</mo> <mi>M</mi> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>Δ</mi> <mi>X</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>Δ</mi> <mi>Y</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>$

其中

$<mrow> <mi>M</mi> <mo>=</mo> <msub> <mi>Σ</mi> <mrow> <mo>(</mo> <mi>x</mi> <mi>i</mi> <mo>,</mo> <mi>y</mi> <mi>i</mi> <mo>)</mo> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>I</mi> <mi>x</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>I</mi> <mi>x</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>I</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>I</mi> <mi>x</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>I</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>I</mi> <mi>y</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

通过计算出的矩阵M，得到了矩阵M的两个特征值，较小的特征值表示像素的方向，将每个像素的这些值转化到指定的方向空间[0,180)，因此，每个值表示在一条线上的相反方向；

然后，将运动方向I_m归一化，通过同等地划分然后将在数量上最多的作为背景的方向，得到图像模糊方向；

1.2)模糊度评估

Tenengrad评价函数为

$<mrow> <msub> <mi>F</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>M</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <mo>[</mo> <msubsup> <mi>s</mi> <mi>x</mi> <mn>2</mn> </msubsup> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>+</mo> <msubsup> <mi>s</mi> <mi>y</mi> <mn>2</mn> </msubsup> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>]</mo> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>$

其中，s_x(i，j)和s_y(i，j)分别是图像f(i，j)与在水平方向和垂直方向与Sobel算子的卷积结果；M和N分别是图像的高和宽；

将图像通过Tenengrad评价得到的值除以所有结果中的最大值来表示图像退化程度，被看作是

$<mrow> <msub> <mi>F</mi> <mi>p</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>F</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>$

其中，F_ten是Tenengrad评价得到的值，max(F)是所有结果中的最大值；

通过这样的方式，Tenengrad评价得到的结果被归一化为区间(0,1]之间的值，退化程度估计的结果决定方向向量的长度；

2)构建结构模型，过程如下：

首先，将追踪窗口中的图像通过SLIC划分成一些小的部分，通过颜色信息来追踪目标；

给定一组超像素集{T_p}，收集候选目标部分{T_i}^p然后重建候选图像G(V,E)，通过建立一个配对的马尔科夫随机场来从背景中分离候选的前景部，同时使用目标颜色直方图和判别支持向量机分类器来计算单点势能，马尔科夫随机场能量被优化为：

$<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>Σ</mo> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <msub> <mi>D</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>Σ</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>&Element;</mo> <mi>N</mi> </mrow> </munder> <msub> <mi>V</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>$

其中B＝{bp|bp∈{0,1},p∈S}是超像素集{T_p}的标签，bp是Tp的指示器，当Tp属于前景时bp＝1，其他情况bp＝0，Dp(bp)是一个与超像素Tp结合的单点势能，Vp，q(bp，bq)一对结合超像素Tp和Tq的潜能，S是在跟踪窗口中的超像素集，N是共享边界的超像素集对；

单点势能：

$<mrow> <msub> <mi>D</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>αD</mi> <mi>p</mi> <mi>g</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>D</mi> <mi>p</mi> <mi>d</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

Dp(bp)是一个可生成的颜色直方图潜能和一个判别支持向量机分类器潜能的加权组合，α＝0.1，是一个用于平衡两个潜能影响的常量，生成的潜能形式为：

其中，H_f和H_b分别是目标和背景的归一化的RGB颜色直方图，Ci是像素I的RGB值，N_p在超像素T_p中的像素数量，P(C_i|H)是在直方图H中的C_i的概率，判别潜能是一个在线支持向量机分类器的分类评分，这个分类器是通过从目标和背景超像素中提取的RGB颜色特征训练得到的；

$<mrow> <msubsup> <mi>D</mi> <mi>p</mi> <mi>d</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>λ</mi> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>-</mo> <mi>λ</mi> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo><</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>-</mo> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo><</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>b</mi> <mi>p</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>$

其中，y(f_p)＝w·Φ(f_p)+b是一种支持向量机判断，f_p是T_p的颜色信息，当把T_p分类为前景时，λ是一个用于增强支持向量机分类器比重的常量，Vp，q(bp,bq)用于捕获两个相邻超像素的不连续性；

平滑项：

V_p,q(b_p,b_q)＝exp(-D(f_p,f_q)}-βδ(d_p,d_q), (11)

$<mrow> <mi>δ</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mover> <msub> <mi>d</mi> <mi>p</mi> </msub> <mo>&RightArrow;</mo> </mover> <mo>-</mo> <mover> <msub> <mi>d</mi> <mi>q</mi> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>$

其中，D(f_p,f_q)是颜色特征间的X²距离，d_p是退化特征向量，δ(d_p,d_q)是退化特征距离，β是一个用于平衡退化向量距离影响的常量。

完整全部详细技术资料下载

当前第2页1 2 3