基于流形排序的视频摘要方法与流程

文档序号：12666846阅读：来源：国知局

技术特征：

1.一种基于流形排序的视频摘要方法，其特征是，首先提取视频帧的视觉特征，并把视频帧看作空间中的点，然后利用流形排序算法对数据点进行排序；流形排序描述为以下过程：首先根据数据构造一个带权重的网络，将一个正的排序分数分配给与查询相关的点，将零排序分数分配给剩下的待排序的点；然后，所有的点通过权重网络将他们的分数传递给与他们邻近的点，重复这一传播过程直到整个网络达到稳定状态，此时所有的点均获得他们最后的排序分数。

2.如权利要求1所述的基于流形排序的视频摘要方法，其特征是，流形排序的具体过程如下：

给定数据点集X＝{x₁,x₂,...,x_n},x_i∈R^m，假定x₁作为查询帧，则其余的帧为待排序的帧，f:X→R表示排序函数，它分配每一个点x_i相应的排序值，1≤i≤n，f＝[f₁,f₂,...f_n]^T，此外，定义每一个数据点的初始排序分数y＝[y₁,y₂,...,y_n]^T，若第j帧为查询帧则y_j＝1，否则y_j＝0，1≤j≤n，流形排序的代价函数如下：

$<mrow> <mi>J</mi> <mo>=</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> <mrow> <mo>(</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mo>|</mo> <mfrac> <mn>1</mn> <msqrt> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> </msqrt> </mfrac> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <msqrt> <msub> <mi>D</mi> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> </msqrt> </mfrac> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>μ</mi> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>|</mo> <mo>|</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

式中，第一项是邻近点变化成本，是平滑性条件，第二项是初始分数分配变化成本，两者之间用参数μ来平衡之间的关系，其中，W_ij＝exp(-||x_i-x_j||²/(2σ²)),i≠j；W_ij＝0,i＝j,D是对角矩阵，且D中的元素通过排序算法得到近似解为：f*＝β(1-αS)^-1y,其中

其次计算视频帧的重要性，首先根据每一帧与其余各帧之间的相似性权重W_ij，计算其与视频的平均相似向量I,并将其归一化，具体计算过程如下：

$<mrow> <mi>I</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>/</mo> <mi>n</mi> <mrow> <mo>(</mo> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

最后，计算视频的覆盖率，具体计算公式如下：

$<mrow> <mi>C</mi> <mi>o</mi> <mi>v</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>,</mo> <mi>V</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>min</mi> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>V</mi> <mo>,</mo> <mi>g</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </msub> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>g</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

其中，Cov(S,V)表示摘要集S与原视频集V的相似性，d(x_i,g)表示两者之间的欧式距离。

完整全部详细技术资料下载

当前第2页1 2 3