一种对于三维视频的视觉注意力检测方法与流程

文档序号：11865952阅读：324来源：国知局

本发明设计了一种检测三维视频显著性的视觉注意力检测方法。属于多媒体技术领域，具体属于数字图像和数字视频处理技术领域。

背景技术：

在视觉感知中视觉注意力是很重要的机理，它能够迅速的在自然图像中检测出显著信息。当我们观察自然图像时，选择性注意力会让我们专注于一些具体的显著信息，并且因为极限处理资源而忽略其他并不重要的信息。基本上视觉注意力方法可分为两种：自底向上和自顶向下。自底向上处理是数据驱动和任务独立下的自动显著区域检测，而自顶向下方法是涉及某些具体任务的认知过程。

通常来说，从视觉注意力模型中提取的显著区域可以广泛的应用于二维多媒体中，例如视觉质量评价，编码，分割等。目前存在着许多对于二维图片/视频的视觉注意力计算模型。Itti等做出了早期的图片视觉注意力模型，通过亮度、颜色和方向的特征对比度。后来Le Meur等人提出了基于人眼视觉体统特征的显著性检测模型，包括对比敏感度函数，视觉掩蔽和中央交互。

在过去几年，出现了一大批关于三维多媒体技术的应用，包括三维视觉质量评价，三维视频编码，三维内容生成等。对于三维多媒体应用，三维视觉感知的模型整合可以用来改进三维多媒体处理的算法。立体视觉注意力，一个重要的视觉感知过程，在各种立体多媒体应用中的立体视觉内容中提取显著区域。

近年来，Chamaret等人在三维渲染方面提出了一个显著性检测算法。在他的研究中，差异图被用来给二维显著性图赋权值从而计算最终的三维图片的显著图。Lang等人提出了一个对于立体图片的人眼追踪数据库，以及研究了深度信息对于立体视觉注意模型的影响。Wang等人通过深度显著性和二维显著性的结合设计了一个立体视觉注意力检测模型。一个人眼追踪数据库也被建立来证明立体视觉注意力检测模型的效果性能。

上述介绍到的大多数立体视觉注意力模型目前都只是针对立体图像，但视觉注意力模型在三维立体视频的研究上任然存在着局限性。所以需要在此领域提出新的方法，来检测三维视频的显著性。

技术实现要素：

为了克服目前对于三维立体视频的视觉注意力模型研究的局限性，我们就三维立体视频的视觉注意力模型提出了一种新的方法。低层级特征包含颜色，亮度，纹理和深度，都被提取来计算空间显著性预测的特征对比度。另外，平面运动和深度运动都用来计算运动显著性。最终三维立体视频的显著性图由时间显著性图和空间显著性图结合而成。

本发明各个部分的具体操作如下：

一种对于三维视频的视觉注意力检测方法，其特征在于包括以下步骤：

步骤1：提取三维视频帧中低层级视觉特征来计算特征对比度，利用欧几里得距离的高斯模型求得三维视频帧的空间显著性图；

步骤2：采用运动信息来获取时间显著性，对于三维视频中的运动信息，用平面运动和深度运动共同计算时间显著性图。

步骤3：基于格式塔心理学原理的相近性法则，得出对空间显著性图加权值。

步骤4：基于格式塔心理学原理的共同命运法则，得出对时间显著性图加权值。

步骤5：根据时间显著性加权值和空间显著性加权值，融合得到三维视频的图像显著区域。

而且，步骤1所述的三维视频帧中的低层级特征计算方法如下：将视频帧分为8*8的图像块，令r，g，b代表图像的红色、绿色和蓝色通道，定义图像块新的特征，新的红色特征R＝r-(g+b)，新的绿色特征G＝g-(r+b)/2，新的蓝色特征B＝b-(r+g)/2，新的黄色特征根据以上定义，我们可以计算图像块的如下特征：

(1)亮度分量I：

I＝(r+g+b)/3 (1)

(2)第一个颜色分量C_b：

C_b＝B-Y (2)

(3)第一个颜色分量C_r：

C_r＝R-G (3)

(4)根据公式(1)-(3)计算得到三个图像块特征分量，然后分别计算其 DCT(Discrete Cosine Transform，离散余弦变换)系数。利用图像块三个特征的DC系数(直流系数)，来分别表示图像块的三个特征，假设由亮度分量(公式(1))通过DCT计算得到的DC_I，第一个颜色分量(公式(2))通过DCT计算得到的DC系数为DC_b，第二个颜色分量(公式(3))通过DCT计算得到的DC系数为DC_r。因此，图像的亮度特征：

D₁＝DC_I (4)

两个颜色特征分别为：

D₂＝DC_b (5)

D₃＝DC_r (6)

由于颜色分量主要包括图像的色彩信息，因此，我们用亮度分量通过DCT得到的AC系数(交流系数)来表示图像块的纹理特征，对于一个8*8的图像块，一共有63个AC系数。因此图像块的纹理特征D₄可以表示如下：

D₄＝{t₁,t₂,…,t₆₃} (7)

(5)三维视频帧的深度信息F可以根据以下公式计算：

$<mrow> <mi>F</mi> <mo>=</mo> <mi>v</mi> <mo>/</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mrow> <mi>E</mi> <mo>*</mo> <mi>h</mi> </mrow> <mrow> <mi>P</mi> <mo>*</mo> <mi>ω</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

式中v代表视觉观察距离，v＝75cm，E为双眼间的距离，E＝4.5cm，ω和h是播放屏幕的宽度和水平分辨率，分别为30cm和80像素/英寸，P为三维视频帧左视图和右视图像素间的视差大小。由公式(8)，我们可以计算图像块的深度信息D₅，通过DCT计算得到深度信息的DC系数DC_F，我们把图像块深度信息的DC系数表示为图像块的深度特征D₅＝DC_F。

而且，步骤1所述利用低层级特征对比度以及欧几里得距离的高斯模型来计算空间显著性图的具体方法包括以下步骤：

(1)针对所有特征D₁，D₂，D₃，D₄，D₅，计算块之间的特征对比度W：

图像块i和j之间的亮度特征对比度为：

$<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>1</mn> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>D</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>D</mi> <msub> <mn>1</mn> <mi>j</mi> </msub> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <msub> <mi>D</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> </msub> <mo>+</mo> <msub> <mi>D</mi> <msub> <mn>1</mn> <mi>j</mi> </msub> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>$

图像块i和j之间的颜色C_b特征对比度为：

$<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>D</mi> <msub> <mn>2</mn> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>D</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <msub> <mi>D</mi> <msub> <mn>2</mn> <mi>i</mi> </msub> </msub> <mo>+</mo> <msub> <mi>D</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>$

图像块i和j之间的颜色C_r特征对比度为：

$<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>3</mn> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>D</mi> <msub> <mn>3</mn> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>D</mi> <msub> <mn>3</mn> <mi>j</mi> </msub> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <msub> <mi>D</mi> <msub> <mn>3</mn> <mi>i</mi> </msub> </msub> <mo>+</mo> <msub> <mi>D</mi> <msub> <mn>3</mn> <mi>j</mi> </msub> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>$

图像块i和j之间的深度特征对比度为：

$<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>5</mn> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>D</mi> <msub> <mn>5</mn> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>D</mi> <msub> <mn>5</mn> <mi>j</mi> </msub> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <msub> <mi>D</mi> <msub> <mn>5</mn> <mi>i</mi> </msub> </msub> <mo>+</mo> <msub> <mi>D</mi> <msub> <mn>5</mn> <mi>j</mi> </msub> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>$

其中，i和j代表第i个图像块和第j个图像块，分母为归一化操作，由公式(9)-(12)可以求得图像不同特征的特征对比度W¹，W²，W³，W⁵。

图像块i和j之间的纹理特征T对比度为：

$<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>4</mn> </msubsup> <mo>=</mo> <mfrac> <msqrt> <mrow> <msub> <mo>Σ</mo> <mi>t</mi> </msub> <msup> <mrow> <mo>(</mo> <msubsup> <mi>D</mi> <mrow> <mn>4</mn> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> <mo>-</mo> <msubsup> <mi>D</mi> <mrow> <mn>4</mn> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mrow> <msub> <mo>Σ</mo> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msubsup> <mi>D</mi> <mrow> <mn>4</mn> <mi>i</mi> </mrow> <mi>t</mi> </msubsup> <mo>+</mo> <msubsup> <mi>D</mi> <mrow> <mn>4</mn> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>$

由公式(13)可以求得图像的纹理特征对比度W⁴，和是由公式(7)得到的纹理特征，t∈{1,2,…,63}，i和j代表第i个图像块和第j个图像块，分母为归一化操作。

(2)利用欧几里得距离的高斯模型加权特征对比度，求得各个特征图第i块的显著性值。

亮度特征显著性图：

$<mrow> <msubsup> <mi>S</mi> <mi>i</mi> <mn>1</mn> </msubsup> <mo>=</mo> <msub> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </msub> <mfrac> <mn>1</mn> <mrow> <mi>σ</mi> <msqrt> <mrow> <mn>2</mn> <mi>π</mi> </mrow> </msqrt> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>/</mo> <mrow> <mo>(</mo> <mn>2</mn> <msup> <mi>σ</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow> </msup> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>1</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>$

Cb特征显著性图：

$<mrow> <msubsup> <mi>S</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>=</mo> <msub> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </msub> <mfrac> <mn>1</mn> <mrow> <mi>σ</mi> <msqrt> <mrow> <mn>2</mn> <mi>π</mi> </mrow> </msqrt> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>/</mo> <mrow> <mo>(</mo> <mn>2</mn> <msup> <mi>σ</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow> </msup> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>$

Cr特征显著性图：

$<mrow> <msubsup> <mi>S</mi> <mi>i</mi> <mn>3</mn> </msubsup> <mo>=</mo> <msub> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </msub> <mfrac> <mn>1</mn> <mrow> <mi>σ</mi> <msqrt> <mrow> <mn>2</mn> <mi>π</mi> </mrow> </msqrt> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>/</mo> <mrow> <mo>(</mo> <mn>2</mn> <msup> <mi>σ</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow> </msup> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>3</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>16</mn> <mo>)</mo> </mrow> </mrow>$

纹理特征显著性图：

$<mrow> <msubsup> <mi>S</mi> <mi>i</mi> <mn>4</mn> </msubsup> <mo>=</mo> <msub> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </msub> <mfrac> <mn>1</mn> <mrow> <mi>σ</mi> <msqrt> <mrow> <mn>2</mn> <mi>π</mi> </mrow> </msqrt> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>/</mo> <mrow> <mo>(</mo> <mn>2</mn> <msup> <mi>σ</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow> </msup> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>4</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>17</mn> <mo>)</mo> </mrow> </mrow>$

深度特征显著性图：

$<mrow> <msubsup> <mi>S</mi> <mi>i</mi> <mn>5</mn> </msubsup> <mo>=</mo> <msub> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </msub> <mfrac> <mn>1</mn> <mrow> <mi>σ</mi> <msqrt> <mrow> <mn>2</mn> <mi>π</mi> </mrow> </msqrt> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>/</mo> <mrow> <mo>(</mo> <mn>2</mn> <msup> <mi>σ</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow> </msup> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>5</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>18</mn> <mo>)</mo> </mrow> </mrow>$

以上式中d_ij表示块i和块j之间的欧几里得距离，σ是高斯模型的参数，它用来决定局部和全局对比度的程度，σ＝5。

(3)由公式(14)-(18)计算得到5个特征的显著图S¹，S²，S³，S⁴，S⁵，将5 个特征的显著图融合成空间显著性图：

$<mrow> <msup> <mi>S</mi> <mi>s</mi> </msup> <mo>=</mo> <mfrac> <mn>1</mn> <mn>5</mn> </mfrac> <mrow> <mo>(</mo> <msup> <mi>S</mi> <mn>1</mn> </msup> <mo>+</mo> <msup> <mi>S</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>S</mi> <mn>3</mn> </msup> <mo>+</mo> <msup> <mi>S</mi> <mn>4</mn> </msup> <mo>+</mo> <msup> <mi>S</mi> <mn>5</mn> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>19</mn> <mo>)</mo> </mrow> </mrow>$

而且，步骤2所述提取三维视频帧中的运动信息，包含平面运动和深度运动，求出时间显著性图的具体方法包含以下步骤：

(1)通过光流法的出平面x方向和y方向的运动特征，M_x和M_y，那么平面方向的运动特征M_p可表示如下：

$<mrow> <msub> <mi>M</mi> <mi>p</mi> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <msub> <mi>M</mi> <mi>x</mi> </msub> <mn>2</mn> </msup> <mo>+</mo> <msup> <msub> <mi>M</mi> <mi>y</mi> </msub> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>20</mn> <mo>)</mo> </mrow> </mrow>$

(2)计算深度方向上的运动特征M_d：

M_d(m_t,n_t,t)＝F(i_t+M_x(m_t,n_t,t),j_t+M_y(m_t,n_t,t),t+1)-F(m_t,n_t,t)

(21)

式中F为公式(8)中的深度信息图，m和n表示图片中像素点的坐标，t表示三维视频中的第t帧。

(3)针对时域特征M_d和M_p，计算块之间的特征对比度Q：

深度方向运动特征对比度：

$<mrow> <msubsup> <mi>Q</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>d</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>M</mi> <msub> <mi>d</mi> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>M</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mrow> <mo>|</mo> <msub> <mi>M</mi> <msub> <mi>d</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> </mrow> <mo>+</mo> <mrow> <mo>|</mo> <msub> <mi>M</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msub> <mo>|</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>22</mn> <mo>)</mo> </mrow> </mrow>$

平面方向运动特征对比度：

$<mrow> <msubsup> <mi>Q</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>p</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>M</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </msub> <mo>-</mo> <msub> <mi>M</mi> <msub> <mi>p</mi> <mi>j</mi> </msub> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mrow> <mo>|</mo> <msub> <mi>M</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> </mrow> <mo>+</mo> <mrow> <mo>|</mo> <msub> <mi>M</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>23</mn> <mo>)</mo> </mrow> </mrow>$

i和j代表第i个图像块和第j个图像块，分母为归一化操作。

(4)利用欧几里得距离的高斯模型加权运动特征对比度，求得运动特征图q中第i块的显著性值：

深度方向运动特征的显著性图：

$<mrow> <msubsup> <mi>v</mi> <mi>i</mi> <mi>d</mi> </msubsup> <mo>=</mo> <msub> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </msub> <mfrac> <mn>1</mn> <mrow> <mi>σ</mi> <msqrt> <mrow> <mn>2</mn> <mi>π</mi> </mrow> </msqrt> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>/</mo> <mrow> <mo>(</mo> <mn>2</mn> <msup> <mi>σ</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow> </msup> <msubsup> <mi>Q</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>d</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>24</mn> <mo>)</mo> </mrow> </mrow>$

平面方向运动特征的显著性图：

$<mrow> <msubsup> <mi>v</mi> <mi>i</mi> <mi>p</mi> </msubsup> <mo>=</mo> <msub> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </msub> <mfrac> <mn>1</mn> <mrow> <mi>σ</mi> <msqrt> <mrow> <mn>2</mn> <mi>π</mi> </mrow> </msqrt> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>/</mo> <mrow> <mo>(</mo> <mn>2</mn> <msup> <mi>σ</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow> </msup> <msubsup> <mi>Q</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>p</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>25</mn> <mo>)</mo> </mrow> </mrow>$

表示块i和j之间深度方向的运动特征对比度，表示块i和j之间的平面上的运动特征对比度，d_ij表示块i和块j之间的欧几里得距离，σ是高斯模型的参数，它用来决定局部和全局对比度的程度，σ＝5。

(5)将时间域下的2个特征图的显著性值融合成时间显著性图：

$<mrow> <msup> <mi>S</mi> <mi>t</mi> </msup> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <msup> <mi>v</mi> <mi>d</mi> </msup> <mo>+</mo> <msup> <mi>v</mi> <mi>p</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>26</mn> <mo>)</mo> </mrow> </mrow>$

而且，步骤3所述基于格式塔心理学原理的相近性法则和连续性法则，得出对空间显著性图加权值的具体方法包含以下步骤：

(1)根据标准图确立显著性图的中心点坐标：

$<mrow> <msub> <mi>x</mi> <mi>c</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <msub> <mo>Σ</mo> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> <mo>&Element;</mo> <msub> <mi>R</mi> <mi>S</mi> </msub> </mrow> </msub> <msub> <mi>mS</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>27</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <msub> <mo>Σ</mo> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> <mo>&Element;</mo> <msub> <mi>R</mi> <mi>S</mi> </msub> </mrow> </msub> <msub> <mi>nS</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>28</mn> <mo>)</mo> </mrow> </mrow>$

式中R_s为标准显著性图中所有的像素点，M为它们的总个数，S_m,n为像素点(m,n)的显著性值。

(2)经实验拟合出离中心点距离和成为显著性点可能性大小的函数关系：

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>0.9646</mn> <mo>×</mo> <msup> <mi>e</mi> <msup> <mrow> <mo>(</mo> <mo>-</mo> <mo>(</mo> <mfrac> <mi>h</mi> <mn>9330</mn> </mfrac> <mo>)</mo> <mo>)</mo> </mrow> <mn>2.8844</mn> </msup> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>29</mn> <mo>)</mo> </mrow> </mrow>$

p(s|h)表示当前像素点为显著性点可能性的大小，h表示视频帧中各像素点离中心点的距离，s表示当前像素点为显著性点。

(3)计算空域下可能性熵值的大小：

U^(s)＝H_b(p(s|h)) (30)

其中H_b(p)为二值熵函数，计算如下：-plog₂p-(1-p)log₂(1-p)

而且，步骤4所述基于格式塔心理学原理的共同命运法则，得出对时间显著性图加权值的具体方法包含以下步骤：

(1)根据运动特征M_x和M_y，M_x和M_y分别为平面x方向和y方向的运动大小，那么平面运动的方向可计算为：

$<mrow> <msub> <mi>θ</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </msub> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mfrac> <mrow> <msub> <mi>My</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </msub> </mrow> <mrow> <msub> <mi>Mx</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>31</mn> <mo>)</mo> </mrow> </mrow>$

式中(m,n)为运动特征图像素点的坐标，M_y和M_x通过光流法计算得出。

(2)求出运动方向差异值：

$<mrow> <msup> <mi>θ</mi> <mo>′</mo> </msup> <mo>=</mo> <msub> <mi>θ</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msub> <mi>θ</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>c</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>32</mn> <mo>)</mo> </mrow> </mrow>$

θ′为运动方向与中心点坐标下的运动方向的差异，θ由公式(31)得出，(m,n)为每个像素点的坐标，(x_c,y_c)由公式(27)(28)得到，为显著中心点的坐标。

(3)经实验拟合出像素点方向差异和成为显著性点可能性大小的函数关系：

$<mrow> <msup> <mi>U</mi> <mi>θ</mi> </msup> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>-</mo> <msup> <mi>θ</mi> <mo>′</mo> </msup> </mrow> <mn>14.58</mn> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>33</mn> <mo>)</mo> </mrow> </mrow>$

式中θ′为每个像素点与中心点的方向差异，由公式(32)得出。

(4)根据运动特征M_x，M_y和M_d，求出平面方向x，y和深度方向与中心点差异C：

平面方向的大小差异：

$<mrow> <msup> <mi>C</mi> <mi>p</mi> </msup> <mo>=</mo> <msub> <mi>M</mi> <msub> <mi>p</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </msub> </msub> <mo>-</mo> <msub> <mi>M</mi> <msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>c</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </msub> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>34</mn> <mo>)</mo> </mrow> </mrow>$

式中M_p为公式(20)得出，(m,n)为像素点坐标，(x_c,y_c)为显著中心点坐标

深度方向的大小差异：

$<mrow> <msup> <mi>C</mi> <mi>d</mi> </msup> <mo>=</mo> <msub> <mi>M</mi> <msub> <mi>d</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </msub> </msub> <mo>-</mo> <msub> <mi>M</mi> <msub> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>c</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </msub> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>35</mn> <mo>)</mo> </mrow> </mrow>$

式中M_d为公式(21)得出，(m,n)为像素点坐标，(x_c,y_c)为显著中心点坐标。

(5)经实验拟合出像素点运动大小差异和成为显著性点可能性大小的函数关系：

$<mrow> <msup> <mi>U</mi> <mi>r</mi> </msup> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>-</mo> <msup> <mi>C</mi> <mi>r</mi> </msup> </mrow> <mn>23.64</mn> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>36</mn> <mo>)</mo> </mrow> </mrow>$

r∈{p,d}，C由公式(34)(35)得出。

(6)计算时域下可能性熵值的大小：

$<mrow> <msup> <mi>U</mi> <mi>t</mi> </msup> <mo>=</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mrow> <mo>(</mo> <msup> <mi>U</mi> <mi>θ</mi> </msup> <mo>+</mo> <msup> <mi>U</mi> <mi>p</mi> </msup> <mo>+</mo> <msup> <mi>U</mi> <mi>d</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>37</mn> <mo>)</mo> </mrow> </mrow>$

式中U^t为时域下的权值，U^θ为公式(33)所得，U^p和U^d为公式(36)所得。

而且，其特征在于：步骤5所述根据时间显著性加权值和空间显著性加权值，融合得到三维视频的图像显著区域的具体方法为：

$<mrow> <mi>S</mi> <mo>=</mo> <mfrac> <mrow> <msup> <mi>U</mi> <mi>s</mi> </msup> <msup> <mi>S</mi> <mi>s</mi> </msup> <mo>+</mo> <msup> <mi>U</mi> <mi>t</mi> </msup> <msup> <mi>S</mi> <mi>t</mi> </msup> </mrow> <mrow> <msup> <mi>U</mi> <mi>s</mi> </msup> <mo>+</mo> <msup> <mi>U</mi> <mi>t</mi> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>38</mn> <mo>)</mo> </mrow> </mrow>$

U^s为空域下的权值，U^t为时域下的权值，S^s为空间显著性图，S^t为时域显著性图。

本发明的优点和技术效果：

本发明算法合理高效，提出了一种新颖的方法结合三维视频下的时间显著性图和空间显著性图。在空间显著性检测中，提取低层级特征结合欧几里得距离的高斯模型求得空间显著性图；在时间显著性检测中，利用光流法检测出平面运动信息和深度运动信息，在结合欧几里得距离的高斯模型得出时间显著性图。最后利用格式塔心理学中的相近性原则和共同命运原则，求得运动方向，大小差异，分别得出空域和时域下的权值，且融合得出最终的三维视频显著性区域。本发明鲁棒性高，评价指标皆高于目前最好的算法，可扩展性强。

附图说明

图1为本发明流程图。

图2为对于不同显著性检测算法的比较。第一列至最后一列分别为：三维视频帧的原始图像，Itti-二维显著性图像，Fang-三维显著性图像，本发明的实验图像，参考图像。从这些比较中，我们可以发现Itti-二维的显著性检测模型只能检测到图片的轮廓信息。Fang-三维的显著性检测模型丢失了一下显著性区域，我们提出的显著性检测方法和现存的参考图像最相近。

图3为其他显著性检测方法与本文方法的比较，我们通过了三个指标来进行评价：AUC(Area Under Curve)曲线下面积，目前最为流行的评价方法；CC(correlation coefficient)线性相关系数，可比较算法得出的显著性图与标准图之间的相关性；NSS(Normalized scanpath saliency)。这三者的值都介于0到1之间，且值越大证明提出的方法效果越好。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的详细描述。

本发明的过程如图1所示，具体过程如下。

步骤1：提取三维视频帧中低层级视觉特征来计算特征对比度，利用欧几里得距离的高斯模型求得三维视频帧的空间显著性图；

首先将视频帧分为8*8的图像块，令r，g，b代表图像的红色、绿色和蓝色通道，定义图像块新的特征，新的红色特征R＝r-(g+b)，新的绿色特征 G＝g-(r+b)/2，新的蓝色特征B＝b-(r+g)/2，新的黄色特征根据以上定义，我们可以计算图像块的如下特征：

(1)亮度分量I：

I＝(r+g+b)/3 (1)

(2)第一个颜色分量C_b：

C_b＝B-Y (2)

(3)第一个颜色分量C_r：

C_r＝R-G (3)

(4)根据公式(1)-(3)计算得到三个图像块特征分量，然后分别计算其DCT(Discrete Cosine Transform，离散余弦变换)系数。利用图像块三个特征的DC系数(直流系数)，来分别表示图像块的三个特征，假设由亮度分量(公式(1))通过DCT计算得到的DC_I，第一个颜色分量(公式(2))通过DCT计算得到的DC系数为DC_b，第二个颜色分量(公式(3))通过DCT计算得到的DC系数为DC_r。因此，图像的亮度特征：

D₁＝DC_I (4)

两个颜色特征分别为：

D₂＝DC_b (5)

D₃＝DC_r (6)

D₄＝{t₁,t₂,…,t₆₃} (7)

(5)三维视频帧的深度信息F可以根据以下公式计算：

式中v代表视觉观察距离，v＝75cm，E为双眼间的距离，E＝4.5cm，ω和h是播放屏幕的宽度和水平分辨率，分别为30cm和80像素/英寸，P为三维视频帧左视图和右视图像素间的视差大小。由公式(8)，我们可以计算图像块的深度信息D₅，通过DCT计算得到深度信息的DC系数DC_F，我们把图像块深度信息的DC 系数表示为图像块的深度特征D₅＝DC_F。

然后针对所有特征D₁，D₂，D₃，D₄，D₅，计算块之间的特征对比度W：

图像块i和j之间的亮度特征对比度为：

图像块i和j之间的颜色C_b特征对比度为：

图像块i和j之间的颜色C_r特征对比度为：

图像块i和j之间的深度特征对比度为：

其中，i和j代表第i个图像块和第j个图像块，分母为归一化操作，由公式(9)-(12)可以求得图像不同特征的特征对比度W¹，W²，W³，W⁵。

图像块i和j之间的纹理特征T对比度为：

由公式(13)可以求得图像的纹理特征对比度W⁴，和是由公式(7)得到的纹理特征，t∈{1,2,…,63}，i和j代表第i个图像块和第j个图像块，分母为归一化操作。

再利用欧几里得距离的高斯模型加权特征对比度，求得各个特征图第i块的显著性值。

亮度特征显著性图：

Cb特征显著性图：

Cr特征显著性图：

纹理特征显著性图：

深度特征显著性图：

以上式中d_ij表示块i和块j之间的欧几里得距离，σ是高斯模型的参数，它用来决定局部和全局对比度的程度，σ＝5。

最后，由公式(14)-(18)计算得到5个特征的显著图S¹，S²，S³，S⁴，S⁵，将5个特征的显著图融合成空间显著性图：

步骤2：采用运动信息来获取时间显著性，对于三维视频中的运动信息，用水平运动和深度运动共同计算时间显著性图。

在本步骤中，计算运动信息的过程如下：

(1)通过光流法的出平面x方向和y方向的运动特征，M_x和M_y，那么平面方向的运动特征M_p可表示如下：

(2)计算深度方向上的运动特征M_d：

M_d(m_t,n_t,t)＝F(i_t+M_x(m_t,n_t,t),j_t+M_y(m_t,n_t,t),t+1)-F(m_t,n_t,t)

(21)

式中F为公式(8)中的深度信息图，m和n表示图片中像素点的坐标，t表示三维视频中的第t帧。

然后针对时域特征M_d和M_p，计算块之间的特征对比度Q：

深度方向运动特征对比度：

平面方向运动特征对比度：

i和j代表第i个图像块和第j个图像块，分母为归一化操作。

再利用欧几里得距离的高斯模型加权运动特征对比度，求得运动特征图q中第i块的显著性值：

深度方向运动特征的显著性图：

平面方向运动特征的显著性图：

最后将时间域下的2个特征图的显著性值融合成时间显著性图：

步骤3：基于格式塔心理学原理的相近性法则，得出对空间显著性图加权值。

首先根据标准图确立显著性图的中心点坐标：

式中R_s为标准显著性图中所有的像素点，M为它们的总个数，S_m,n为像素点(m,n)的显著性值。

经实验拟合出离中心点距离和成为显著性点可能性大小的函数关系：

p(s|h)表示当前像素点为显著性点可能性的大小，h表示视频帧中各像素点离中心点的距离，s表示当前像素点为显著性点。

然后计算空域下可能性熵值的大小：

U^(s)＝H_b(p(s|h)) (30)

其中H_b(p)为二值熵函数，计算如下：-plog₂p-(1-p)log₂(1-p)

步骤4：基于格式塔心理学原理的共同命运法则，得出对时间显著性图加权值。

首先根据运动特征M_x和M_y，M_x和M_y分别为平面x方向和y方向的运动大小，那么平面运动的方向可计算为：

式中(m,n)为运动特征图像素点的坐标，M_y和M_x通过光流法计算得出。

求出运动方向差异值：

θ^′为运动方向与中心点坐标下的运动方向的差异，θ由公式(31)得出，(m,n)为每个像素点的坐标，(x_c,y_c)由公式(27)(28)得到，为显著中心点的坐标。

并且经实验拟合出像素点方向差异和成为显著性点可能性大小的函数关系：

式中θ′为每个像素点与中心点的方向差异，由公式(32)得出。

然后根据运动特征M_x，M_y和M_d，求出平面方向x，y和深度方向与中心点差异C：

平面方向的大小差异：

式中M_p为公式(20)得出，(m,n)为像素点坐标，(x_c,y_c)为显著中心点坐标

深度方向的大小差异：

式中M_d为公式(21)得出，(m,n)为像素点坐标，(x_c,y_c)为显著中心点坐标。

且经实验拟合出像素点运动大小差异和成为显著性点可能性大小的函数关系：

r∈{p,d}，C由公式(34)(35)得出。

最后计算时域下可能性熵值的大小：

式中U^t为时域下的权值，U^θ为公式(33)所得，U^p和U^d为公式(36)所得。

步骤5：根据时间显著性加权值和空间显著性加权值，融合得到三维视频的图像显著区域，具体方法为：

U^s为空域下的权值，U^t为时域下的权值，S^s为空间显著性图，S^t为时域显著性图。

实验证明我们提出的三维视频显著性检测方法明显优于目前的其他方法。主要通过图2和三种方法来进行评估，ROC受试者工作特征曲线，线性相关系数和NSS。ROC曲线广泛的应用于视觉注意力模型性能的检测中，通过定义阈值，视觉注意力模型的显著性图可以被分为显著点和非显著点。TPR真正类表示视觉注意力模型中目标点在为显著点的百分比，而FPR假正类表示视觉注意力模型中背景点被检测为显著点的百分比。AUC是ROC曲线下的面积，能更好的性能进行评估，视觉注意力模型越好，那么它的AUC的值越大；相关系数用来衡量显著性图和位图之间的线性相关程度，相关系数会介于0到1之间，相关系数越大，则视觉注意力模型的性能则越好。同样对于NSS的值，也是值越大，视觉注意力模型的性能更好。

上述内容为本发明的详细说明，任何依照本发明的权利要求范围所做的同等变化与修改，皆为本发明的权利要求范围所涵盖。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方玉明;张驰;诸汉炜;温文媖;
技术所有人：方玉明;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。