监控视频背景图像建模方法与流程

文档序号：11832977阅读：691来源：国知局

本发明涉及数字图像处理技术，特别涉及背景图像建模技术。

背景技术：

监控类场景相比即时类通讯场景，实时性要求不高，同时场景基本不发生变化，摄像头相对保持稳定。因此，可以针对视频序列一定的训练集长度，建立背景图像。将建立后的背景图像作为后续编码的参考图像，可以节省大量编码比特率。背景图像建模的关键技术在于前景的检测。常用的背景图像建模方法都是像素级的背景减除法或者是基于高斯混合模型的方法。但是，前者会产生明显的拖影以及光流现象，且图像的色度与亮度分量存在明显的不匹配情况，而后者时间复杂度极高。背景图像建模实施过程既要考虑到可行性和高效性，也需要考虑最终背景图像建模的质量。

技术实现要素：

本发明所要解决的技术问题是，提供适用于监控视频的背景图像建模的方法。

本发明为解决上述技术问题所采用的技术方案是，监控视频背景图像建模方法，包括以下步骤：

1)设置监控视频中第1帧图像为背景帧；

2)初始设置块大小和最大训练集长度；

3)基于当前的块大小，利用当前帧t对背景帧进行更新，t为大于等于2的整数：

3-1)对第t帧进行分块；

3-2)计算第t帧每一个块的运动变化值：

3-3)利用块的运动变化值进行更新判断：

当运动变化值小于严格替换的阈值，则当前块为背景块，用当前块替换背景帧中相应位置的块；

当运动变化值大于严格不替换的阈值，则当前块为前景块，保留背景帧中相应位置的块；

当运动变化值在大于等于严格替换的阈值且小于等于严格不替换的阈值，则对当前块进行边界检测；边界检测：当当前块的边界像素差值的和小于背景帧中相应位置的块的边界像素差值的和，且当前块的边界像素差值的和小于替换阈值，则用当前块替换背景帧中相应位置的块，否则，保留背景帧中相应位置的块。

第t帧的所有块的更新完成后，判断是否达到视频背景更新结束条件，如是，背景建模完毕；如否，更新t＝t+1，返回步骤3)；

更新结束条件为达到最大训练集长度或连续β帧每帧替换的块的数目小于α块。

其中，本发明具体还提供一种描述块的运动变化的方法，以及提出通过当前块的边界像素差值的和来描述与邻近块差异来判断当前块是否更符合背景。

本发明采用块的边界检测法和图像残差的梯度计算以及自适应训练集的长度调节法，保证了优异的主观质量。本发明的背景图像建模方法是基于块的，同时存储了YUV三分量，生成的背景图像保证了高质量的色度和亮度的一致性。将建模后的背景图像作为全局参考图像进行视频编码，可以明显地节省比特率。

可选的，步骤3)中利用当前帧t对背景帧进行更新的过程中块大小不变。

更进一步的，使用对块从小到大的动态调整来优化背景帧的更新过程：

步骤3)中利用当前帧t对背景帧进行更新的过程中块的大小动态设置：

步骤2)中初始化块大小为预设最小尺寸之后，再设置分段扩大块的尺寸以及对应的最大训练集长度；

3-4)第t帧的所有块的更新完成后，判断是否达到分段视频背景更新结束条件，当前块是否为最大预设尺寸；

当达到当前大小的块对应的视频背景更新结束条件且当前块为最大预设尺寸，那么背景建模完毕；

当达到当前大小的块对应的视频背景更新结束条件且当前块不是最大预设尺寸，扩大设置块的大小n＝n×2，更新t＝t+1，再返回步骤3)；

当未达到当前大小的块对应的视频背景更新结束条件，则更新t＝t+1，再返回步骤3)。

本发明的有益效果是，在保证主观质量的同时建立可供全局编码参考的背景图像。

附图说明

图1为块的内边界和外边界的定义；

图2为背景建模总流程；

图3为自适应训练集长度判断流程；

图4为背景更新及块的替换情况；

图5为序列BasketballDrill_832x480_50的背景图像建模过程示例；

图6为序列Crossroad_720x576_30的背景图像建模过程示例。

具体实施方式

本发明以视频流中第1帧作为初始背景帧，再用之后帧进行分块，再对每块进行判断，当判断为背景块时，则以块的形式对背景帧的相应位置进行替换，直至将背景帧中所有的前景内部替换为背景，完成背景建模。

替换过程分以下四个主要步骤完成。

第一步，图像前景内容的判断。初始时，

采用的是基于残差的梯度图像的计算和统计。为了建立一个良好的背景图像，着重考虑Y、U、V三分量的残差反映在图像时域相关性方面的重要性。随着当前图像顺序t(present order count，POC)的增加，YUV视频图像三个分量残差的计算由公式(1)给出。

$<mrow> <msubsup> <mi>C</mi> <mi>t</mi> <mi>D</mi> </msubsup> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>C</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>C</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

其中p和q表示该像素点在图像第p行第q列的位置，C是YUV某一分量的色彩空间，C＝Y,U,V，C_t(p,q)表示当前时刻t坐标为(p,q)的像素点的值，就是当前像素点在时刻t的与前一时刻t-1的残差。接着，YUV分量残差的梯度计算由公式(2)给出。

$<mrow> <mo>&dtri;</mo> <msub> <mi>C</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msubsup> <mi>C</mi> <mi>t</mi> <mi>D</mi> </msubsup> <mo>(</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> <mo>)</mo> <mo>-</mo> <msubsup> <mi>C</mi> <mi>t</mi> <mi>D</mi> </msubsup> <mo>(</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msubsup> <mi>C</mi> <mi>t</mi> <mi>D</mi> </msubsup> <mo>(</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> <mo>)</mo> <mo>-</mo> <msubsup> <mi>C</mi> <mi>t</mi> <mi>D</mi> </msubsup> <mo>(</mo> <mrow> <mi>p</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mi>q</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

其中表示残差的二阶范数梯度值。残差的梯度值是一种典型的图像边缘锐化的高通滤波法。

第二步，可变块大小的迭代运算。对于监控视频而言，由于采集监控视频的摄像头参数的不同，导致不同大小的块对于远近不同的物体呈现出的属性明显不同。在进行运动估值的时候表示为一个块内运动震荡的不同。所以，基于可变块大小的背景建模方法能够得到更优的背景建模图像。当然，使用固定大小的块仍然能够完成背景建模，至少效果稍差。

设n为一个正方形块的边长，那么这个块里的像素点有n²个。不失一般性，任意分辨率的YUV图像都能够被8×8大小的块所分割，因此最小块大小定为8×8。块大小可以逐步扩大为16×16、32×32、64×64等。本方法在处理一个确定的块时，采用的是Y、U、V三个分量同时存储，这样能够保证色度和亮度的一致性。

计算分量C在当前时刻t梯度残差的均值μ_C用公式(3)表示。

$<mrow> <msub> <mi>μ</mi> <mi>C</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msup> <mi>n</mi> <mn>2</mn> </msup> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>&dtri;</mo> <msub> <mi>C</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

计算分量C在当前时刻t梯度残差的方差σ_c用公式(4)表示。

$<mrow> <msub> <mi>σ</mi> <mi>C</mi> </msub> <mo>=</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <msup> <mi>n</mi> <mn>2</mn> </msup> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <mo>&dtri;</mo> <msub> <mi>C</mi> <mi>t</mi> </msub> <mo>(</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>)</mo> <mo>-</mo> <msub> <mi>μ</mi> <mi>C</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

本发明提出以方差和均值比的对数形式来描述块的运动强度，用公式(5)表示。

$<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mfrac> <msub> <mi>σ</mi> <mi>C</mi> </msub> <mrow> <msub> <mi>μ</mi> <mi>C</mi> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>$

其中，函数f(C)表示的是残差梯度的调整，即YUV分量的运动特征，公式(5)采用对数和加常量1的操作是为了保障f(C)始终为正值。

计算一个块的运动残差的梯度用公式(6)表示。

$<mrow> <mo>&dtri;</mo> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>ρ</mi> <mi>U</mi> </msub> <mo>·</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>ρ</mi> <mi>V</mi> </msub> <mo>·</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>V</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>$

其中，运动梯度反映的是一个块的运动信息，即运动变化值，ρ_U和ρ_V是比例系数。当YUV三分量的量化比为4:2:0时，U和V分量在宽和高方向上的采样比例为Y分量的一半，此时当然，本发明能适用于所有YUV量化形式，不同的量化形式采用的比例系数视实际情况进行调整。

如果一个块内的运动变化趋于缓慢，那么的值将趋近于0，这个块很大程度上可能是背景块；相反的，如果运动变化剧烈，那么将趋近于一个较大的值，这个块很可能是前景块。根据公式(6)计算出的的值，本发明把一个块的替换情况分为以下3种类型：

第1类，严格替换类：如果小于一个严格替换的阈值

第2类，严格不替换类：如果大于一个严格不替换的阈值ω；

第3类，可能替换类：如果是在区间内，那么替换情况将做进一步考虑。

第三步，边界检测和替换抉择。在背景图像建模的过程中，不断地根据当前块的类型进行块替换抉择与实施操作，在当前块与背景块之间进行抉择。其中，当前块指的是当前时刻t正在处理的块，背景块为背景图像中已经存在的块。对于当前块，根据Y、U、V三分量在其四个边界上像素值的差异来进行替换抉择。

定义E_C为一个块的内边界(inner edge，IE)和它的相邻外边界(outer edge，OE)的差的均值。公式(7)给出的四个方向的集合D_set。

D_set＝{top,bottom,left,right}(7)

对于在帧内位置为(p,q)的块，其内外边界像素值的差的均值计算由公式(8)给出。

$<mrow> <msub> <mi>E</mi> <mi>C</mi> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>|</mo> <msub> <mi>C</mi> <mrow> <mi>I</mi> <mi>E</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>,</mo> <mi>d</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>C</mi> <mrow> <mi>O</mi> <mi>E</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>,</mo> <mi>d</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

其中d∈D_set，C_IE(p,q,d,n)表示的是某一分量C在方向d上内边界的像素值，同理，

C_OE(p,q,d,n)表示为同一分量C在方向d上外边界的像素值。由此，一个块的总的边界像素值的差值和用公式(9)表示。

$<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>Σ</mo> <mrow> <mi>d</mi> <mo>&Element;</mo> <msub> <mi>D</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>t</mi> </mrow> </msub> </mrow> </munder> <munder> <mo>Σ</mo> <mrow> <mi>C</mi> <mo>=</mo> <mi>Y</mi> <mo>,</mo> <mi>U</mi> <mo>,</mo> <mi>V</mi> </mrow> </munder> <msub> <mi>E</mi> <mi>C</mi> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>$

在每一个时刻t，都可以根据公式(9)计算的当前块的边界像素差值的和E_t(p,q)与相应的背景图像中块的边界像素差值的和E_BG(p,q)。差值小的表示当前块和它的边界块的差异更小，在图像上表现为此块是与邻近块更加符合的背景块，当差值和小于阈值τ时，将用此块来替换相应位置上原先的块。

第四步，自适应训练集长度的判断。在当前时刻t进行背景更新的过程中，统计被更新的块数目CoverCount，在当前时刻t更新完成后，如果CoverCount小于阈值α那么背景更新结束标志EndCount加1，其中设定阈值α＝3表示当前时刻t背景图像中被替换的背景块数等于3，接着进行t+1时刻背景更新。同理如果CoverCount还是小于阈值α，那么EndCount再加1，当EndCount等于自适应训练集结束阈值β时，背景建模结束，其中设定阈值β＝2表示连续的两个时刻t和t+1满足CoverCount<α，否则CoverCount和EndCount的计数器清零，继续背景建模过程。

实施例

图1为块的边界检测中所涉及到的内边界和外边界的示意图，假定块的大小为16，对于它的Y分量而言，这个16×16的块分别对应的四个方向上的16个像素点就是其对应的内边界，它的四个方向上的外边界为这个块所相邻的四个块的对应位置的16个像素点。对于YUV三分量的量化比为4:2:0时，U、V分量是块的边长为Y分量的一半。

以动态调整块大小的方案为例，如图2所示，背景建模总的流程图，具体步骤为：

开始：以第1帧作为原始背景帧，从第2帧开始处理；

步骤201：根据当前块的大小n来进行块的初始化操作；块初始大小的设置最好是效率图像的分辨率；比较优选的，当视频中帧的行像素在1000以下时，初始化设置块的大小为8*8；当帧的行像素在1000以上时，初始化设置块的大小为16*16；本实施例考虑到所使用的视频流中帧的行数为832或720，因此，设定最初块的大小为n＝8，用公式(2)计算出块内各像素点的残差；由于块为动态调整，因此还设置了使用了两种块大小对应的最大训练集长度，8*8对应的最大训练集长度为60，16*16对应的最大训练集长度为90；

步骤202：根据公式(6)计算块内所有像素的残差和梯度值，得到当前块的运动变化值

步骤203：根据本发明提出的3种替换类型和第三步中公式(9)得到的边界像素差值进行边界检测和替换抉择，具体替换示例可参考图4；

步骤204：对当前帧完成替换之后，判断是否达到当前大小的块对应的视频背景更新结束条件，如果没达到，t＝t+1转202，继续背景更新过程，具体的判断可参考图3；

步骤205：判断当前块大小是否设置的最大块大小，如果没达到，转206，如果达到，整个背景图像建模过程结束；

步骤206：更新块的大小n＝n×2，转202。

视频背景更新结束条件判断也称为自适应训练集长度判断，如图3所示，具体的流程如下：

步骤301：当前时刻t进行背景更新；

步骤302：判断当前时刻t是否达到训练集的最大训练长度要求，若达到则当前块大小n的背景建模结束，否则转303；

步骤303：根据当前时刻t背景更新过程中统计的块替换数目CoverCount，如果CoverCount小于阈值α，转304，否则转306；

步骤304：背景建模的结束标志EndCount，转305；

步骤305：如果EndCount等于结束阈值β，背景建模结束，否则转306，继续背景建模过程；

步骤306：CoverCount和EndCount清零，继续下一时刻t+1的背景更新操作。

以上，简单说来，更新结束条件为达到设置的当前大小块对应的最大训练集长度或连续β帧每帧替换的块的数目小于α块。如设置β＝2，α＝3，当第60帧处理完毕8*8的块替换后，则达到了8*8的块所对应的最大训练集长度，从第61帧开始进行16*16的块替换；当第90帧处理完毕16*16的块替换后，背景建模完成；或者，如在进行8*8的块替换过程中，在第20帧、21帧处理完毕后，这两帧替换的块的数目小于3，那么从第22帧开始就进行16*16的块替换。

图4为背景更新及块替换情况图，从图中可以看到，白框内区域在相邻的两个时刻t和t+1发生了明显的变化，而后者是可靠的背景区域，根据公式(6)的计算判定此区域的运动梯度小于一个严格替换的阈值按照第1类替换类型严格替换。

图5为序列BasketballDrill_832x480_50的背景图像建模过程图，可以看到从t＝0到t＝45的过程中背景图像的更新过程。在一趟建模过程中，总是用相同大小的块进行的替换。

图6为序列Crossroad_720x576_30的背景图像建模过程图，同理，可以看到从t＝0到t＝90的过程中背景图像的更新过程。

下表为LDP和RA模式下的BD-rate性能。LDP模式首帧为I帧，其余都为前向参考帧P帧，RA模式除了I帧和P帧之外，还存在双向参考帧B帧。待测序列为AVS2和HEVC的部分监控序列，参考数据Anchor按照HEVC的通测要求得出，测试数据的首帧采用本方法生成的背景图像并作全局参考。可以看到LDP模式和RA下BD-rate都达到了非常大的增益，从UV分量的增益可以看出来，基于块的背景图像建模方法天然的优势。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周益民;唐钦宇;郭江;彭凤婷;
技术所有人：电子科技大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。