一种视频失真效应标记大规模数据库的构建方法与流程

文档序号:17721546发布日期:2019-05-22 02:12阅读:180来源:国知局
一种视频失真效应标记大规模数据库的构建方法与流程

本发明涉及视频质量评估领域,特别是一种视频失真效应标记大规模数据库的构建方法。



背景技术:

近十年来,视频编码、网络传输和显示技术的迅速发展,见证了高清(hd)、超高清(uhd)和3d/360度视频的繁荣。根据思科发布的可视化网络指数(vni),视频内容已经占据了目前宽带和移动网络的2/3带宽,并将在可见的未来增长到80%-90%。在全球范围内,互联网视频用户将从2016年的14亿增长至2021年的近19亿,同时移动端用户数量也即将爆发性增长。到2021年,每月全球互联网视频观看时长将达到三万亿分钟,这相当于每月有长达500万年的视频被观看,或每秒大约有100万分钟的视频被观看。

针对这些数字视频的预处理,包括图像增强、视觉转换、拼接等操作,不可避免地形成了画面的视觉失真。同时,视频内容不断增长,需要在有限的比特率或带宽约束下最大化视频质量,通常是通过有损视频编码技术实现。当前最先进的视频编码方案都采用常见的混合视频编码结构,其标准程序包括帧内预测、帧间运动估计和补偿,然后是变换、量化和熵编码。为了便于在大尺寸视频中实现这些功能,编码器将帧进一步划分为片和编码单元。因此,在比特率不够高的情况下,压缩视频包含了帧、片和单元内和单元之间的各种信息丢失,导致视觉上的失真。这些视频失真的存在,极大降低了当前视频观看的用户体验。

此外,基于宽带和移动网络的信息传输是基于包交换的,视频流数据被分成包,每个包独立传送。在中间网络节点处(如交换机或路由器)可能由于缓冲区溢出而丢弃包,或由于过长的排队延迟而被认为丢包。对于视频流或者实时视频通信系统,任何在允许延迟时间之后到达的包也会被认为丢失。而这些包的丢失,以及后续纠错算法的失败,都会造成视频的内容失真,同样导致当前视频观看的用户体验的下降。

针对上述失真的检测和分类是一项具有挑战性的任务。在传统上,质量指标如绝对误差和(sad)、均方误差(mse)、峰值信噪比(psnr)、结构相似性(ssim)等,无法针对失真进行直接检测。在用户端,失真高度可见,但无法准确测量。近年来软硬件的发展极大地推动了4k/8k时代的到来,以用户为中心的视频处理编码和传输变得更加重要,同时深度学习的出现使得对失真的识别和定量研究成为可能。而深度学习依赖于大规模的数据库标记。当前,存在若干针对视频失真的数据库,但这些数据库仅就图片的整体失真做出质量评判,未标记具体失真区域;同时,这些数据库相对较小,一般数百到数千图片,不足以支持深度学习所需的大规模样本。



技术实现要素:

有鉴于此,本发明的目的是提出一种视频失真效应标记大规模数据库的构建方法,其得到的数据库对视频失真效应做出的客观标记,可用于构建相应的失真效应识别算法,并对改善视频编码及传输策略做出指导。

本发明采用以下方案实现:一种视频失真效应标记大规模数据库的构建方法,具体包括以下步骤:

步骤s1:准备含有某种失真效应的大规模测试视频序列;

步骤s2:识别可感知失真区域;

步骤s3:使用空间滑动窗口对失真区域进行初步分割及标记,得到初步分割的正、负类样本;

步骤s4:使用小步长滑动的方式进一步获得失真区域的精细边缘,从而得到具备精细标记的大规模数据库。

进一步地,步骤s1具体为:将源序列经统一的编码及传输处理,生成不少于4个可能含有失真效应的测试序列;其中,源序列需为采集于自然场景的,未经任何编码及传输的原始序列;所述源序列需涵盖4种以上空间解析度(其中至少包含2种720p以上的空间解析度),每种空间解析度需包含4个以上的采集于不同场景的视频。

进一步地,步骤s3具体为:使用滑动窗口,遍历步骤s2圈定的可感知失真区域,并切割正负类样本。

进一步地,所述滑动窗口的使用方式与所述可感知失真的产生类型有关;

当可感知失真为空间型失真时,所述滑动窗口为逐像素遍历单帧的二维矩形;若滑动窗口内部像素中1/2以上属于已标记的空间型失真区域,则该窗口所切割的图像块被标记为正类样本;否则标记为负类样本;此外,随机选取该滑动窗口遍历源序列所切割的图像块,标记为负类样本;

当可感知失真为时间型失真时,所述滑动窗口为立方体,其截面与空间型失真的二维矩形相同,其长轴在标记帧前后若干帧展开;若该立方体的任一截面所含像素中1/2以上属于已标记的时间型失真区域,则该立体窗口所切割的图像组被标记为正类;否则标记为负类;此外,随机选取该滑动窗口遍历源序列所切割的图像组,标记为负类。

进一步地,步骤s4具体为:基于步骤s2初步分割的正、负类样本,训练深度卷积神经网络,得到具有一定判别能力的初步样本分类器;设置双阈值th_high及th_low,其中,th_high>th>th_low,若初步样本分类器的输出y>th,则判别输出属于正类,否则判别输出属于负类;

针对任一测试视频,切割不重叠图像块,并且进行如下标记:

若该图像块经过初步样本分类器,输出值大于th_high,则其所在区域内所有点被标记为1;若初步样本分类器输出值小于th_low,则其所在位置或区域内,未被标记的所有点被标记为0;若上述两种情况均不满足,则逐像素遍历所有与该图像块相重叠的图像块,若任一重叠块经过初步样本分类器的输出值大于th_high,则其所在区域内所有点被标记为1;

若所标记为1的区域不能互相连通,则尝试进行连接操作;

将所有标记为1的区域记为失真区域,并根据需要重复步骤s3与步骤s4,最终获得具备精细标记的大规模数据库。

进一步地,步骤s4还包括:针对任一测试视频,切割不重叠图像组,并且进行如下标记:

若该图像组经过初步样本分类器,输出值大于th_high,则其所在区域内所有点被标记为1;若初步样本分类器输出值小于th_low,则其所在位置或区域内,未被标记的所有点被标记为0;若上述两种情况均不满足,则逐像素遍历所有与该图像组相重叠的图像组,若任一重叠组经过初步样本分类器的输出值大于th_high,则其所在区域内所有点被标记为1;

若所标记为1的区域不能互相连通,则尝试进行连接操作。

进一步地,所述连接操作包括以下步骤:

步骤s11:就任一已标记区域,提取其边缘点,构成该区域的边缘点集,该点集内任两点的最大距离,记为该区域的尺度;

步骤s12:针对两个不连通的标记区域,分别提取其边缘点集,两个点集之间连线,经由随机抽样一致性算法之后的最大距离,记为两个区域之间的最大距离;

步骤s13:针对两个不连通的标记区域,若最大距离小于任一标记区域的尺度,则将两者之间连线通过的所有区域标记为1。

与现有技术相比,本发明有以下有益效果:本发明针对视频编码及传输产生的失真效应,提出了一种大规模标记数据库的构建方法,数据库能够对视频失真效应做出的客观标记,可用于构建相应的失真效应识别算法,并对改善视频编码及传输策略做出指导。

附图说明

图1为本发明实施例的空间型失真小块标签分类原理图。

图2为本发明实施例的时间型失真连续失真视频帧中的小块标签分类原理图。

图3为本发明实施例中使用小步长滑动方式进一步获得失真区域精细边缘原理图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示,本实施例提供了一种视频失真效应标记大规模数据库的构建方法,具体包括以下步骤:

步骤s1:准备含有某种失真效应的大规模测试视频序列;

步骤s2:识别可感知失真区域;

步骤s3:使用空间滑动窗口对失真区域进行初步分割及标记,得到初步分割的正、负类样本;

步骤s4:使用小步长滑动的方式进一步获得失真区域的精细边缘,从而得到具备精细标记的大规模数据库。

在本实施例中,步骤s1具体为:将源序列经统一的编码及传输处理,生成不少于4个可能含有失真效应的测试序列;其中,源序列需为采集于自然场景的,未经任何编码及传输的原始序列;所述源序列需涵盖4种以上空间解析度(其中至少包含2种720p以上的空间解析度),每种空间解析度需包含4个以上的采集于不同场景的视频。

较佳的,在本实施例中,步骤s2中,为了识别所有的可感知失真区域,在本实施例中要求测试者(即标记人员)标记所有的视频序列。测试程序遵循itu-rbt.500文档,分为两个阶段。在预培训阶段,所有测试者都被告知测试流程,并接受鉴定失真效应的培训。在正式测试阶段,所有测试者都被要求观看这些序列,并用鼠标等人体工学设备,初步圈出可感知失真区域。为保证标记的可靠性,所有测试序列被随机排列。为避免视觉疲劳,测试期间设置不少于1次的自由休息时间。

在本实施例中,步骤s3具体为:使用滑动窗口,遍历步骤s2圈定的可感知失真区域,并切割正负类样本。

在本实施例中,所述滑动窗口的使用方式与所述可感知失真的产生类型有关;

如图1所示,当可感知失真为空间型失真时,所述滑动窗口为逐像素遍历单帧的二维矩形;若滑动窗口内部像素中1/2以上属于已标记的空间型失真区域,则该窗口所切割的图像块被标记为正类(如图1中的(a)所示);否则标记为负类(如图1中的(b)所示);此外,随机选取该滑动窗口遍历源序列所切割的图像块,标记为负类;

如图2所示,当可感知失真为时间型失真时,所述滑动窗口为立方体,其截面与空间型失真的二维矩形相同,其长轴在标记帧前后若干帧展开;考虑到测试者反应时间,若该立方体的任一截面所含像素中1/2以上属于已标记的时间型失真区域,则该立体窗口所切割的图像组被标记为正类样本(如图2中的(a)所示);否则标记为负类样本(如图2中的(b)所示);此外,随机选取该滑动窗口遍历源序列所切割的图像组,标记为负类样本。

在本实施例中,步骤s4具体为:基于步骤s2初步分割的正、负类样本,训练深度卷积神经网络,得到具有一定判别能力的初步样本分类器;设置双阈值th_high及th_low,其中,th_high>th>th_low,若初步样本分类器的输出y>th,则判别输出属于正类,否则判别输出属于负类;

针对任一测试视频,切割不重叠图像块(针对空间型失真),并且进行如下标记:

如图3中的(a)所示,先将所有区域标记成0;如图3中的(b)所示,若该图像块经过初步样本分类器,输出值大于th_high,则其所在区域内所有点被标记为1;如图3中的(c)所示,若初步样本分类器输出值小于th_low,则其所在位置或区域内,未被标记的所有点被标记为0;如图3中的(d)所示,若上述两种情况均不满足,则逐像素遍历所有与该图像块相重叠的图像块,若任一重叠块经过初步样本分类器的输出值大于th_high,则其所在区域内所有点被标记为1;

若所标记为1的区域不能互相连通,则尝试进行连接操作;

将所有标记为1的区域记为失真区域,并根据需要重复步骤s3与步骤s4,最终获得具备精细标记的大规模数据库。

在本实施例中,步骤s4还包括:针对任一测试视频,切割不重叠图像组(针对时间型失真),并且进行如下标记:

若该图像组经过初步样本分类器,输出值大于th_high,则其所在区域内所有点被标记为1;若初步样本分类器输出值小于th_low,则其所在位置或区域内,未被标记的所有点被标记为0;若上述两种情况均不满足,则逐像素遍历所有与该图像组相重叠的图像组,若任一重叠组经过初步样本分类器的输出值大于th_high,则其所在区域内所有点被标记为1;

若所标记为1的区域不能互相连通,则尝试进行连接操作。

在本实施例中,所述连接操作包括以下步骤:

步骤s11:就任一已标记区域,提取其边缘点,构成该区域的边缘点集,该点集内任两点的最大距离,记为该区域的尺度;

步骤s12:针对两个不连通的标记区域,分别提取其边缘点集,两个点集之间连线,经由随机抽样一致性算法之后的最大距离,记为两个区域之间的最大距离;

步骤s13:针对两个不连通的标记区域,若最大距离小于任一标记区域的尺度,则将两者之间连线通过的所有区域标记为1。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1