一种基于深度学习的超高清片源检测方法与流程

文档序号:19347073发布日期:2019-12-06 20:58阅读:222来源:国知局
一种基于深度学习的超高清片源检测方法与流程
本发明属于计算机视觉图像分类领域,尤其是一种基于深度学习的超高清片源检测方法。
背景技术
:4k超高清视频与高清视频相比,具有高分辨率、高帧率、宽色域、高量化精度、高动态范围等技术特征,能给观众带来身临其境的观看体验。为了规范超高清质量,我国已发布了用于超高清视频编码的gy/t299.1-2016、用于超高清节目制作的gy/t307-2017、用于高动态范围节目制作的gy/t315-2018等标准。相关标准规定,超高清片源技术参数上需满足:分辨率为3840x2160(4k超高清)和7680x4320(8k超高清),帧率为50p(更高可以到100p和120p),量化精度为10bit(更高可以到12bit),色域为bt.2020,转换曲线为pq和hlg两种。然而,实际应用中,在节目制作、交换、传输等各个环节都有可能造成4k超高清节目质量不满足技术标准要求,严重损害了4k超高清市场的积极性。例如:视频封装参数不符合要求,如bt.709色域、8bit、gamma曲线等;视频封装参数符合规定,但实际内容并不符合,如封装参数为bt.2020色域,实际内容是bt.709色域;封装参数是hdr,实际是sdr等;视频封装参数和内容本身符合标准,但质量较差,如经过高清视频上变换得到的超高清视频。因此,如何对超高清视频片源进行解析和检测并有效保证超高清节目片源的质量把控是目前迫切需要解决的问题。技术实现要素:本发明的目的在于克服上述现有技术存在的不足,提供一种基于深度学习的超高清片源检测方法,其能够从文件格式、编码码流、内容特征三个层次来对超高清视频片源进行解析和检测,逐步分析相关技术指标的符合性,达到多层次、多角度的检测目的,有效保证超高清节目片源的质量把控,确保呈现给观众真正符合标准的超高清电视节目。本发明解决其技术问题是采取以下技术方案实现的:一种基于深度学习的超高清片源检测方法,包括以下步骤:步骤1、对超高清片源进行技术符合性检测;步骤2、对视频文件封装格式进行检测;步骤3、对文件格式解封装后的码流文件进行检测;步骤4、构造色域检测的卷积神经网络模型,对视频片源的色域进行检测;步骤5、构造转换曲线检测的卷积神经网络模型,对视频片源的转换曲线进行检测。进一步,所述超高清片源的技术参数需满足:分辨率为3840x2160和7680x4320,帧率为50p及以上,量化精度为10bit和12bit,色域为bt.2020,转换曲线为pq和hlg两种。进一步,所述步骤1的技术符合性检测包括文件格式检测、编码码流格式检测和内容特征检测,所述内容特征检测包括色域检测和转换曲线检测。进一步,所述步骤2的视频文件封装格式包括制播域的mxf格式和传输域的ts格式,具体检测检测方法为:对于mxf格式,文件头中包含视频相关的元数据,包括分辨率、帧率、量化精度、编码方式信息,以及通过图像实体描述符记录与色域和hdr相关的转换曲线、颜色转换矩阵和色域;对于ts格式,文件头中含有与编码方式相关的stream_type和相关描述符,用于确定所封装视频的编码格式。进一步,所述步骤3的检测内容包括编码类和级、分辨率、帧率、量化精度的视频编码技术指标,以及与动态范围和色域相关的转换曲线、彩色信号转换矩阵的序列头标识信息。进一步,所述步骤3的具体检测方法包括以下步骤:⑴对文件格式解封装后,得到编码基本流,码流包含编码类和级、分辨率、帧率、量化精度等视频编码技术指标,与动态范围和色域相关的转换曲线、彩色信号转换矩阵等在序列头信息中标识;⑵对于h.264/avc编码和h.265/hevc编码,在序列头vui的vui_parameters()语法中对色域、转换曲线和颜色转换矩阵字段进行标识;⑶对于avs2编码,在序列头的sequence_display_extension()语法中对色域、转换曲线和颜色转换矩阵字段进行标识。进一步,所述步骤4的检测内容包括bt.709和bt.2020两种色域类别。进一步,所述步骤4的检测方法为:首先将bt.709和bt.2020的图像划分为统一的像素尺寸,然后批量地输入卷积神经网络进行训练,经过多次迭代,得到色域分类网络模型。进一步,所述步骤5的检测内容包括gamma、hlg、pq三种转换曲线类别。进一步,所述步骤5构建转换曲线检测的卷积神经网络模型的方法为:首先将gamma、hlg和pq的图像划分为统一尺寸的图像块,然后批量地馈送入神经网络进行训练,经过多次迭代,得到转换曲线分类网络模型。本发明的优点和积极效果是:本发明设计合理,其采用多层次、全方位的检测思路,通过检测文件格式封装信息,可检测到文件头中封装的相应信息是否符合技术标准,通过检测编码后的码流信息,可检测到码流中标识的相应信息是否正确,并在片源内容特征检测上有效结合了卷积神经网络模型,可检测视频内容实际的色域类别以及测视频内容实际的转换曲线类别,获得了优良的检测结果,使得系统整体检测准确率大大提高。附图说明图1是本发明的超高清片源检测方法原理图。具体实施方式以下结合附图对本发明的实施做进一步详述。一种基于深度学习的超高清片源检测方法,如图1所示,包括以下步骤:步骤1、对超高清片源进行技术符合性检测,技术符合行检测包括文件格式检测、编码码流格式检测、内容特征检测。在本步骤中,对超高清片源进行技术符合性检测需要依照我国超高清电视技术标准的规定进行检测,超高清片源技术参数上需满足:分辨率为3840x2160(4k超高清)和7680x4320(8k超高清),帧率为50p(更高可以到100p和120p),量化精度为10bit(更高可以到12bit),色域为bt.2020,转换曲线为pq和hlg两种。当前存在的超高清片源可能在文件格式封装、编码码流标识、实际内容三个方面与技术标准不符合,因此,对以上技术参数进行检测,所述检测方法的步骤为:文件格式检测→编码码流格式检测→内容特征检测。其中,内容特征检测主要包括色域、转换曲线检测。步骤2、对常见的视频文件封装格式进行检测,检测内容包括文件头封装的视频分辨率、帧率、编码标准、量化精度等信息。本步骤的具体实现方法为:⑴文件格式检测支持常见的tiff、mxf、mp4、avi、mov、ts等多种文件封装格式。制播域目前一般采用mxf(materialexchangeformat,素材交换格式),传输域一般采用ts(transportstream,传输流),以这两种常用格式为例,介绍文件格式检测的具体内容。⑵对于mxf格式,文件头中包含视频相关的元数据,包括分辨率、帧率、量化精度、编码方式信息。此外,还可以通过图像实体描述符记录与色域和hdr相关的转换曲线、颜色转换矩阵和色域,相关参数定义见表1。表1mxf文件中图像实体描述符定义⑶对于ts格式,文件头中含有与编码方式相关的stream_type和相关描述符,用于确定所封装视频的编码格式,具体定义见表2。表2ts文件中视频封装定义序号流类型stream_type1gy/t299.1—2016视频(avs2视频)0xd22itu-th.265|iso/iec23008-2(h.265/hevc视频)0x243itu-th.264|iso/iec14496-10(h.264/avc视频)0x1b步骤3、对文件格式解封装后的码流文件进行检测,检测内容包括编码类和级、分辨率、帧率、量化精度等视频编码技术指标,以及与动态范围和色域相关的转换曲线、彩色信号转换矩阵等序列头标识信息。本步骤的具体实现方法为:⑴对文件格式解封装后,可以得到编码基本流,码流包含编码类和级、分辨率、帧率、量化精度等视频编码技术指标,与动态范围和色域相关的转换曲线、彩色信号转换矩阵等在序列头信息中标识。⑵对于h.264/avc编码和h.265/hevc编码,在序列头vui(videousabilityinformation,视频使用信息)vui_parameters()语法中对色域(colour_primaries)、转换曲线(transfer_characteristics)和颜色转换矩阵(matrix_coeffs)等字段进行标识,具体定义见表3。表3vui中字段标识定义⑶对于avs2编码,在序列头sequence_display_extension()语法中对色域(colour_primaries)、转换曲线(transfer_characteristics)和颜色转换矩阵(matrix_coeffs)等字段进行标识,具体定义见表4。表4avs2编码流标识步骤4、构造色域检测的卷积神经网络模型,对视频片源的色域进行检测,包括bt.709和bt.2020两种色域类别。本步骤的具体实现方法为:首先,将bt.709和bt.2020的图像划分为统一的像素尺寸,然后批量地输入卷积神经网络进行训练,经过多次迭代,得到色域分类网络模型。步骤5、构造转换曲线检测的卷积神经网络模型,对视频片源的转换曲线进行检测,包括gamma、hlg、pq三种转换曲线类别。本步骤的具体实现方法为:首先将gamma、hlg和pq的图像划分为统一尺寸的图像块,然后批量地馈送入神经网络进行训练,迭代多次网络收敛后,得到转换曲线分类网络模型。下面按照本发明方法进行测试,进一步说明本发明的性能。测试环境:windows10、visualstudio2015、python测试数据:公开的、项目组拍摄的测试序列共175个。其中bt.709序列20个,bt.2020序列155个,在bt.2020序列中,hlg序列134个,pq序列21个。关于序列的详细说明见表5。表5测试序列详细说明测试指标:本发明使用的测试指标分为两类:文件格式检测和编码码流检测部分,以技术标准中的相关技术标识为测试指标;色域和转换曲线检测部分,以检测准确率作为测试指标。其中,对于色域和转换曲线的测试指标具体说明如下:在测试过程中,网络模型的输出结果是当前输入图像属于某一类的概率。具体来说,通过将输入图像裁剪为小块,根据输出的概率判断每一个小块的类别,进而根据所设阈值,当某一帧内预测为某一类别的块所占比例超过阈值时,则判断该帧属于该类别。其中,在预测块的类别时,遵循深度学习分类任务的常规方法,若网络输出的预测概率大于给定阈值(实验中设为0.5),则认为当前块属于这一类。试验结果如下:表6文件格式检测结果检测项目技术要求检测结果输入文件格式支持mxf、ts等封装格式的视频文件输入符合分辨率可以正确显示输入文件头封装的分辨率3840x2160帧率可以正确显示输入文件头封装的帧率50p宽高比可以正确显示输入文件头封装的宽高比16:9比特精度可以正确显示输入文件头封装的比特精度10bit采样格式可以正确显示输入文件头封装的采样格式符合电平范围可以正确显示输入文件头封装的电平范围符合色域可以正确显示输入文件头封装的色域符合表7编码码流检测结果表8色域和转换曲线检测结果通过以上测试结果可以看出,本发明优于目前其他的片源检测算法,系统整体检测准确率较高。本发明未述及之处适用于现有技术。需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1