基于强化学习的多遍历视频编码码率分配与控制优化方法与流程

文档序号:18899809发布日期:2019-10-18 21:47阅读:395来源:国知局
基于强化学习的多遍历视频编码码率分配与控制优化方法与流程

本发明涉及视频编码和深度学习,特别是一种基于强化学习的多遍历视频编码码率分配与控制的优化方法。



背景技术:

随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高,原始视频信源的数据量以使现有传输网络带宽和存储资源无法承受。因而,视频信号的压缩已成为目前国内外学术研究和工业应用的热点之一。视频压缩,也称视频编码,其目的是消除视频信号间存在的冗余信息。至今,国内外标准化组织已相继制定了多种不同的视频编码标准。自h.261视频编码标准以来,主流的视频编码标准均采用“基于块的预测和变换”的混合编码框架,即输入的视频信号经过编码器中预测、变换、量化、扫描、熵编码等编码技术处理后,最后输出比特流,以备传输或存储。经过几十年的发展,视频编码标准中的工具日趋精细和复杂,基于传统混合编码框架要取得压缩效率的显著提升变得愈发困难。

深度神经网络是人工智能的一个重要分支,从20世纪80年代以来,深度神经网络提供的识别和预测能力一直在提高,在图像与视频、语音与语言处理等领域表现尤为出色。深度学习在计算机视觉领域(如分类、识别等)的成功也带动了一些视频图像处理领域的发展,基于深度学习的图像超分辨率、边缘检测技术迅速发展,性能提升非常显著。受深度学习在图像处理领域的巨大优势启发,可以将深度学习引入视频或图像编码框架中以提升编码效率。目前学术界和业界关于深度学习在视频或图像编码中的应用大体有以下几类:一、系统级地改造图像编码框架;二、基于传统的混合编码框架,改造其中的部分模块,比如熵编码、变换、环路滤波、亚像素插值等;三、前处理或后处理;四、视频编码快速算法。其中第一类和第二类技术需要改变现有标准,有望在将来新的标准中予以实施,但对于工业界还比较遥远。第三类技术着重于提升主观质量。第四类技术以牺牲一定压缩效率为代价,着重于加快编码速度。

在现有主流的视频图像编码标准基础上提升压缩效率,与生态兼容,具有更好的现实意义和产业价值。视频图像内容具有极大的多样性,现有主流的视频编码标准提供给编码器设计很大的灵活性,针对不同图像内容通过调节一些码率分配和控制策略参数,有很大的压缩效率提升空间。其中,码率分配与控制的策略参数,是最关键的码率分配和控制策略参数,对视频图像压缩效率影响大,且对不同视频图像内容有适配性。码率分配与控制策略参数包括图像组大小,图像组中各帧图像的码率分配加权值(可以大于1,即加权后分配码率大于平均设定值;也可以小于1,即加权后分配码率小于平均设定值),图像组中相应的帧qp值,以及图像组参考结构。图像组中的各帧对编码效率的重要性是有分别的,并且与图像组的编码结构紧密相关。编码结构可以是依次编码,即每一帧图像的解码顺序与其解码后的显示顺序完全一致。也可以是分层结构,即每一帧的解码顺序与其解码后的显示顺序可以不同,每一帧在图像组中的作为参考帧的重要性取决于其所位于的参考层,层数越低,重要性越大。底层的图像可以作为本层图像或者上层图像的参考帧,但上层图像不可以作为位于其层面以下的任何图像的任何参考帧。这些策略参数通过传统的方法求解全局最优值的复杂度为np问题。



技术实现要素:

有鉴于此,本发明提出本发明公开了一种基于强化学习的视频多次编码中码率分配与控制的优化解决方案。本发明解决了传统方法无法获取全局最优解,以及机器学习方法难以生成标签来进行训练的问题。本发明在编码时只需要推断过程,速度较快,并且具有较高的鲁棒性。

为了达到上述目的,本发明采用的而技术方案为,

步骤(1),创建预测网络和判别网络,并完成网络参数初始化。

预测网络为全连接神经网络,负责根据编码第一次遍历生成的综合统计信息,决策画面组中的码率分配与控制对应的码率分配和控制策略参数最优值。预测网络在实际推断和编码过程中,用作编码器第二次遍历的前置模块,得到预处理参数。

判别网络为全连接神经网络,负责判别预测网络生成的预测值好坏。判别网络的输入为预测网络输出的多个图像组中各帧图像由第一次遍历采集的统计数据,并以每一帧图像的码率分配与控制的码率分配和控制策略参数p;输出为判别码率分配和控制策略参数好坏的实数值v。

步骤(2),执行第一次遍历编码,编码整个视频序列分段,生成的综合统计信息。

综合统计信息包括但不限于:帧内编码后的各个像素分块的方差,各帧帧内预测分块数目与帧间预测分块数目的比例,帧间预测所得运动矢量的分布,帧间放大/缩小的概率预测,帧内预测或帧间预测所得残差的绝对误差和(sad)或者差值平方和(sse)数值,等等。

步骤(3),输入综合统计信息,由预测网络得到码率分配和控制的策略参数。

图像组各帧图像的码率分配与控制的策略参数p。这里码率分配与控制的策略参数,图像组大小,图像组中各帧图像的码率分配加权值,图像组中相应的帧qp值,以及图像组参考结构。预测网络的输入为多个图像组由第一次遍历采集的各帧统计数据,对于第二次遍历或以后的遍历,不是从该遍历编码过程中提取的参数,不需要编码器的额外反馈,保持较强解耦性。

步骤(4),根据码率分配和控制的策略参数,执行第二次遍历编码。

步骤(5),编码结果评分。在第二次遍历视频序列分段编码完成以后,得到的压缩效率综合评分r。

步骤(6),判别网络估分。根据输入综合统计信息以及码率分配和控制的策略参数,得到估分v。

步骤(7),强化学习训练迭代。更新预测网络和判别网络参数,并执行迭代过程。通过最小化|r-v|2得到最优化的判别网络的参数θc;通过最大化v得到最优的预测网络的参数θa;将θc和θa分别更新到预测网络和判别网络;迭代到指定终止条件。

步骤(8),编码决策。负责为视频编码中的任一画面组,在第一次遍历结束之后,第二次遍历开始之前,生成最优化的码率分配与控制的码率分配和控制策略参数,从而提升编码多遍历的编码压缩效率。

本发明的有益效果是:本发明专利的视频多次编码(multipass)中码率分配与控制的优化方法,1.针对视频编码中码率分配与控制的关键策略参数,本发明解决了传统方法无法获取全局最优解,以及机器学习方法难以生成标签来进行训练的问题。2.本发明在现有主流视频图像编码标准范围内实施,能够在兼容现有标准生态的前提下提升压缩效率,具有更好的现实意义和产业价值。3.本发明可以有效提升编码压缩效率,也可以有效地按照设定目标进行码率控制,将码率的平稳度,视频质量稳定性等控制在更合理的范围。

附图说明

图1为强化学习训练步骤示意图;

图2为编码决策步骤示意图。

具体实施方式

下面将结合说明书附图,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

本发明的视频多次编码中码率分配与控制的优化方法,具体优化了视频编码第二次遍历的码控分配与控制策略参数,包括以下步骤,

步骤(1),创建预测网络和判别网络,并完成网络参数初始化。

预测网络为全连接神经网络,负责根据编码第一次遍历生成的综合统计信息,决策画面组中的码率分配与控制对应的码率分配和控制策略参数最优值。预测网络在实际推断和编码过程中,用作编码器第二次遍历的前置模块,得到预处理参数。

判别网络为全连接神经网络,负责判别预测网络生成的预测值好坏。判别网络的输入为预测网络输出的多个图像组中各帧图像由第一次遍历采集的统计数据,并以每一帧图像的码率分配与控制的码率分配和控制策略参数p;输出为判别码率分配和控制策略参数好坏的实数值v。

其中,网络参数的初始化包括但不限于:全零初始化;随机初始化;根据编码器自带的默认配置,执行编码后得到各个图像分块的策略参数以及编码结果评分,然后对预测网络和判别网络进行监督学习的初始化;采用进化算法得到优化的初始策略参数以及编码结果评分,然后对预测网络和判别网络进行监督学习的初始化。所述进化算法方法包括但不仅限于:遗传算法,差分进化算法,模拟退火算法,粒子群优化算法,蚁群算法。在本发明的实施例中,采用差分进化算法,对每组图像得到对应的编码策略参数a;将编码策略参数a输入编码器,执行编码过程得到评分值r。通过r对a进行调整。迭代到指定终止条件,输出最终的a和r。然后利用a和r对预测网络和判别网络进行监督学习,得到优化的初始化网络参数。

步骤(2),执行第一次遍历编码,编码整个视频序列分段,生成的综合统计信息。

综合统计信息包括但不限于:帧内编码后的各个像素分块的方差,各帧帧内预测分块数目与帧间预测分块数目的比例,帧间预测所得运动矢量的分布,帧间放大/缩小的概率预测,帧内预测或帧间预测所得残差的绝对误差和(sad)或者差值平方和(sse)数值,等等。

步骤(3),输入综合统计信息,由预测网络得到码率分配和控制的策略参数。

其中,码率分配与控制的策略参数,包括但不限于,对图像组大小,图像组中各帧图像的码率分配加权值,以及相应的帧qp值,以及图像组的编码结构。其中图像组中各帧码率分配加权值可以大于1,即加权后分配码率大于平均设定值;也可以小于1,即加权后分配码率小于平均设定值。图像组中的各帧对编码效率的重要性是有分别的,并且与图像组的编码结构紧密相关。编码结构可以是依次编码,即每一帧图像的解码顺序与其解码后的显示顺序完全一致。也可以是分层结构,即每一帧的解码顺序与其解码后的显示顺序可以不同,每一帧在图像组中的作为参考帧的重要性取决于其所位于的参考层,层数越低,重要性越大。底层的图像可以作为本层图像或者上层图像的参考帧,但上层图像不可以作为位于其层面以下的任何图像的任何参考帧。

预测网络的输入为多个图像组由第一次遍历采集的各帧统计数据,对于第二次遍历或以后的遍历,不是从该遍历编码过程中提取的参数,不需要编码器的额外反馈,保持较强解耦性。

步骤(4),根据码率分配和控制的策略参数,执行第二次遍历编码。

步骤(5),编码结果评分。在第二次遍历视频序列分段编码完成以后,得到的压缩效率综合评分r。

其中,编码结果评分,包括但不限于根据码率和质量评价得到的综合评分。在本发明的实施例中,对每个视频段执行4次编码,设定4个不同的码率值,得到码率和平均结构相似性指标(ssim),并与上一组策略参数产生的编码结果计算bd率(bdrate),将-bdrate值作为评分。

步骤(6),判别网络估分。根据输入综合统计信息以及码率分配和控制的策略参数,得到估分v。

步骤(7),强化学习训练迭代。更新预测网络和判别网络参数,并执行迭代过程。通过最小化|r-v|2得到最优化的判别网络的参数θc;通过最大化v得到最优的预测网络的参数θa;将θc和θa分别更新到预测网络和判别网络;迭代到指定终止条件。

步骤(8),编码决策。执行第一次遍历编码之后,将一组包含多个图像采集的各帧图像的统计数据输入到预测网络,得到一组码率分配和控制策略参数p;将码率分配和控制策略参数p输入编码器,执行第二次遍历编码,达到提升压缩效率的目的。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1