图像处理方法、设备及计算机可读存储介质与流程

文档序号:22123335发布日期:2020-09-04 16:53阅读:182来源:国知局
图像处理方法、设备及计算机可读存储介质与流程

本发明实施例涉及图像处理技术领域,尤其涉及一种图像处理方法、图像处理设备及计算机可读存储介质。



背景技术:

由于图像信息中往往包含很多的冗余信息,因此,当利用数字方法传输或存储时需要对图像信息进行图像编码。图像编码也称图像压缩,是指在满足一定质量的条件下,以较少比特数表示图像或图像中所包含信息的技术。

现有的图像编码一般通过图像编码器实现,由于不同的图像之间往往存在差异,故不同的图像特征之间也存在差异。在通过图像编码器进行图像编码时,需要编码人员人工对不同图像进行特征提取,并根据提取到的特征进行参数调节。

但是,采用上述方法进行图像编码时,一方面在特征提取过程中无法直接提取到图像的本质特征,另一方面,上述方法往往对编码人员的专业素质要求较高,且特征提取以及参数确定均由人工实现,较为耗时耗力,进而导致图像编码效率较低。



技术实现要素:

本发明实施例提供一种图像处理方法、图像处理设备及计算机可读存储介质,以解决现有技术中通过人工进行图像编码较为耗时耗力的技术问题。

根据本发明实施例的第一方面,提供了一种图像处理方法,包括:获取待处理图像的频域信息,所述频域信息通过图像编码器进行时频转换处理获得;通过预设的第一神经网络模型对所述频域信息进行处理,获得所述待处理图像的第一编码参数;将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码。

根据本发明实施例的第二方面,提供了一种图像处理设备,包括:存储器和处理器;所述存储器用于存储程序代码;所述处理器,调用所述程序代码,当程序代码被执行时,用于执行以下操作:获取待处理图像的频域信息,所述频域信息通过图像编码器进行时频转换处理获得;通过预设的第一神经网络模型对所述频域信息进行处理,获得所述待处理图像的第一编码参数;将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码。

根据本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的图像处理方法。

在本发明的一些实施例所提供的技术方案中,通过获取待处理图像的频域信息,所述频域信息通过图像编码器进行时频转换处理获得;通过预设的第一神经网络模型对所述频域信息进行处理,获得所述待处理图像的第一编码参数;将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码。一方面,通过将图像编码器与第一神经网络模型相结合,设计基于深度学习的图像编码器参数优化方案,能够通过第一神经网络模型能够实现对待处理图像的第一编码参数的自动优化,有效地提高图像编码效率,且能够节约人力资源,无需人为设计特征和进行复杂的人工计算与参数选取,降低了图像编码器优化的难度和耗时,提高了效率;另一方面,以深度学习为基础,根据待处理图像的频域信息为图像编码器选择最优的第一编码参数,提升了图像编码器的编码效率和性能,可以使得在相同压缩率下获得更高质量的图像编码效果,从而进一步可以实现在同样的评价指标下具有最优的解码效果,实现了将深度学习与图像编码器的内部结构的有效结合。本发明实施例公开了一种基于频域特性的图像编码器参数优化方式,能够应用于图像、视频压缩编码等场景相关的产品。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一示例性实施例提供的图像编码方法的流程示意图;

图2为本发明一示例性实施例提供的图像编码器的框图;

图3为本发明一示例性实施例提供的vgg-16模型的结构图;

图4为本发明一示例性实施例提供的resnet34模型的结构图;

图5为本发明一示例性实施例提供的googlenet模型的结构图;

图6为本发明一示例性实施例提供的基于第一神经网络模型的图像编码器框图;

图7为本发明另一示例性实施例提供的基于第一神经网络模型的图像编码器框图;

图8为本发明一示例性实施例提供的基于第一神经网络模型和第二神经网络模型的图像编码器框图;

图9为本发明一示例性实施例提供的图像信息的处理流程图;

图10为本发明实施例六提供的图像处理设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

目前,图像编码参数优化主要是通过人工选择编码器参数,但由于图像编码器比较复杂,这些优化的过程往往是非常复杂和耗时耗力的。此外,在编码器参数的优化过程中也没能充分考虑不同图像之间的差异性,导致同样的编码参数在不同的图像下产生的效果也差别很大。

由于深度学习不需要人为的选择特征,而是通过学习训练网络的方式去提取图像特征,然后将这些提取的特征去产生后面的决策结果,从而实现分类、识别等功能。即神经网络具有强大的学习能力,可以全面准确地建立样本与标签之间的映射关系,完成大量传统方法无法完成的任务或者大大提高传统方法的效率和精度。因此,利用深度学习来进行图像编码器的参数调优可以极大地避免人工编码器参数优化中的不足。

为了解决上述技术问题,本发明提供了一种图像处理方法、设备及计算机可读存储介质,将深度学习与图像编码器的编码过程或者内部结构有效结合起来,在避免人工调优的不足的同时,充分发挥深度学习的优势。

需要说明的是,本发明提供的图像编码方法、设备及计算机可读存储介质能够应用在任意一种图像编码的场景中。

图1为本发明一示例性实施例提供的图像编码方法的流程示意图。本发明实施例提供的方法可以由任意具备计算处理能力的终端设备和/或服务器执行,本发明对此不作限定。如图1所示,本发明实施例提供的方法可以包括以下步骤。

在步骤s110中,获取待处理图像的频域信息,所述频域信息通过图像编码器对所述待处理图像进行时频转换处理获得。具体地,所述时频转换包括k-l变换、傅里叶变换、余弦变换和小波变换中的任意一种。

本发明实施例中,以标准的图像编码器为例对其进行举例说明,但实际上本发明实施例提供的技术方案可以应用于任意的图像编码器。

图2为本发明一示例性实施例提供的图像编码器的框图。如图2所示,标准图像编码器的一般流程为:将待处理图像输入至图像编码器,依次经过变换处理、量化处理和熵编码处理,输出码流信息。目前主要的图像编码标准有:jpeg(jointphotographicexpertsgroup,联合图像专家组)、jpeg2000等。其基本的编码都是在图2的框架下完成的。

其中,所述变换处理主要是将所述待处理图像从时域到频域的一个信息转换的过程,目的是分离不同频段的频域信息,并利用人眼对高频信息不敏感的特点,对不同频段选用不同的量化步长,减小图像压缩中的空间冗余,以此来获得更高的压缩率。

所述量化处理是按照一定的量化步长对变换后的频域信息进行近似的表示,量化后的图像信息,可以用更少的位数表示,是对图像进行压缩的重要环节。

所述熵编码处理是指按照一定的编码规则,对量化后的图像信息进行表示。熵编码后得到的码流信息就是所述待处理图像经过所述图像编码器编码后的表示。

目前传统的针对图像编码器的优化主要是通过人工的方式进行参数调优,从图像编码器编码流程出发,即变换的精度、量化表的设计以及熵编码中概率分布的估计等。但由于其对编码人员的专业素质要求较高,同时也比较耗时耗力,进一步限制了图像编码参数的优化;同时当前的图像编码器也没有充分考虑图像之间的差异性,编码参数的普适性较差。

在步骤s120中,通过预设的第一神经网络模型对所述频域信息进行处理,获得所述待处理图像的第一编码参数。

在示例性实施例中,所述第一神经网络模型可以包括依次连接的n个运算单元。其中,所述通过预设的第一神经网络模型对所述频域信息进行处理,获得所述待处理图像的第一编码参数,可以包括:将所述频域信息输入至所述第一神经网络模型的第n个运算单元,通过所述第一神经网络模型的第n个运算单元输出所述第一编码参数;其中,n≥n;n为大于等于2的正整数。需要说明的是,本发明实施例中提及的运算单元,可以是一个软件模块。

在示例性实施例中,所述第一神经网络模型可以包括如下至少一种:vgg-16模型,vgg-19模型,resnet模型,googlenet等。

在示例性实施例中,n=2。但本发明并不限定于此,在下面的举例说明中,以n=2为例进行举例说明。

其中,vggnet是一种深度卷积神经网络。vggnet探索了卷积神经网络的深度与其性能之间的关系,成功地构筑了16~19层深的卷积神经网络,证明了增加网络的深度能够在一定程度上影响网络最终的性能,使错误率大幅下降,同时拓展性又很强,迁移到其它图片数据上的泛化性也非常好可以用来提取图像特征。

vggnet有几种不同的结构,例如vgg-16和vgg-19模型。在下面的图3中,基于vgg-16模型进行设计改造作为本发明实施例中的用于参数优化的第一神经网络模型。由于图像编码器的变换过程可以认为与神经网络卷积层的功能相似,因此,这里可以将vgg-16模型的前两个卷积层和第一个池化层去掉,得到新的神经网络作为参数优化的神经网络模型。

如图3所示,vgg-16模型可以包括依次连接的第一个运算单元310、第二个运算单元320、第三个运算单元330、第四个运算单元340、第五个运算单元350、第六个运算单元360和第七个运算单元370。其中,第一个运算单元310可以包括第一个卷积层311、第二个卷积层312和第一个池化层313。第二个运算单元320可以包括第三个卷积层321和第四个卷积层322。第三个运算单元330可以包括第二个池化层331、第五个卷积层332、第六个卷积层333和第七个卷积层334。第四个运算单元340可以包括第三个池化层341、第八个卷积层342、第九个卷积层343和第十个卷积层344。第五个运算单元350可以包括第四个池化层351、第十一个卷积层352、第十二个卷积层353和第十三个卷积层354。第六个运算单元360可以包括第五个池化层361、第一全连接层362、第二全连接层363和第三全连接层364。第七个运算单元370包括一个softmax层(归一化层)。

本发明实施例中,待处理图像经过图像编码器的变换处理后输出的频域信息直接输入至vgg-16模型的第二个运算单元320,再依次经过第三个运算单元330、第四个运算单元340、第五个运算单元350、第六个运算单元360和第七个运算单元370的处理,输出第一编码参数。即对频域信息进行处理的网络包含11个卷积层、4个池化层和3个全连接层。相比vgg-16网络的13个卷积层、5个池化层和3个全连接层,本发明实施例中用于对频域信息进行处理的网络层数降低,运算量减小,速度加快,提升了编码过程的实时性。

图4为本发明一示例性实施例提供的resnet34模型的结构图。

如图4所示,本发明实施例中对频域信息进行处理的第一神经网络模型,还可以利用去掉第一个卷积层和第一个池化层(即图4中的第一个运算单元410)的resnet模型,即直接将图像编码器输出的频域信息输入至第二个卷积层,最后经过全连接层(fc,fullyconnected)输出第一编码参数。

图5为本发明一示例性实施例提供的googlenet模型的结构图。

如图5所示,本发明实施例中对频域信息进行处理的第一神经网络模型,还可以利用去掉第一个运算单元510的googlenet模型。其中,第一个运算单元510可以包括第一个卷积层和第一个最大池化层以及第一个lrn(localresponsenorm)层,最后经过softmax(归一化)层输出第一编码参数。其中,图5中的im是inceptionmodule(开端模块)的简称。

需要说明的是,虽然上述图3-5例举了基于vgg-16、resnet34和googlenet模型设计的第一神经网络模型,但本发明并不限定于此,根据具体的应用场景和实际需求,也可以选择其它神经网络进行特征提取,比如cnn(convolutionalneuralnetworks,卷积神经网络)的其他变型、rnn(recurrentneuralnetwork,循环神经网络)等,例如vgg-19或者同样深度或者级别的网络,比如resnet50及以上深度级别的网络,googlenet以及一些同级别深层神经网络。此外,虽然上述举例说明中,以去掉第一神经网络模型的第一个运算单元为例对频域信息进行处理,但在其他实施例中,也可以去掉更多的运算单元。

在步骤s130中,将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码。

在示例性实施例中,所述第一编码参数可以包括典型量化参数设计、量化表设计、特征变换精度设计、码率控制的比例设计等中的至少一项。其中,所述典型量化参数设计和量化表设计对应所述图像编码器进行量化处理的参数;所述特征变换精度涉及对应所述图像编码器进行时频转换的参数;所述码率控制的比例设计对应所述图像编码器进行熵编码处理的参数。

本发明实施例提供的图像处理方法,通过获取待处理图像通过图像编码器进行时频转换处理后的频域信息;通过预设的第一神经网络模型对所述频域信息进行处理,获得所述待处理图像的第一编码参数;将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码。一方面,通过将图像编码器与第一神经网络模型相结合,设计基于深度学习的图像编码器参数优化方案,能够通过第一神经网络模型能够实现对待处理图像的第一编码参数的自动优化,有效地提高图像编码效率,且能够节约人力资源,无需人为设计特征和进行复杂的人工计算与参数选取,降低了图像编码器优化的难度和耗时,提高了效率;另一方面,以深度学习为基础,根据待处理图像的频域信息为图像编码器选择最优的第一编码参数,提升了图像编码器的编码效率和性能,可以使得在相同压缩率下获得更高质量的图像编码效果,从而进一步可以实现在同样的评价指标下具有最优的解码效果,实现了将深度学习与图像编码器的内部结构的有效结合。本发明实施例公开了一种基于频域特性的图像编码器参数优化方式,能够应用于图像、视频压缩编码等场景相关的产品。

在示例性实施例中,所述将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码,可以包括:将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像的频域信息进行量化处理和熵编码处理。

在示例性实施例中,所述方法还可以包括:所述图像编码器根据所述第一编码参数对所述待处理图像进行编码,获得所述待处理图像的码流信息。

在示例性实施例中,所述方法还可以包括:利用图像解码器对所述码流信息执行解码操作,获得重建的待处理图像。

图6为本发明一示例性实施例提供的基于第一神经网络模型的图像编码器框图。在图6的实施例中,所述第一编码参数可以包括典型量化参数设计和/或量化表设计和码率控制的比例设计。

如图6所示,首先,将待处理图像输入至图像编码器中,进行变换处理后输出所述待处理图像的频域信息;其次,将所述待处理图像的频域信息作为第一神经网络模型的输入;之后,第一神经网络模型可以输出所述待处理图像的第一编码参数;接着,将获得的第一编码参数输入至所述图像编码器中,以对所述待处理图像进行编码。所述图像编码器根据所述第一编码参数(例如典型量化参数设计和/或量化表设计)对所述待处理图像进行量化处理生成所述待处理图像的量化信息,然后再根据所述第一编码参数(例如码率控制的比例设计)对所述量化信息进行熵编码处理,输出码流信息。最后,将码流信息输入至图像解码器进行解码操作,图像解码器输出解码图像,即获得重建后的待处理图像。

在示例性实施例中,所述将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码,可以包括:将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像重新进行时频转换并生成新的频域信息,再基于所述第一编码参数对新的频域信息进行量化处理和熵编码处理。通过该种方式,可以实现对时频转换的参数进行反向调整,进一步提高图像编码器的编码性能。下面结合图7的示意性视图进行举例说明。

图7为本发明另一示例性实施例提供的基于第一神经网络模型的图像编码器框图。

如图7所示,待处理图像输入至图像编码器,经过变换操作,进行时频转换处理过程,生成所述待处理图像的频域信息;然后,将所述频域信息输入至第一神经网络模型,通过所述第一神经网络模型对所述频域信息进行处理,输出所述待处理图像的第一编码参数,再将所述第一编码参数输入至图像编码器的变换操作,根据所述第一编码参数对所述待处理图像重新执行时频转换,生成所述待处理图像新的频域信息,再根据所述第一编码参数对所述重新生成新的频域信息进行量化处理,生成所述待处理图像的量化信息;再根据所述第一编码参数对所述量化信息进行熵编码处理,生成码流信息。之后,图像解码器接收所述码流信息,可以解码图像重建所述待处理图像。

在示例性实施例中,所述将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码,可以包括:将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述频域信息进行量化处理并生成所述待处理图像的量化信息。

在示例性实施例中,所述方法还可以包括:获取所述待处理图像的量化信息;通过预设的第二神经网络模型对所述量化信息进行处理,获得所述待处理图像的第二编码参数;将所述第二编码参数发送至所述图像编码器,以使所述图像编码器根据所述第二编码参数对所述待处理图像进行编码。

本发明实施例中,可以利用第二神经网络模型对图像编码器量化处理后的量化信息进行处理,输出第二编码参数,进而使得图像编码器可以进一步根据所述第二编码参数对所述待处理图像进行编码。从而可以进一步提高编码效率和性能。这里的第二神经网络模型可以采用任意一种或者多种神经网络结构,本发明对此不作限定。

在示例性实施例中,所述第二神经网络可以包括依次连接的m个运算单元。其中,所述通过预设的第二神经网络模型对所述量化信息进行处理,获得所述待处理图像的第二编码参数,可以包括:将所述量化信息输入至所述第二神经网络模型的第m个运算单元,通过所述第二神经网络模型的第m个运算单元输出所述第二编码参数;其中,m≥m;m为大于等于2的正整数。例如m可以等于2或者3,但本发明并不限定于此。

在示例性实施例中,所述第二神经网络模型可以包括如下至少一种:vgg-16模型,vgg-19模型,resnet模型,googlenet模型等。可以参照上述图3-5的实施例中有关第一神经网络模型的描述。

在示例性实施例中,所述第二编码参数可以包括典型量化参数设计、量化表设计、码率控制的比例设计等中的至少一项。

在示例性实施例中,所述将所述第二编码参数发送至所述图像编码器,以使所述图像编码器根据所述第二编码参数对所述待处理图像进行编码,可以包括:将所述第二编码参数发送至所述图像编码器,以使所述图像编码根据所述第二编码参数(例如典型量化参数设计和/或量化表设计)对所述待处理图像的频域信息重新进行量化处理并生成新的量化信息,再基于所述第二编码参数(例如码率控制的比例设计)对新的量化信息进行熵编码处理。通过这种方式,可以实现对量化处理的参数进行反向调整,进一步提高图像编码器的编码性能。

在示例性实施例中,所述将所述第二编码参数发送至所述图像编码器,以使所述图像编码器根据所述第二编码参数对所述待处理图像进行编码,可以包括:将所述第二编码参数发送至所述图像编码器,以使所述图像编码器根据所述第二编码参数对所述量化信息进行熵编码处理。下面结合图8对其进行举例说明。

图8为本发明一示例性实施例提供的基于第一神经网络模型和第二神经网络模型的图像编码器框图。图8的实施例中,所述第一编码参数可以包括典型量化参数设计和/或量化表设计;所述第二编码参数可以包括码率控制的比例设计。

如图8所示,待处理图像输入至图像编码器,经过变换操作,进行时频转换处理过程,生成所述待处理图像的频域信息;然后,将所述频域信息输入至第一神经网络模型,通过所述第一神经网络模型对所述频域信息进行处理,输出所述待处理图像的第一编码参数,再将所述第一编码参数输入至图像编码器的量化操作,根据所述第一编码参数对所述频域信息进行量化处理,生成所述待处理图像的量化信息;再根据所述第一编码参数对所述量化信息进行熵编码处理,生成码流信息。之后,图像解码器接收所述码流信息,可以解码图像重建所述待处理图像。

在深度学习中,对神经网络进行训练,目的是让神经网络具有特征提取能力,神经网络每一层都在上一层的基础上提取不同的特征信息,深层的神经网络,可以提取高维度的特征,建立样本与目标之间的映射关系,完成复杂的分类、回归等任务。在图像应用领域,神经网络的卷积核可以看作是一系列的滤波器,初始卷积层可以看作是对图像频域特征的提取。同时,如前面所述,图像编码器的变换过程是对图像进行频率特征的提取,分离不同频段的频域信息,也就是说,变换过程也是一种滤波操作。

本发明实施例中,考虑到神经网络的卷积过程与图像编码器编码流程中变换过程的相似性,将图像编码器变换(例如,dct(discretecosinetransform,离散余弦变换)、dwt(discretewavelettransform,离散小波变换)等)后的输出作为第一神经网络模型的输入。这里,通过将频域信息作为第一神经网络模型的输入,一方面可以减少神经网络的层数,加快训练过程,另一方面,可以将图像编码器的内部结构与深度学习更好的结合起来,更好的发挥深度学习的优势,提高深度学习在图像编码器参数优化任务上的应用能力。

在示例性实施例中,在所述通过预设的第一神经网络模型对所述频域信息进行处理之前,所述方法还可以包括:通过预设的第一训练数据集对所述第一神经网络模型进行训练。这里所述第一训练数据集可以包括若干已标注其第一编码参数的图像的频域信息。

在示例性实施例中,所述第一训练数据集可以通过以下步骤获得:将若干已标注其第一编码参数的图像进行时频转换,获得其频域信息;根据所述已标注其第一编码参数的图像的频域信息形成所述第一训练数据集。

例如,预先为图像数据集准备k(k为大于等于1的正整数)组最优的第一编码参数,图像数据集中至少部分图像对应的最优的第一编码参数是已知的,即至少部分图像标签已知。

将已知标签的图像,在时频变换后获得对应的频域信息,作为所述第一神经网络模型的第一训练数据集,使第一神经网络模型学习图像特征与最优的第一编码参数之间的映射关系。多次迭代后,完成网络训练,实现了图像与最优的第一编码参数映射关系的建模。

训练完成后的第一神经网络模型,已经具备图像编码器的参数优化的能力。使用时,对于每一张待处理图像,经过图像编码器的变换处理后,将获得的频域信息输入到所述第一神经网络模型,可以输出其最优的第一编码参数。

在示例性实施例中,在所述通过预设的第二神经网络模型对所述量化信息进行处理之前,所述方法还可以包括:通过预设的第二训练数据集对所述第二神经网络模型进行训练。这里所述第二训练数据集包括若干已标注其第二编码参数的图像的量化信息。

在示例性实施例中,所述第二训练数据集可以通过以下步骤获得:将若干已标注其第二编码参数的图像进行时频转换和量化处理,获得其量化信息;根据所述已标注其第二编码参数的图像的量化信息形成所述第二训练数据集。

例如,预先为图像数据集准备p(p为大于等于1的正整数)组最优的第二编码参数,图像数据集中至少部分图像对应的最优的第二编码参数是已知的,即至少部分图像标签已知。

将已知标签的图像,在时频变换和量化处理后获得对应的量化信息,作为所述第二神经网络模型的第二训练数据集,使第二神经网络模型学习图像特征与最优的第二编码参数之间的映射关系。多次迭代后,完成网络训练,实现了图像与最优的第二编码参数映射关系的建模。

训练完成后的第二神经网络模型,已经具备图像编码器的参数优化的能力。使用时,对于每一张待处理图像,经过图像编码器的变换处理和量化处理后,将获得的量化信息输入到所述第二神经网络模型,可以输出其最优的第二编码参数。

在示例性实施例中,所述方法还可以包括:若所述待处理图像为yuv格式,则确定所述待处理图像的u通道和v通道的维度与y通道的维度;若所述u通道和v通道的维度与所述y通道的维度不一致,则对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致。

在示例性实施例中,所述方法还可以包括:若所述待处理图像为预设的格式,则对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致。

在示例性实施例中,当所述预设的格式为yuv422格式或者yuv420格式,则对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致。

目前,图像编码器输入的图像格式基本都是yuv格式,图像编码器主要的yuv格式有yuv444、yuv422、yuv420等格式。因为yuv422、yuv420两种数据格式下,uv分量存在着下采样的操作,导致数据在每个通道维度不一致。

在示例性实施例中,所述对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致,可以包括:对所述待处理图像的所述u通道和v通道进行上采样操作,使得所述待处理图像的y、u和v三通道的维度相同。

在示例性实施例中,所述对所述待处理图像的所述u通道和v通道进行上采样操作,使得所述待处理图像的y、u和v三通道的维度相同,可以包括:对所述待处理图像的所述u通道和v通道进行双线性插值操作,使得所述待处理图像的y、u和v三通道的维度相同。

在示例性实施例中,对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致,可以包括:对所述待处理图像的所述y通道进行下采样操作,使得所述待处理图像的y、u和v三通道的维度相同。

本发明实施例中,在数据预处理部分,对于yuv三通道维度不同的问题,可以采用将u和v通道上采样的方式,将三通道统一到y的维度来解决。例如,可以通过对u和v通道进行双线性插值,将三通道统一到y的维度。或者,还可以对y通道进行下采样,将三通道统一到uv的维度等方式来解决。本发明对此不作限定。

在示例性实施例中,获取待处理图像通过图像编码器进行时频转换处理后的频域信息,可以包括:将维度一致的所述待处理图像的y、u和v通道分别进行dct变换,生成y、u和v通道的频域信息。

在示例性实施例中,获取待处理图像通过图像编码器进行时频转换处理后的频域信息,可以包括:将维度一致的所述待处理图像的y、u和v通道分别进行dwt变换,生成y、u和v通道的频域信息。

本发明实施例中,可以采用离散余弦变换(dct)或者离散小波变换(dwt)等实现变换处理。下面分别对其进行举例说明。

对所述待处理图像来说,可以对其进行二维的dct变换。例如,将所述待处理图像划分为大小的块,每一块分别进行如下的变换过程:

其中,

上述公式中,cu,cv分别为第一变换参数和第二变换参数。

二维的离散小波变换,输入的待处理图像可以看做是x[m,n],m和n均为大于等于1的正整数。dwt通过高通滤波器h[n]和低通滤波器g[n]连续多次对所述待处理图像进行不同频率的提取。每一次dwt过程如下:

首先对n方向做高通和低通滤波:

接着对v1,l[m,n]和v1,h[m,n]沿着m方向做高通和低通滤波。

在示例性实施例中,在所述通过预设的第一神经网络模型对所述频域信息进行处理之前,还可以包括:将所述待处理图像的y、u和v通道的频域信息进行级联。

图9为本发明一示例性实施例提供的图像信息的处理流程图。在图9的实施例中,以对u和v通道分别进行上采样为例进行举例说明。

如图9所示,y通道直接进行dct/dwt变换,u和v通道分别进行上采样操作,使得y、u和v三通道维度相同,然后再进行dct/dwt变换,保持同一维度,将yuv变换后的频域信息进行级联,输出频域信息作为第一神经网络模型的输入。这样,第一神经网络模型的输入为dct/dwt变换后的系数矩阵,也就是频域信息。变换过程不改变矩阵的维度,即对于每张待处理图像,变换后的系数矩阵仍可以看作是三通道数据信息。因此,dct/dwt变换后,系数矩阵可以直接作为第一神经网络模型的输入。

本发明实施例提供的图像处理方法,利用图像编码器编码流程中的变换过程与深度学习特征提取之间的相似性,使用图像编码器流程中变换环节输出的频域信息作为神经网络模型的输入,将图像编码器的编码过程中的时频变换部分与神经网络模型相结合,能够使用一种新的层数更少的神经网络模型来提取图像特征,一方面,通过减少网络层数,可以减少处理的数据量,例如训练过程中的权重变少,可以缩短网络的训练时间和图像编码器的优化时间,更加节省时间。另一方面,通过网络训练,本发明实施例提供的神经网络模型可以自动建立图像特征与最优的编码参数之间的映射关系,使得可以根据输入的待处理图像自适应选择最优的编码参数模式,去指导图像编码器进行图像编码,简化了编码参数优化,实现了将深度学习应用于图像编码器参数优化任务。同时,通过神经网络模型的学习,可以利用神经网络模型针对每一张待处理图像,自适应产生其对应的最优的编码参数,在提升图像编码器参数优化的效率的同时,能够针对每张图像的特点进行针对性优化,考虑了图像之间的差异性,从而使得图像编码器的编码性能得到改善,能够使得解码后的图像质量得到较大提升。

图10为本发明一示例性实施例提供的图像处理设备的结构示意图。如图10所示,所述图像处理设备可以包括:存储器101和处理器102。其中,所述存储器101可以用于存储程序代码。所述处理器102可以调用所述程序代码,当程序代码被执行时,可以用于执行以下操作:获取待处理图像的频域信息,所述频域信息通过图像编码器进行时频转换处理获得;通过预设的第一神经网络模型对所述频域信息进行处理,获得所述待处理图像的第一编码参数;将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码。

本发明实施例提供的图像处理设备,通过获取待处理图像的频域信息,所述频域信息通过图像编码器进行时频转换处理获得;通过预设的第一神经网络模型对所述频域信息进行处理,获得所述待处理图像的第一编码参数;将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码。一方面,通过将图像编码器与第一神经网络模型相结合,设计基于深度学习的图像编码器参数优化方案,能够通过第一神经网络模型能够实现对待处理图像的第一编码参数的自动优化,有效地提高图像编码效率,且能够节约人力资源,无需人为设计特征和进行复杂的人工计算与参数选取,降低了图像编码器优化的难度和耗时,提高了效率;另一方面,以深度学习为基础,根据待处理图像的频域信息为图像编码器选择最优的第一编码参数,提升了图像编码器的编码效率和性能,可以使得在相同压缩率下获得更高质量的图像编码效果,从而进一步可以实现在同样的评价指标下具有最优的解码效果,实现了深度学习与图像编码器内部结构的有效结合。本发明实施例公开了一种基于频域特性的图像编码器参数优化方式,能够应用于图像、视频压缩编码等场景相关的产品。

进一步地,在上述任一实施例的基础上,所述第一神经网络模型可以包括依次连接的n个运算单元。其中,所述处理器在通过预设的第一神经网络模型对所述频域信息进行处理,获得所述待处理图像的第一编码参数时,可以用于:将所述频域信息输入至所述第一神经网络模型的第n个运算单元,通过所述第一神经网络模型的第n个运算单元输出所述第一编码参数。其中,n≥n;n为大于等于2的正整数。

进一步地,在上述任一实施例的基础上,所述第一神经网络模型可以包括如下至少一种:vgg-16模型,vgg-19模型,resnet模型,googlenet模型。

进一步地,在上述任一实施例的基础上,n=2。

进一步地,在上述任一实施例的基础上,所述处理器在所述通过预设的第一神经网络模型对所述频域信息进行处理之前,还可以用于:通过预设的第一训练数据集对所述第一神经网络模型进行训练;其中,所述第一训练数据集包括若干已标注其第一编码参数的图像的频域信息。

进一步地,在上述任一实施例的基础上,所述处理器可以通过执行以下步骤获得所述第一训练数据集:将若干已标注其第一编码参数的图像进行时频转换获得其频域信息;根据所述已标注其第一编码参数的图像的频域信息形成所述第一训练数据集。

进一步地,在上述任一实施例的基础上,所述处理器还可以用于:若所述待处理图像为yuv格式,则确定所述待处理图像的u通道和v通道的维度与y通道的维度;若所述u通道和v通道的维度与所述y通道的维度不一致,则对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致。

进一步地,在上述任一实施例的基础上,所述处理器还可以用于:若所述待处理图像为预设的格式,则对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致。

进一步地,在上述任一实施例的基础上,所述处理器在当所述预设的格式为yuv422格式或者yuv420格式时,则对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致。

进一步地,在上述任一实施例的基础上,所述处理器在对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致时,可以用于:对所述待处理图像的所述u通道和v通道进行上采样操作,使得所述待处理图像的y、u和v三通道的维度相同。

进一步地,在上述任一实施例的基础上,所述处理器在对所述待处理图像的所述u通道和v通道进行上采样操作,使得所述待处理图像的y、u和v三通道的维度相同时,可以用于:对所述待处理图像的所述u通道和v通道进行双线性插值操作,使得所述待处理图像的y、u和v三通道的维度相同。

进一步地,在上述任一实施例的基础上,所述处理器在对所述待处理图像执行预处理操作,以使得所述待处理图像的所述u通道和v通道的维度与所述y通道的维度一致时,可以用于:对所述待处理图像的所述y通道进行下采样操作,使得所述待处理图像的y、u和v三通道的维度相同。

进一步地,在上述任一实施例的基础上,所述处理器在获取待处理图像通过图像编码器进行时频转换处理后的频域信息时,可以用于:将维度一致的所述待处理图像的y、u和v通道分别进行dct变换,生成y、u和v通道的频域信息。

进一步地,在上述任一实施例的基础上,所述处理器在获取待处理图像通过图像编码器进行时频转换处理后的频域信息时,可以用于:将维度一致的所述待处理图像的y、u和v通道分别进行dwt变换,生成y、u和v通道的频域信息。

进一步地,在上述任一实施例的基础上,所述处理器在通过预设的第一神经网络模型对所述频域信息进行处理之前,还可以用于:将所述待处理图像的y、u和v通道的频域信息进行级联。

进一步地,在上述任一实施例的基础上,所述第一编码参数包括典型量化参数设计、量化表设计、特征变换精度设计、码率控制的比例设计中的至少一项。

进一步地,在上述任一实施例的基础上,所述处理器在将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码时,可以用于:将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像的频域信息进行量化处理和熵编码处理。

进一步地,在上述任一实施例的基础上,所述处理器在将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述待处理图像进行编码时,可以用于:将所述第一编码参数发送至所述图像编码器,以使所述图像编码器根据所述第一编码参数对所述频域信息进行量化处理并生成所述待处理图像的量化信息。

进一步地,在上述任一实施例的基础上,所述处理器还可以用于:获取所述待处理图像的量化信息;通过预设的第二神经网络模型对所述量化信息进行处理,获得所述待处理图像的第二编码参数;将所述第二编码参数发送至所述图像编码器,以使所述图像编码器根据所述第二编码参数对所述待处理图像进行编码。

进一步地,在上述任一实施例的基础上,所述处理器在将所述第二编码参数发送至所述图像编码器,以使所述图像编码器根据所述第二编码参数对所述待处理图像进行编码时,可以用于:将所述第二编码参数发送至所述图像编码器,以使所述图像编码器根据所述第二编码参数对所述量化信息进行熵编码处理。

进一步地,在上述任一实施例的基础上,所述第二神经网络包括依次连接的m个运算单元;其中,所述处理器在通过预设的第二神经网络模型对所述量化信息进行处理,获得所述待处理图像的第二编码参数时,可以用于:将所述量化信息输入至所述第二神经网络模型的第m个运算单元,通过所述第二神经网络模型的第m个运算单元输出所述第二编码参数;其中,m≥m;m为大于等于2的正整数。

进一步地,在上述任一实施例的基础上,所述第二神经网络模型可以包括如下至少一种:vgg-16模型,vgg-19模型,resnet模型,googlenet模型。

进一步地,在上述任一实施例的基础上,所述第二编码参数可以包括典型量化参数设计、量化表设计、码率控制的比例设计中的至少一项。

进一步地,在上述任一实施例的基础上,所述处理器还可以用于:所述图像编码器根据所述第一编码参数对所述待处理图像进行编码,获得所述待处理图像的码流信息。

进一步地,在上述任一实施例的基础上,所述处理器还可以用于:利用图像解码器对所述码流信息执行解码操作,获得重建的待处理图像。

另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的图像处理方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1