多媒体数据处理方法及装置、计算机可读存储介质与流程

文档序号：16520172发布日期：2019-01-05 09:54阅读：149来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及数据处理技术领域，尤其涉及一种多媒体数据处理方法及装置、计算机可读存储介质。

背景技术：

随着第五代移动通信网络的商用，数据传输速率的不断加快，人们对计算机的视觉需求已经从静态的图像转向了动态的视频。目前，为了实现多样化的功能，用户对视频中的特定内容进行转换的需求十分巨大。

相关技术种是通过识别视频的内容，对用户选中的内容直接进行替换；这样，进行了内容替换的视频，其相邻图像帧之间的像素值容易出现抖动或不规律的情况，导致整个视频的画面不够协调自然，进而无法保持视频的空间一致性。

技术实现要素：

为解决上述技术问题，本发明实施例提供了一种多媒体数据处理方法及装置、计算机可读存储介质。

第一方面，本发明实施例提供一种多媒体数据处理方法，包括：

获取待处理视频中每帧图像的待转换信息；其中，所述待转换信息用于指示所述每帧图像中需要转换的区域；

将所述每帧图像的待转换信息转换为目标信息，得到转换后的每帧图像的图像信息；

基于第一模型对所述转换后的每帧图像的图像信息进行处理，得到处理后的视频，以使得所述处理后的视频中，相邻图像帧之间相同位置的像素具有连续性。

第二方面，本发明实施例提供一种多媒体数据处理装置，所述装置包括：

获取单元，用于获取待处理视频中每帧图像的待转换信息；其中，所述待转换信息用于指示所述每帧图像中需要转换的区域；

转换单元，用于将所述每帧图像的待转换信息转换为目标信息，得到转换后的每帧图像的图像信息；

处理单元，用于基于第一模型对所述转换后的每帧图像的图像信息进行处理，得到处理后的视频，以使得所述处理后的视频中，相邻图像帧之间相同位置的像素具有连续性。

第三方面，本发明实施例提供一种多媒体数据处理装置，所述装置包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器配置为运行所述计算机程序时，执行第一方面所述多媒体数据处理方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现上述多媒体数据处理方法的步骤。

本发明实施例提供的多媒体数据处理方法及装置、计算机可读存储介质，首先获取待处理视频中每帧图像的待转换信息；其中，所述待转换信息用于指示所述每帧图像中需要转换的区域；接着，将所述每帧图像的待转换信息转换为目标信息，得到转换后的每帧图像的图像信息；最后，基于第一模型对所述转换后的每帧图像的图像信息进行处理，得到处理后的视频，以使得所述处理后的视频中，相邻图像帧之间相同位置的像素具有连续性。这样，通过对待处理视频中选取的内容进行转换，并将转换后的图像信息通过具有控制相邻图像帧像素连续功能的模型中进行处理；如此，经过处理后视频的每帧图像的像素能够保持连续，提高了内容转换后视频的空间一致性，保证了视频画面的协调性。

附图说明

图1为本发明实施例提供的一种多媒体数据处理方法的流程示意图；

图2为本发明实施例提供的一种训练第一模型的方法流程示意图；

图3为本发明实施例提供的另一种多媒体数据处理方法流程示意图；

图4为本发明实施例提供的一种多媒体数据处理装置的结构组成示意图；

图5为本发明实施例提供的一种多媒体数据处理装置的硬件结构组成示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

图1为本发明实施例提供的多媒体数据处理方法的流程示意图，如图1所示，所述多媒体数据处理方法包括以下步骤：

步骤101、获取待处理视频中每帧图像的待转换信息。

其中，所述待转换信息用于指示所述每帧图像中需要转换的区域。

在本发明的其他实施例中，步骤101获取待处理视频中每帧图像的待转换信息可以由任意类型的电子设备来实现。在实际应用中，所述电子设备可以包括：智能手机、平板电脑、笔记本电脑、个人计算机等电子设备。在上述方案中，待处理视频可以是电子设备中存储的任意一个视频；其中，所述待处理视频中至少包括一个图像帧。

在本实施例中，为了实现对待处理视频中的内容进行转换的目的，电子设备首先需要识别出待处理视频所包含的内容，例如人物、动物、树木等内容；进而基于识别出来的内容进行有目的地转换。一般情况下，视频可以认为是图像帧的集合，识别待处理视频中包含的内容也就是识别待处理视频的图像帧中包含的内容。在上述方案中，电子设备可以将图像帧进行图像分割来得到图像帧中包含的内容；这里，图像分割是指是将图像细分为若干个特定的、具有独特性质的图像子区域的过程。对上述待处理视频中每帧图像进行图像分割后，得到每个图像帧的分割信息。

在本发明的其他实施例中，待转换信息是指一个图像帧中需要转换的区域；也就是说，待转换信息可以是用户从分割信息中选择的需要被替换的信息。

步骤102、将所述每帧图像的待转换信息转换为目标信息，得到转换后的每帧图像的图像信息。

其中，步骤102将所述每帧图像的待转换信息转换为目标信息，得到转换后的每帧图像的图像信息可以由电子设备来实现。这里，目标信息可以是用户需求的任意类型的图像区域；需要说明的是，目标信息可以是图像帧中没有的信息，也可以是图像帧中本身具有的信息。当所述目标信息为图像帧中没有的信息时，步骤102可以实现将待转换信息删除，转换为新信息的功能，例如，将图像中的树木信息转换为图像中本身就不存在的动物信息。另外，当所述目标信息为图像帧中本身具有的信息时，步骤102可以实现图像帧中两个区域互相转换的功能；例如，图像帧中包括树木信息和人物信息，将树木信息转换为人物信息，将人物信息转换为树木信息。

在本发明的其他实施例中，所述转换后的每帧图像的图像信息可以包括替换后的分割信息；可以理解为，每帧图像的图像信息是指合并之前的独立的图像区域。

步骤103、基于第一模型对所述转换后的每帧图像的图像信息进行处理，得到处理后的视频，以使得所述处理后的视频中，相邻图像帧之间相同位置的像素具有连续性。

在本发明的其他实施例中，步骤103基于第一模型将所述转换后的每帧图像的图像信息进行处理，得到处理后的视频，以使得所述处理后的视频中，相邻图像帧之间相同位置的像素具有连续性可以由电子设备来实现。所述步骤103，可以认为是将第一模型部署于电子设备中，当电子设备接收到视频内容转换指令时，自动启动所述第一模型对应的功能，将转换后的每帧图像的图像信息输入到训练好的第一模型中，得到处理后的视频。这里，所述第一模型可以是基于生成式对抗网络(generativeadversarialnetworks，gan)原理得到。

在本发明的其他实施例中，所述第一模型是通过采用预设的图像训练信息和所述预设的图像训练信息对应的正常视频训练得到的。其中，所述图像训练信息至少包括n帧图像替换后的区域；n为大于1的整数。具体地，所述图像训练信息中可以包括很多个独立的图像区域；这些独立的图像区域可以认为是图像的分割信息，上述所有独立的图像区域能够组成n个图像帧。进一步，这些独立的图像区域中可以包括替换后的区域。例如，预设的图像训练信息可以包括独立的树木图像区域，人物图像区域和动物图像区域，其中，所述动物图像区域是经过替换后得到的图像区域；所述树木图像区域，人物图像区域和动物图像区域能够组成多个图像帧。在上述方案中，所述预设的正常视频由所述预设的图像训练信息构成；并且，所述正常视频的相邻图像帧之间相同位置的像素具有连续性；所述相邻图像帧之间的像素具有连续性可以指，视频中相邻两个图像帧的相同位置的像素值变化不超过规定的像素阈值。

进一步，将上述预设的图像训练信息和所述预设的图像训练信息对应的正常视频作为训练样本，输入gan中进行训练，得到训练好的第一模型。这样，所述第一模型能够控制相邻图像帧之间相同位置的像素保持连续性。

本发明实施例提供的多媒体数据处理方法，通过对待处理视频中选取的内容进行转换，并将转换后的图像信息通过具有控制相邻图像帧像素连续功能的模型中进行处理；如此，经过处理后视频的相邻图像帧之间相同位置的像素能够保持连续，提高了内容转换后视频的空间一致性，保证了视频画面的协调性。

图2为本发明提供的一种第一模型的训练方法实现流程示意图，如图2所示，所述方法包括以下步骤：

步骤21、将所述图像训练信息输入至待训练第一模型中，得到第一输出视频。

在本实施例中，可以使用gan原理来得到第一模型。其中，所述gan是一种深度学习模型，包括生成网络和判别网络；生成网络用于生成样本数据，而判别网络用于判断生成网络生成的样本数据与实际数据是否匹配。gan可以在生成网络和判别网络进行连续的博弈与竞争中，生成网络生成与真实数据不可区分的数据。

这里，可以认为第一模型为gan中的生成网络，能够根据输入的图像训练信息生成任意一个第一输出视频。接着，根据所述第一输出视频对待训练第一模型进行训练。

步骤22、基于所述第一输出视频和所述图像训练信息对应的正常视频，得到所述第一模型。

在本发明的其他实施例中，可以将所述第一输出视频与图像训练信息对应的正常视频输入gan的判别网络中进行判别，若判别结果符合预设的条件，则得到所述第一模型；若判别结果不符合预设的条件，则第一模型重新根据上述图像训练信息生成另外一个第一输出视频，将这个新的第一输出视频和图像训练信息对应的正常视频输入gan的判别网络进行判别，若判别结果符合预设的条件，则得到训练好的第一模型；若判别结果不符合预设的条件，第一模型重新生成再一个第一输出视频，直至第一模型生成的第一输出视频通过了判别网络的判别。

另外，为了防止生成的第一输出视频相邻图像帧之间的像素发生突变和不连续的情况，可以在训练的过程中，加入空间一致性数据对第一模型进行训练。其中，空间一致性信息可以是对应图像中像素点的属性信息。

具体地，在本发明的其他实施例中，步骤22可以包括：

基于所述图像训练信息，获取所述n帧图像中每帧图像对应的空间一致性数据；

基于所述空间一致性数据、所述第一输出视频和所述图像训练信息对应的正常视频，得到所述第一模型。

在上述方案中，所述空间一致性数据用于表征对应图像中像素点的属性信息。这里，像素点的属性信息可以包括该像素点周围的一定范围内所有像素点的像素值的均值和方差。在本实施例中，图像训练信息可以构成n帧图像；因此，可以获取所述n帧图像中的每帧图像的像素点属性信息，得到空间一致性数据。

具体地，所述基于所述空间一致性数据、所述第一输出视频和所述图像训练信息对应的正常视频，得到所述第一模型，包括：

基于所述空间一致性数据，判断所述第一输出视频与所述图像训练信息对应的正常视频是否匹配；

若所述第一输出视频与所述图像信息对应的正常视频匹配，得到所述第一模型。

在上述方案中，可以使用预设的损失函数来判断所述第一输出视频与所述图像训练信息对应的正常视频是否匹配；这里的预设损失函数可以是平方损失函数、对数损失函数等；所述损失函数用于评估模型的预测值与真实值之间的差距。在本发明的其他实施例中，空间一致性数据可以作为损失函数的正则项参与训练。可以理解为，空间一致性数据可以作为限定条件，添加至损失函数中，对第一模型生成的第一输出视频进行判定。示例性地，若图像训练信息中第2个图像帧中某个像素点周围一定范围内所有像素点的像素值均值和方差分别a和b，那么我们可以限定生成的第一输出视频中第3帧图像对应像素点附近所有点的均值和方差也为a和b；可以将上述对像素点的限定条件作为正则项加入到损失函数中对第一模型进行调整。

进一步，当损失函数判定所述第一输出视频与所述图像信息对应的正常视频匹配时，可以得到第一模型。

基于前述实施例，本发明实施例提供了一种多媒体数据处理方法，如图3所示，所述方法包括以下步骤：

步骤301、电子设备获取待处理视频对应的每帧图像。

在本实施例中，电子设备可以接收用户针对待处理视频发送的视频切换指令，对所述待处理视频进行解析，将所述待处理视频切割为一帧一帧的图像帧。

步骤302、电子设备将所述每帧图像输入到训练好的第二模型中，得到每帧图像对应的分割信息。

在本实施例中，在对图像帧中的内容进行转换之前，需要对图像帧中内容进行识别。电子设备可以将图像帧进行图像分割来得到图像帧中包含的内容；这里，图像分割是指是将图像细分为若干个特定的、具有独特性质的图像子区域的过程。对上述待处理视频中每帧图像进行图像分割后，得到每个图像帧的分割信息。

在本发明的其他实施例中，可以通过第二模型来实现图像分割。其中，第二模型可以通过全卷积神经网络(fullyconvolutionalneuralnetwork，fcn)原理训练得到。

具体地，第二模型可以通过以下方式训练得到：

将初始图像作为样本图像和所述初始图像对应的分割信息输入待训练的fcn模型中，得到第一输出结果；

根据所述第一输出结果调整所述fcn模型，得到训练后的第二模型。

在本发明的其他实施例中，所述初始图像是为未经过图像分割的完整的图像，所述分割信息为对所述初始图像进行了图像分割后得到的分割信息。需要说明的是，所述初始图像和初始图像对应的分割信息可以通过网络爬虫技术从互联网中获取得到。通过将所述初始图像作为样本图像和所述初始图像对应的分割信息输入待训练的第二模型中，得到第一输出结果。进一步，可以利用损失函数，将第一输出结果和初始图像对应的分割信息之间的差值；然后基于所述差值，调整所述第二模型。

也就是说，首先，利用所述预设的损失函数，确定所述第一输出结果和初始图像对应的分割信息之间的差值，然后将该差值反馈到fdn的每一层，并根据这个差值对每一层进行调整，以使得fcn模型输出的分割信息与初始图像对应的分割信息相同，最终得到训练好的第二模型。

步骤303、电子设备基于所述分割信息，确定所述待处理多媒体数据中每帧图像的待转换信息。

步骤304、电子设备将所述每帧图像的待转换信息转换为目标信息，得到转换后的每帧图像的图像信息。

步骤305、电子设备基于第一模型对所述转换后的每帧图像的图像信息进行处理，得到处理后的视频，以使得所述处理后的视频中，相邻图像帧之间相同位置的像素具有连续性。

需要说明的是，本实施例中与其他实施例中相同步骤或相关概念的解释可以参照其他实施例中的描述，此处不再赘述。

本发明实施例提供的多媒体数据处理方法，通过对待处理视频中选取的内容进行转换，并将转换后的图像信息通过具有控制相邻图像帧像素连续功能的模型中进行处理；如此，经过处理后视频的每帧图像的像素能够保持连续，提高了内容转换后视频的空间一致性，保证了视频画面的协调性。

为实现本发明实施例的方法，本发明实施例提供了一种多媒体数据处理装置；所述多媒体数据处理装置能够应用于上述实施例的电子设备中。如图4所示，所述装置包括：

获取单元41，用于获取待处理视频中每帧图像的待转换信息；其中，所述待转换信息用于指示所述每帧图像中需要转换的区域；

转换单元42，用于将所述每帧图像的待转换信息转换为目标信息，得到转换后的每帧图像的图像信息；

处理单元43，用于基于第一模型对所述转换后的每帧图像的图像信息进行处理，得到处理后的视频，以使得所述处理后的视频中，相邻图像帧之间相同位置的像素具有连续性。

在本发明的其他实施例中，所述第一模型通过采用预设的图像训练信息和所述预设的图像训练信息对应的正常视频训练得到；

其中，所述预设的正常视频由所述预设的图像训练信息构成；所述正常视频的相邻图像帧之间的像素具有连续性；

所述图像训练信息至少包括n帧图像替换后的区域；所述n为大于1的整数。

在本发明的其他实施例中，所述装置还可以包括训练单元44；其中，所述训练单元用于将所述图像训练信息输入至待训练第一模型中，得到第一输出视频；基于所述第一输出视频和所述图像训练信息对应的正常视频，得到所述第一模型。

在本发明的其他实施例中，所述训练单元44，具体用于基于所述图像训练信息，获取所述n帧图像中每帧图像对应的空间一致性数据；其中，所述空间一致性数据用于表征对应图像中像素点的属性信息；基于所述空间一致性数据、所述第一输出视频和所述图像训练信息对应的正常视频，得到所述第一模型。

在本发明的其他实施例中，所述训练单元44，还用于基于所述空间一致性数据，判断所述第一输出视频与所述图像训练信息对应的正常视频是否匹配；若所述第一输出视频与所述图像信息对应的正常视频匹配，得到所述第一模型。

在本发明的其他实施例中，所述获取单元41还用于获取待处理视频对应的每帧图像；

所述处理单元43，还用于将所述每帧图像输入到训练好的第二模型中，得到每帧图像对应的分割信息；基于所述分割信息，确定所述待处理多媒体数据中每帧图像的待转换信息。

基于上述多媒体数据处理装置中各单元的硬件实现，为了实现本发明实施例提供的多媒体数据处理方法，本发明实施例还提供了一种多媒体数据处理装置，如图5所示，所述装置50包括：处理器51和配置为存储能够在处理器上运行的计算机程序的存储器52，

其中，所述处理器51配置为运行所述计算机程序时，执行前述实施例中的方法步骤。

需要说明的是，实际应用时，终端中的各个组件通过通信总线53耦合在一起。可理解，通信总线53用于实现这些组件之间的连接通信。通信总线53除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为通信总线53。

这里，需要说明的是，所述终端通常为具有前置双摄或者后置双摄功能的移动终端，所述移动终端可以以各种形式来实施。例如，本申请一示例性实施例中所描述的移动终端可以包括手机、平板电脑、掌上电脑、个人数字助理(personaldigitalassistant，pda)等。

对应地，本申请一示例性实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的暗光图像处理方法中的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请一示例性实施例的实施过程构成任何限定。上述本申请一示例性实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本申请一示例性实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(readonlymemory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请一示例性实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得终端执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张弓
技术所有人：OPPO广东移动通信有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。