视频图像的处理方法、装置和终端设备与流程

文档序号:12917559阅读:265来源:国知局
视频图像的处理方法、装置和终端设备与流程

本发明实施例涉及人工智能技术领域,尤其涉及一种视频图像的处理方法、装置和终端设备。



背景技术:

随着互联网技术的发展,文字、图片和视频等皆可以视频的形式实现在视频直播平台中直播。视频直播平台中的视频通常以人物为主角(单一人物或少量人物),在人物的后方是视频的背景区域。

然而,现有的视频直播平台中视频的背景区域是固定不变的,而且固定不变的背景区域无法吸引观众的注意,甚至会对视频直播的内容产生影响。



技术实现要素:

本发明实施例提供了视频图像的处理技术方案。

根据本发明实施例的一个方面,提供了一种视频图像的处理方法,包括:检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制所述业务对象,以使所述业务对象覆盖所述视频图像中的背景区域的原始内容。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述检测视频图像中的背景区域包括:通过预先训练的卷积神经网络模型检测所述视频图像的背景区域。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述对所述卷积神经网络模型的预先训练包括:获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;对所述特征向量进行卷积处理,获取特征向量卷积结果;对所述特征向量卷积结果进行放大处理;判断放大后的所述特征向量卷积结果是否满足收敛条件;若满足,则完成对所述卷积神经网络模型的训练;若不满足,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述对所述特征向量卷积结果进行放大处理包括:通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述对所述特征向量卷积结果进行放大处理包括:将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述判断放大后的所述特征向量卷积结果是否满足收敛条件包括:使用设定的损失函数计算放大后的所述特征向量卷积结果和设定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述方法还包括:获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;检验预测的前背景区域是否正确;若不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述使用所述测试样本图像对所述卷积神经网络模型进行再次训练包括:从所述测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述获取待训练的样本图像的特征向量之前,所述方法还包括:将包括多帧样本图像的视频流输入所述卷积神经网络模型。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,所述方法还包括:确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述卷积神经网络模型为全卷积神经网络模型。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述业务对象包括以下至少之一:目标视频、目标图像、目标特效。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述方法还包括:获取待显示的所述业务对象。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述获取待显示的所述业务对象包括:从预定存储位置获取所述业务对象,或者从视频源接收所述业务对象。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述视频图像为直播类视频图像。

可选地,结合本发明实施例提供的任一种视频图像的处理方法,其中,所述直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。

根据本发明实施例的另一个方面,提供了一种视频图像的处理装置,包括:检测模块,用于检测视频图像中的背景区域;确定模块,用于确定待显示的业务对象;绘制模块,用于采用计算机绘图方式在确定出的背景区域绘制所述业务对象,以使所述业务对象覆盖所述视频图像中的背景区域的原始内容。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述检测模块,用于通过预先训练的卷积神经网络模型检测所述视频图像的背景区域。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述装置还包括:训练模块,用于对所述卷积神经网络模型预先训练;所述训练模块包括:向量获取模块,用于获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;卷积获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;放大模块,用于对所述特征向量卷积结果进行放大处理;判断模块,用于判断放大后的所述特征向量卷积结果是否满足收敛条件;执行模块,用于若所述判断模块的判断结果为满足收敛条件,则完成对所述卷积神经网络模型的训练;若所述判断模块的判断结果为不满足收敛条件,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述放大模块,用于通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述放大模块,用于将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述判断模块,用于使用设定的损失函数计算放大后的所述特征向量卷积结果和设定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述训练模块还包括:预测模块,用于获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;检验模块,用于检验预测的前背景区域是否正确;再训练模块,用于若所述检验模块的检验结果为不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述再训练模块,用于若所述检验模块的检验结果为不正确,则从所述测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述待训练的样本图像包括至少一个视频序列的样本图像,其中,每个视频序列的样本图像包括时间上连续的多张图像。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述训练模块还包括:视频流模块,用于在所述向量获取模块获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入所述卷积神经网络模型。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述训练模块还包括:标注模块,用于在所述视频流模块将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述卷积神经网络模型为全卷积神经网络模型。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述业务对象包括以下至少之一:目标视频、目标图像、目标特效。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述装置还包括:获取模块,用于获取待显示的所述业务对象。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述获取模块,用于从预定存储位置获取所述业务对象,或者从视频源接收所述业务对象。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述视频图像为直播类视频图像。

可选地,结合本发明实施例提供的任一种视频图像的处理装置,其中,所述直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。

根据本发明实施例的再一方面,还提供了一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行前述任一所述的视频图像的处理方法对应的操作。

根据本发明实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于检测视频图像中的背景区域的可执行指令;用于确定待显示的业务对象的可执行指令;用于采用计算机绘图方式在确定出的背景区域绘制所述业务对象,以使所述业务对象覆盖所述视频图像中的背景区域的原始内容的可执行指令。

根据本发明实施例提供的技术方案,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。

附图说明

图1是根据本发明实施例一的视频图像的处理方法的步骤流程图;

图2是根据本发明实施例二的视频图像的处理方法的步骤流程图;

图3是根据本发明实施例三的视频图像的处理装置的结构框图;

图4是根据本发明实施例四的视频图像的处理装置的结构框图;

图5是根据本发明实施例五的终端设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。

本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。

实施例一

参照图1,示出了根据本发明实施例一的视频图像的处理方法的步骤流程图。可以在例如图3所示的视频图像的处理装置或包括该处理装置的终端设备中执行实施例一的视频图像的处理方法。

本实施例的视频图像的处理方法包括以下步骤。

步骤s100、检测视频图像中的背景区域。

本实施例中,视频图像可以是直播场景中当前正在显示的视频图像;视频图像还可以视频录制场景中当前正在录制的视频图像;视频图像又可以是录制完成的视频中当前播放的视频图像等。本实施例对视频图像的具体场景以及具体形式不做限制。

本实施例中,可以从视频图像中检测视频图像的前景区域和背景区域;或者,可以从视频图像中直接检测视频图像的背景区域;或者可以从视频图像中检测视频图像的前景区域,然后将视频图像的前景区域以外的区域确定为视频图像的背景区域。本实施例对检测视频图像的背景区域的技术手段不做限制。

步骤s102、确定待显示的业务对象。

待显示的业务对象用于在后续绘制的步骤中绘制在视频图像的背景区域,目的是使业务对象覆盖视频图像的背景区域中的原始内容。因此,待显示的业务对象可以包括多种形式,本实施例对业务对象的具体形式不做限制。例如,待显示的业务对象为包含沙滩场景的图片a,视频图像的背景区域中的原始内容为包含室内场景的图片b。

步骤s104、采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。

在确定了背景区域以后,采用计算机绘图方式将业务对象绘制在视频图像的背景区域。需要说明的是,采用计算机绘图方式将业务对象绘制在视频图像的背景区域即采用计算机绘图方式将业务对象绘制在视频图像的整个背景区域。实现绘制业务对象后的背景区域替换背景区域的原始内容。例如,视频图像的背景区域为一幅室内场景图片,业务对象为一幅瀑布图片,绘制业务对象后的背景区域中显示的是一幅瀑布图片,而不是原始的室内场景图片,同时,视频图像的前景区域可以保持不变。

其中,采用计算机绘图方式在确定出的背景区域绘制业务对象可以通过适当的计算机图形图像绘制或渲染等方式实现,包括但不限于:基于opengl图形绘制引擎进行绘制等。opengl定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口,其与硬件无关,可以方便地进行2d或3d图形图像的绘制。通过opengl,不仅可以实现2d效果如2d贴纸的绘制,还可以实现3d特效的绘制及粒子特效的绘制等等。但不限于opengl,其它方式,如unity或opencl等也同样适用。

需要说明的是,上述步骤s100和步骤s102之间的执行顺序可以为先执行步骤s100,后执行步骤s102;还可以为先执行步骤s102,后执行步骤s100;或者可以为同时执行步骤s100和步骤s102,本实施例对步骤s100和步骤s102的执行顺序不做限制,本实施例仅以先执行步骤s100,后执行步骤s102为例进行说明。

通过本实施例提供的视频图像的处理方法,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。

实施例二

参照图2,示出了根据本发明实施例二的视频图像的处理方法的步骤流程图。可以在例如图4所示的视频图像的处理装置或包括该处理装置的终端设备中执行实施例二的视频图像的处理方法。

本实施例的视频图像处理方法可以由任意具有数据采集、处理和传输功能的设备执行,包括但不限于移动终端和pc等。本实施例以移动终端为例,对本发明实施例提供的视频图像的处理方法进行说明,其它设备可参照本实施例执行。

本实施例重点强调与上述实施例的不同之处,相同之处可以参照上述实施例的介绍和说明,在此不再赘述。

本实施例的视频图像的处理方法包括以下步骤。

步骤s200、获取待显示的业务对象。

待显示的业务对象用于在后续绘制的步骤中绘制在视频图像的背景区域,目的是使业务对象覆盖视频图像的背景区域中的原始内容。因此,待显示的业务对象可以包括多种形式,具体地,业务对象可以为目标视频、目标图像或者目标特效中的任意一种。例如,目标视频可以为景象视频,既可以为录制完毕的景象视频,又可以为正在直播的景象视频;目标视频还可以为体育视频,既可以为录制完毕的体育视频,又可以为正在直播的体育视频。本实施例对目标视频的具体形式和内容不做限制。目标特效可以为包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效等等。

本步骤中,获取待显示的业务对象包括:从预定存储位置获取业务对象,或者从视频源接收业务对象。例如,业务对象存储在移动终端本地,可以从移动终端本地直接读取业务对象,本地存储的业务对象可以为上述介绍的目标视频、目标图像、目标特效中的任意一种或者几种;当业务对象为目标视频时,可以从视频源接收目标视频,若目标视频为直播视频,则可以从直播摄影机接收直播视频。

步骤s202、通过预先训练的卷积神经网络模型检测视频图像的背景区域。

本实施例中,使用已训练好的、用于分割视频图像中的前景区域和背景区域的卷积神经网络模型,对视频图像进行检测,确定其背景区域。用于分割视频图像中的前景区域和背景区域的卷积神经网络模型通过标注有前景区域和背景区域的样本图像进行训练后,能够准确且高效地确定视频图像中的前景区域和背景区域。

当需要预先训练卷积神经网络模型时,一种可行的训练方式包括以下过程:

(1)获取待训练的样本图像的特征向量。

其中,待训练的样本图像为包含有前景标注信息和背景标注信息的样本图像,也即,待训练的样本图像为已标记了前景区域和背景区域的样本图像。本实施例中,前景区域可以为图像主体所在区域,例如人物所在区域;背景区域可以为除了主体所在区域外的其它区域,可以是其它区域中的全部或者部分。

在一种优选的实施方式中,待训练的样本图像可以包括至少一个视频流的多帧样本图像。因此,在此方式中,在获取待训练的样本图像的特征向量之前,还需要将包括多帧样本图像的视频流输入卷积神经网络模型。在实现时,一种可行方式包括:先确定视频流的多个关键帧的图像为样本图像,对这些样本图像进行前景区域和背景区域的标注;在此基础上,将进行了标注的样本图像进行组合,再将组合后的包括多帧进行了标注的样本图像的视频流输入卷积网络模型。其中,对视频流抽取关键帧,并对抽取的关键帧进行标注均可以由本领域技术人员采用任意适当的方式实现,如通过均匀采样的方式抽取关键帧等。在抽取了关键帧后,可以结合视频上下文对抽取的关键帧标注区分前景和背景,得到精确的标注边界。将进行了标注后的样本图像作为待训练的样本图像,提取其特征向量。

此外,本步骤中,对特征向量的提取可以采用相关技术中的适当方式实现,本实施例在此不再赘述。

(2)对特征向量进行卷积处理,获取特征向量卷积结果。

获取的特征向量卷积结果中包含有用于分辨视频图像的前景区域和背景区域的信息。

对特征向量的卷积处理次数可以根据实际需要进行设定,也即,卷积网络模型中,卷积层的层数根据实际需要进行设置,最终的特征向量卷积结果满足获得的特征能够足够表征区分前景和背景的标准(如交并比大于90%)即可。

卷积结果是对特征向量进行了特征提取后的结果,该结果能够有效表征视频图像中前景区域和背景区域的特征和分类。

(3)对特征向量卷积结果进行放大处理。

一种可行方式中,对特征向量卷积结果的放大可以采用线性插值的方式,包括但不限于线性插值、双线性插值、三线性插值等。其中,具体的线性插值公式可以由本领域技术人员根据实际需要采用适当的公式,本实施例对此不做限制。优选地,可以通过对特征向量卷积结果进行双线性插值来放大特征向量卷积结果。通过对特征向量卷积结果进行放大处理,可以得到与用于训练的原始图像同样大小的输出图像,获得每一个像素点的特征信息,以更为精确地确定图像的前景区域和背景区域。同时,通过对卷积处理后的特征向量的放大处理,卷积神经网络模型可以学习到一个较为准确的放大系数,基于该放大系数和放大后的特征向量,可以减少卷积神经网络模型的参数调整和计算量,降低卷积神经网络模型训练成本,提高训练效率,缩短训练时间。

本实施例中,在获得特征向量卷积结果后,通过线性插值层对特征向量卷积结果进行双线性插值,以放大卷积处理后的图像特征,并得到的原始图像同样大小(图像长宽相同)的输出。需要说明的是,本实施例中对双线性插值的具体实现手段不做限制。

(4)判断放大后的特征向量卷积结果是否满足收敛条件。

其中,收敛条件可以由本领域技术人员根据实际需求适当设定。当满足收敛条件时,可以认为卷积神经网络模型中的参数设置适当;当不能满足收敛条件时,可以认为卷积神经网络模型中的参数设置不适当,需要对其进行调整,该调整是一个迭代的过程,直至使用调整后的参数(如,卷积核的值、层间输出线性变化的权重,等等)对特征向量进行卷积处理的结果满足收敛条件。

本实施例中,在通过线性插值层对特征向量卷积结果进行放大后,在损失层使用损失函数对其进行计算,进而根据计算结果确定是否满足收敛条件。也即,使用设定的损失函数计算放大后的特征向量卷积结果的损失值;根据损失值判断放大后的特征向量卷积结果是否满足收敛条件。其中,损失层和损失函数可以根据实际情况由本领域技术人员适当设定,如通过softmax函数或者logistic函数等。通过损失函数对特征向量卷积结果进行计算,获得损失值。在获得损失值后,一种可行方式中,可以根据该损失值确定本次训练结果是否满足收敛条件,如该损失值是否小于或等于设定阈值;另一种可行方式中,可判断对该损失值的计算是否已达到设定次数,也即,在本次训练中对卷积神经网络模型的迭代训练次数是否已达到设定次数,如达到则满足收敛条件。其中,设定阈值可由本领域技术人员根据实际需要适当设置,本发明实施例对此不做限制。

需要说明的是,当输入的是视频流中的多帧图像时,损失层的损失函数也可以同时对该视频流中的多帧图像进行损失值计算,同时输出多帧的结果,使卷积神经网络模型在得到视频上更加稳定的结果的同时,通过多帧图像的并行计算,提升计算效率。

(5)若满足收敛条件,则完成对卷积神经网络模型的训练;若不满足收敛条件,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。

通过对卷积神经网络模型进行上述训练,卷积神经网络模型可以对视频图像的图像特征进行特征提取和分类,从而具有确定视频图像中的前景区域和背景区域的功能。在后续应用中,可以使用该卷积神经网络模型识别出视频图像中的背景区域,进而在该背景区域显示业务对象。

为了使训练的结果更为精准,在一种优选的实施方式中,可以通过测试样本测试该训练出的卷积神经网络模型是否准确,进而根据测试结果决定使用该卷积神经网络模型还是对该卷积神经网络模型进行再训练。在此方式中,在完成了对卷积神经网络模型的初步训练后,还可以获取测试样本图像,使用训练后的卷积神经网络模型对测试样本图像进行前背景区域的预测,其中,测试样本图像为未进行任何标注的样本图像;进而,检验预测的前背景区域是否正确;若不正确,则对卷积神经网络模型进行再次训练;若正确,则可以确定使用该卷积神经网络模型进行视频图像的前背景确定,或者,为了使卷积神经网络模型更为精准,再获取其它测试样本图像进行测试;或者,使用与原训练样本图像不同的样本图像进行再次训练。

当通过测试样本检验到使用卷积神经网络模型预测的前背景区域不正确时,需要对该卷积神经网络模型进行再次训练。在一种再次训练方式中,可以仅使用从测试样本图像中获取的前背景区域预测不正确的样本图像作为再次训练使用的样本图像;然后,使用这些预测不正确的样本图像对卷积神经网络模型进行再次训练。这些进行再次训练的样本在用于首次训练前,进行了前背景信息的标注。如,在这些样本中标注出前景区域和背景区域。通过将预测不正确的样本作为一个新的样本图像集对卷积神经网络进行再训练,不仅使得训练更有针对性,也大大节约了训练成本。当然,不限于此,在实际使用中,也可以使用其它进行了前背景标注的样本图像进行训练。

此外,在一种优选方式中,训练的卷积网络模型为全卷积网络模型,与具有全连接层的卷积网络模型相比,采用全卷积网络模型所需的卷积层参数少,训练速度更快。

本实施例中,一种具体的卷积神经网络模型结构的简要说明如下:

(1)输入层

例如,可以输入待训练的样本图像的特征向量,该特征向量中包含有样本图像的背景区域的信息,或者,该特征向量中包含有样本图像的前景区域的信息和背景区域的信息。

(2)卷积层

//第一阶段,对待训练的样本图像的特征向量进行卷积处理,获得卷积结果。

2.<=1卷积层1_1(3x3x64)

3.<=2非线性响应relu层

4.<=3卷积层1_2(3x3x64)

5.<=4非线性响应relu层

6.<=5池化层(3x3/2)

7.<=6卷积层2_1(3x3x128)

8.<=7非线性响应relu层

9.<=8卷积层2_2(3x3x128)

10.<=9非线性响应relu层

11.<=10池化层(3x3/2)

12.<=11卷积层3_1(3x3x256)

13.<=12非线性响应relu层

14.<=13卷积层3_2(3x3x256)

15.<=14非线性响应relu层

16.<=15卷积层3_3(3x3x256)

17.<=16非线性响应relu层

18.<=17池化层(3x3/2)

19.<=18卷积层4_1(3x3x512)

20.<=19非线性响应relu层

21.<=20卷积层4_2(3x3x512)

22.<=21非线性响应relu层

23.<=22卷积层4_3(3x3x512)

24.<=23非线性响应relu层

25.<=24池化层(3x3/2)

26.<=25卷积层5_1(3x3x512)

27.<=26非线性响应relu层

28.<=27卷积层5_2(3x3x512)

29.<=28非线性响应relu层

30.<=29卷积层5_3(3x3x512)

31.<=30非线性响应relu层

//第二阶段,对第一阶段获得的卷积结果进行插值放大,并进行损失函数的计算。

32.<=31线性差值层

33.<=32损失层,进行损失函数的计算

(3)输出层

第一,在通过前31层的处理获得特征向量后,线性插值层通过双线性插值法对前31层处理后的特征向量进行插值,以放大中间层特征,得到和训练的样本图像同样大小(图像长宽一样)的输出图像。

第二,本实施例中,33层的损失层采用softmax函数进行处理。一种可行的softmax函数如下:

其中,x表示输入的特征,j表示第j类别,y表示输出的类别,k表示总共类别数,k表示第k类别,wj表示第j类别的分类参数,xt表示x向量的转置,p(y=j|x)表示给定输入x,预测为第j类的概率。

但不限于此,在实际使用中,本领域技术人员也可以采用其它softmax函数,本发明实施例对此不做限制。

第三,上述卷积层对特征向量进行的处理是迭代多次进行的,每完成一次,就根据损失层计算出的结果调整卷积神经网络模型的参数(如卷积核的值、层间输出线性变化的权重,等等),基于参数调整后的卷积神经网络模型再进行处理,迭代多次,直至满足收敛条件。

第四,本实施例中,收敛条件可以是对卷积神经网络模型进行迭代训练的次数达到最大迭代次数,如10000~20000次。

第五,上述卷积神经网络模型对于视频图像的学习,可以单帧视频图像输入,也可以通过多帧视频图像同时输入,同时输出多帧视频图像的结果。即第一层输入层可以输入一帧视频图像,也可以是一个视频流,这个视频流包含多帧视频图像。

同样,最后一层损失层,可以针对一帧视频图像计算损失函数,也可以对视频流的多帧视频图像计算损失函数。

通过视频流方式的训练和学习,可以使卷积神经网络模型得到视频上更加稳定的结果,同时通过多帧视频图像的并行计算,提升计算效率。

其中,可以通过修改输入层和输出层的featuremap的大小实现多帧视频图像的同时输入和输出。

第六,上述卷积网络结构的说明中,2.<=1表明当前层为第二层,输入为第一层;卷积层后面括号为卷积层参数(3x3x64)表明卷积核大小为3x3,通道数为64;池化层后面括号(3x3/2)表明池化核大小为3x3,间隔为2。其它依此类推,不再赘述。

在上述卷积神经网络模型结构中,每个卷积层之后都有一个非线性响应单元,该非线性响应单元采用纠正线性单元relu(rectifiedlinearunits),通过在卷积层后增加上述纠正线性单元,将卷积层的映射结果尽量稀疏,更接近人的视觉反应,从而使图像处理效果更好。

将卷积层的卷积核设为3x3,能更好的综合局部信息。

设定池化层(maxpooling)的步长stride,使上层特征在不增加计算量的前提下获得更大的视野,同时池化层的步长stride还有增强空间不变性的特征,即允许同样的输入出现在不同的图像位置上,而输出结果响应相同。

线性差值层可以将之前的特征放大到原图大小,得到每个像素的预测值。

综上所述,该全卷积神经网络模型的卷积层可以用于信息归纳和融合,最大池化层(maxpooling)主要进行高层信息的归纳,该卷积神经网络结构可以进行微调来适应不同的性能和效率的权衡。

但本领域技术人员应当明了的是,上述卷积核的大小、通道数、池化核的大小、间隔以及卷积层的层数数量均为示例性说明,在实际应用中,本领域技术人员可以根据实际需要进行适应性调整,本发明实施例对此不做限制。此外,本实施例中的卷积神经网络模型中的所有层的组合及参数都是可选的,可以任意组合。

通过本实施例中的卷积神经网络模型,实现了对视频图像中前背景区域的有效分割。

步骤s204、采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。

在确定了背景区域以后,采用计算机绘图方式将业务对象绘制在视频图像的背景区域。需要说明的是,采用计算机绘图方式将业务对象绘制在视频图像的背景区域即采用计算机绘图方式将业务对象绘制在视频图像的整个背景区域。实现绘制业务对象后的背景区域替换背景区域的原始内容。例如,视频图像的背景区域为一幅室内场景图片,业务对象为一幅瀑布图片,绘制业务对象后的背景区域中显示的是一幅瀑布图片,而不是原始的室内场景图片,同时,视频图像的前景区域可以保持不变。

步骤s206、发送在背景区域绘制了业务对象的视频图像。

例如,上述步骤s200-s204在移动终端a上执行,可以在移动终端a上显示在背景区域绘制了业务对象的视频图像,以及/或者发送在背景区域绘制了业务对象的视频图像至移动终端b、移动终端c、服务器d等等。

除了上述当前设备直接将在背景区域绘制了业务对象的视频图像发送至其他设备以外,还可以直接在其他设备上绘制业务对象。具体可以先获取到待显示的业务对象,可以获取业务对象本身,还可以获取业务对象的属性信息,根据业务对象的属性信息,从业务对象的存储库中获取到业务对象本身;再绘制业务对象在视频图像的背景区域中。其中,业务对象的属性信息可以来源于包括视频图像和业务对象的属性信息的传输流。

需要说明的是,业务对象的存储库可以包括当前设备的业务对象的存储库和其他设备的业务对象的存储库。并且,当前设备的业务对象的存储库和其他设备的业务对象的存储库中的业务对象本身及业务对象的属性信息保持同步。业务对象的属性信息可以用于标识业务对象本身,一个业务对象的属性信息可以对应着唯一一个业务对象本身或者唯一一类业务对象本身。例如,业务对象的属性信息可以为具有唯一标识的编号等等。

上述各步骤可以应用在一种具体的应用场景中,例如,主播终端获取主播直播时的视频图像,其中,视频图像为直播类视频图像。从视频图像检测背景区域,在主播终端本地获取业务对象或者从第三方摄像机实时接收业务对象,采用计算机绘图方式在视频图像的背景区域绘制业务对象,在主播终端上显示绘制业务对象后的视频图像,并将绘制业务对象后的视频图像发送至服务器或者粉丝终端,在服务器进行中转或者存储,在粉丝终端进行显示。其中,直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。

需要说明的是,上述步骤s200和步骤s202之间的执行顺序可以为先执行步骤s200,后执行步骤s202;还可以为先执行步骤s202,后执行步骤s200;或者可以为同时执行步骤s200和步骤s202,本实施例对步骤s200和步骤s202的执行顺序不做限制,本实施例仅以先执行步骤s200,后执行步骤s202为例进行说明。

通过本实施例提供的视频图像的处理方法,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。

业务对象可以为目标视频、目标图像或者目标特效等等,在背景区域绘制业务对象后的视频图像,相对于传统的只包含纯粹为图片形式的背景区域的视频图像,丰富了背景区域的类型。而且,若在视频图像的背景区域绘制接收到的目标视频,实现了在视频图像的背景区域观看视频的效果。若业务对象的内容与视频图像的内容具有相关性,例如,业务对象为目标视频,目标视频为自由女神的介绍视频,主播在视频图像中正在介绍自由女神,则绘制业务对象后的背景区域可以作为视频图像的辅助显示,提升了视频图像的显示效果。

除了将在背景区域绘制了业务对象的视频图像在本地显示之外,还可以将在背景区域绘制了业务对象的视频图像发送至其他设备,例如,移动终端、pc、服务器或者平板电脑等等,可以实现在背景区域绘制了业务对象的视频图像的共享。

实施例三

参照图3,示出了根据本发明实施例三的视频图像的处理装置的结构框图。

本实施例的视频图像的处理装置包括:检测模块300,用于检测视频图像中的背景区域;确定模块302,用于确定待显示的业务对象;绘制模块304,用于采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。

通过本实施例提供的视频图像的处理装置,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。

实施例四

参照图4,示出了根据本发明实施例四的视频图像的处理装置的结构框图。

本实施例的视频图像的处理装置包括:检测模块400,用于检测视频图像中的背景区域;确定模块402,用于确定待显示的业务对象;绘制模块404,用于采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。

可选地,检测模块400,用于通过预先训练的卷积神经网络模型检测视频图像的背景区域。

可选地,本实施例的视频图像的处理装置还包括:训练模块406,用于对卷积神经网络模型预先训练。训练模块406包括:向量获取模块4060,用于获取待训练的样本图像的特征向量其中,样本图像为包含有前景标注信息和背景标注信息的样本图像;卷积获取模块4061,用于对特征向量进行卷积处理,获取特征向量卷积结果;放大模块4062,用于对特征向量卷积结果进行放大处理;判断模块4063,用于判断放大后的特征向量卷积结果是否满足收敛条件;执行模块4064,用于若判断模块4063的判断结果为满足收敛条件,则完成对卷积神经网络模型的训练;若判断模块4063的判断结果为不满足收敛条件,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。

可选地,放大模块4062,用于通过对特征向量卷积结果进行双线性插值,放大特征向量卷积结果。

可选地,放大模块4062,用于将特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。

可选地,判断模块4063,用于使用设定的损失函数计算放大后的特征向量卷积结果和预定的标准输出特征向量的损失值;根据损失值判断放大后的特征向量卷积结果是否满足收敛条件。

可选地,训练模块406还包括:预测模块4065,用于获取测试样本图像,使用训练后的卷积神经网络模型对测试样本图像进行前背景区域的预测;检验模块4066,用于检验预测的前背景区域是否正确;再训练模块4067,用于若检验模块4066的检验结果为不正确,则使用测试样本图像对卷积神经网络模型进行再次训练。

可选地,再训练模块4067,用于若检验模块4066的检验结果为不正确,则从测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对卷积神经网络模型进行再次训练,其中,对卷积神经网络模型进行再次训练的预测不正确的样本图像包含有前景信息和背景信息。

可选地,训练模块406还包括:视频流模块4068,用于在向量获取模块4060获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入卷积神经网络模型。

可选地,训练模块406还包括:标注模块4069,用于在视频流模块4068将包括多帧样本图像的视频流输入卷积神经网络模型之前,确定视频流的多个关键帧的图像为样本图像,对样本图像进行前景区域和背景区域的标注。

可选地,卷积神经网络模型为全卷积神经网络模型。

可选地,业务对象包括以下至少之一:目标视频、目标图像、目标特效。

可选地,本实施例的视频图像的处理装置还包括:获取模块408,用于获取待显示的业务对象。

可选地,获取模块408,用于从预定存储位置获取业务对象,或者从视频源接收业务对象。

可选地,视频图像为直播类视频图像。

可选地,直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。

本实施例的视频图像的处理装置用于实现前述多个方法实施例中相应的视频图像的处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。

此外,本实施例的视频图像的处理装置可以设置于适当的终端设备中,包括但不限于移动终端、pc等。

实施例五

参照图5,示出了根据本发明实施例五的终端设备的结构示意图,本发明具体实施例并不对终端设备的具体实现做限定。

如图5所示,该终端设备可以包括:处理器(processor)502、通信接口(communicationsinterface)504、存储器(memory)506、以及通信总线508。

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504,用于与其它设备比如其它客户端或服务器等的网元通信。

处理器502,用于执行程序510,具体可以执行上述方法实施例中的相关步骤。

具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。

处理器510可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路,或者是图形处理器gpu(graphicsprocessingunit)。终端设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu,或者,一个或多个gpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个gpu。

存储器506,用于存放程序510。存储器506可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作:检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。

在一种可选的实施方式中,程序510还用于使得处理器502通过预先训练的卷积神经网络模型检测视频图像的背景区域。

在一种可选的实施方式中,程序510还用于使得处理器502获取待训练的样本图像的特征向量,其中,样本图像为包含有前景标注信息和背景标注信息的样本图像;对特征向量进行卷积处理,获取特征向量卷积结果;对特征向量卷积结果进行放大处理;判断放大后的特征向量卷积结果是否满足收敛条件;若满足,则完成对卷积神经网络模型的训练;若不满足,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。

在一种可选的实施方式中,程序510还用于使得处理器502通过对特征向量卷积结果进行双线性插值,放大特征向量卷积结果。

在一种可选的实施方式中,程序510还用于使得处理器502将特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。

在一种可选的实施方式中,程序510还用于使得处理器502使用设定的损失函数计算放大后的特征向量卷积结果和预定的标准输出特征向量的损失值;根据损失值判断放大后的特征向量卷积结果是否满足收敛条件。

在一种可选的实施方式中,程序510还用于使得处理器502获取测试样本图像,使用训练后的卷积神经网络模型对测试样本图像进行前背景区域的预测;检验预测的前背景区域是否正确;若不正确,则使用测试样本图像对卷积神经网络模型进行再次训练。

在一种可选的实施方式中,程序510还用于使得处理器502从测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对卷积神经网络模型进行再次训练,其中,对卷积神经网络模型进行再次训练的预测不正确的样本图像包含有前景信息和背景信息。

在一种可选的实施方式中,程序510还用于使得处理器502在获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入卷积神经网络模型。

在一种可选的实施方式中,程序510还用于使得处理器502在将包括多帧样本图像的视频流输入卷积神经网络模型之前,确定视频流的多个关键帧的图像为样本图像,对样本图像进行前景区域和背景区域的标注。

在一种可选的实施方式中,卷积神经网络模型为全卷积神经网络模型。

在一种可选的实施方式中,业务对象包括以下至少之一:目标视频、目标图像、目标特效。

在一种可选的实施方式中,程序510还用于使得处理器502获取待显示的业务对象。

在一种可选的实施方式中,程序510还用于使得处理器502从预定存储位置获取业务对象,或者从视频源接收业务对象。

在一种可选的实施方式中,视频图像为直播类视频图像。

在一种可选的实施方式中,直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。

程序510中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。

通过本实施例提供的终端设备,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。

业务对象可以为目标视频、目标图像或者目标特效等等,在背景区域绘制业务对象后的视频图像,相对于传统的只包含纯粹为图片形式的背景区域的视频图像,丰富了背景区域的类型。而且,若在视频图像的背景区域绘制接收到的目标视频,实现了在视频图像的背景区域观看视频的效果。若业务对象的内容与视频图像的内容具有相关性,例如,业务对象为目标视频,目标视频为自由女神的介绍视频,主播在视频图像中正在介绍自由女神,则绘制业务对象后的背景区域可以作为视频图像的辅助显示,提升了视频图像的显示效果。

除了将在背景区域绘制了业务对象的视频图像在本地显示之外,还可以将在背景区域绘制了业务对象的视频图像发送至其他设备,例如,移动终端、pc、服务器或者平板电脑等等,可以实现在背景区域绘制了业务对象的视频图像的共享。

需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如cdrom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,ram、rom、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

本发明实施例提供了a1、一种视频图像的处理方法,包括:

检测视频图像中的背景区域;

确定待显示的业务对象;

采用计算机绘图方式在确定出的背景区域绘制所述业务对象,以使所述业务对象覆盖所述视频图像中的背景区域的原始内容。

a2、根据a1所述的方法,其中,所述检测视频图像中的背景区域包括:

通过预先训练的卷积神经网络模型检测所述视频图像的背景区域。

a3、根据a2所述的方法,其中,所述对所述卷积神经网络模型的预先训练包括:

获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;

对所述特征向量进行卷积处理,获取特征向量卷积结果;

对所述特征向量卷积结果进行放大处理;

判断放大后的所述特征向量卷积结果是否满足收敛条件;

若满足,则完成对所述卷积神经网络模型的训练;

若不满足,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。

a4、根据a3所述的方法,其中,所述对所述特征向量卷积结果进行放大处理包括:

通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。

a5、根据a3或a4所述的方法,其中,所述对所述特征向量卷积结果进行放大处理包括:

将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。

a6、根据a3-a5任一所述的方法,其中,所述判断放大后的所述特征向量卷积结果是否满足收敛条件包括:

使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;

根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。

a7、根据a3-a6任一所述的方法,其中,所述方法还包括:

获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;

检验预测的前背景区域是否正确;

若不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。

a8、根据a7所述的方法,其中,所述使用所述测试样本图像对所述卷积神经网络模型进行再次训练包括:

从所述测试样本图像中获取前背景区域预测不正确的样本图像;

使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。

a9、根据a3-a8任一所述的方法,其中,所述获取待训练的样本图像的特征向量之前,所述方法还包括:

将包括多帧样本图像的视频流输入所述卷积神经网络模型。

a10、根据a9所述的方法,其中,所述将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,所述方法还包括:

确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。

a11、根据a2-a10任一所述的方法,其中,所述卷积神经网络模型为全卷积神经网络模型。

a12、根据a1-a11任一所述的方法,其中,所述业务对象包括以下至少之一:目标视频、目标图像、目标特效。

a13、根据a1-a12任一所述的方法,其中,所述方法还包括:获取待显示的所述业务对象。

a14、根据a13所述的方法,其中,所述获取待显示的所述业务对象包括:

从预定存储位置获取所述业务对象,或者从视频源接收所述业务对象。

a15、根据a1-a14任一所述的方法,其中,所述视频图像为直播类视频图像。

a16、根据a15所述的方法,其中,所述直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。

本发明实施例还提供了b17、一种视频图像的处理装置,包括:

检测模块,用于检测视频图像中的背景区域;

确定模块,用于确定待显示的业务对象;

绘制模块,用于采用计算机绘图方式在确定出的背景区域绘制所述业务对象,以使所述业务对象覆盖所述视频图像中的背景区域的原始内容。

b18、根据b17所述的装置,其中,所述检测模块,用于通过预先训练的卷积神经网络模型检测所述视频图像的背景区域。

b19、根据b18所述的装置,其中,所述装置还包括:训练模块,用于对所述卷积神经网络模型预先训练;

所述训练模块包括:

向量获取模块,用于获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;

卷积获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;

放大模块,用于对所述特征向量卷积结果进行放大处理;

判断模块,用于判断放大后的所述特征向量卷积结果是否满足收敛条件;

执行模块,用于若所述判断模块的判断结果为满足收敛条件,则完成对所述卷积神经网络模型的训练;若所述判断模块的判断结果为不满足收敛条件,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。

b20、根据b19所述的装置,其中,所述放大模块,用于通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。

b21、根据b19或b20所述的装置,其中,所述放大模块,用于将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。

b22、根据b19-b21任一所述的装置,其中,所述判断模块,用于使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。

b23、根据b19-b22任一所述的装置,其中,所述训练模块还包括:

预测模块,用于获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;

检验模块,用于检验预测的前背景区域是否正确;

再训练模块,用于若所述检验模块的检验结果为不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。

b24、根据b23所述的装置,其中,所述再训练模块,用于若所述检验模块的检验结果为不正确,则从所述测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。

b25、根据b19-b24任一所述的装置,其中,所述训练模块还包括:

视频流模块,用于在所述向量获取模块获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入所述卷积神经网络模型。

b26、根据b25所述的装置,其中,所述训练模块还包括:

标注模块,用于在所述视频流模块将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。

b27、根据b18-b26任一所述的装置,其中,所述卷积神经网络模型为全卷积神经网络模型。

b28、根据b17-b27任一所述的装置,其中,所述业务对象包括以下至少之一:目标视频、目标图像、目标特效。

b29、根据b17-b28任一所述的装置,其中,所述装置还包括:

获取模块,用于获取待显示的所述业务对象。

b30、根据b29所述的装置,其中,所述获取模块,用于从预定存储位置获取所述业务对象,或者从视频源接收所述业务对象。

b31、根据b17-b30任一所述的装置,其中,所述视频图像为直播类视频图像。

b32、根据b31所述的装置,其中,所述直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。

本发明实施例还提供了c33、一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如a1-a16任一所述的视频图像的处理方法对应的操作。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1