视频图像的处理方法、装置和终端设备与流程

文档序号：12906408阅读：260来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及信息处理技术，尤其涉及一种视频图像的处理方法、装置和终端设备。

背景技术：

随着互联网技术的发展，人们越来越多地使用互联网观看视频，由此，互联网视频为许多新的业务提供了商机。因为互联网视频可以成为重要的业务流量入口，因而被认为是广告植入的优质资源。

现有视频广告主要通过植入的方式，在视频播放的某个时间插入固定时长的广告，或在视频播放的区域及其周边区域固定位置放置广告。

但是，一方面，这种视频广告方式不但占用网络资源，也占用客户端的系统资源；另一方面，这种视频广告方式往往打扰观众的正常视频观看体验，引起观众反感，不能达到预想的广告效果。

技术实现要素：

本发明的目的在于，提供一种视频图像的处理的方案。

根据本发明实施例的一方面，提供一种视频图像的处理方法。所述方法包括，对当前播放的包含人脸信息的视频图像进行人脸的面部动作检测；当确定检测到的面部动作与对应的预定面部动作相匹配时，确定待展现的业务对象在所述视频图像中的展现位置；在所述展现位置采用计算机绘图方式绘制所述待展现的业务对象。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述对当前播放的包含人脸信息的视频图像进行人脸的面部动作检测，包括：从当前播放的包含人脸信息的视频图像中提取人脸关键点，使用预先训练的、用于检测图像中人脸动作状态的第一卷积网络模型，确定所述视频图像中人脸的面部动作的状态，并根据视频图像中人脸动作状态确定所述视频图像中人脸的面部动作。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，对所述第一卷积网络模型进行预先训练，包括：获取多张包括人脸信息的样本图像作为训练样本，其中，所述样本图像包含被标注的人脸动作状态的信息；使用所述训练样本对所述第一卷积网络模型进行训练，得到用于检测图像中人脸动作状态的第一卷积网络模型。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，获取多张包括人脸信息的样本图像作为训练样本，包括：获取多张包括人脸信息的样本图像；对每张所述样本图像，检测样本图像中的人脸和人脸关键点，通过所述人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息；将包含所述人脸定位信息的所述样本图像作为训练样本。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述确定待展现的业务对象在所述视频图像中的展现位置，包括：提取与检测到的面部动作相应的人脸区域内的人脸特征点；根据所述人脸特征点，确定所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述根据所述人脸特征点，确定所述待展现的业务对象在所述视频图像中的展现位置，包括：根据所述人脸特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，对所述第二卷积网络模型的预先训练，包括：获取训练样本的样本图像的特征向量，其中，所述特征向量中包含有所述样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中面部动作相应的人脸区域内的人脸特征点对应的人脸特征向量；对所述特征向量进行卷积处理，获取特征向量卷积结果；判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断所述特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件；若都满足，则完成对所述第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及所述人脸特征向量均满足相应的收敛条件。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述根据所述人脸特征点，确定所述待展现的业务对象在所述视频图像中的展现位置，包括：根据所述人脸特征点和所述待展现的业务对象的类型，确定待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，根据所述人脸特征点和所述待展现的业务对象的类型，确定待展现的业务对象在所述视频图像中的展现位置，包括：根据所述人脸特征点和所述待展现的业务对象的类型，获得待展现的业务对象在所述视频图像中的多个展现位置；从所述多个展现位置中选择至少一个展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述确定待展现的业务对象在所述视频图像中的展现位置，包括：从预先存储的面部动作与展现位置的对应关系中，获取所述预定面部动作对应的目标展现位置作为所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述业务对象为包含有语义信息的特效；所述视频图像为直播类视频图像。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述人脸的面部动作包括以下至少之一：眨眼、亲吻、张嘴、摇头、点头、笑、哭、皱眉、闭左/右/双眼、嘟嘴。

根据本发明实施例的另一方面，提供一种视频图像的处理装置。所述装置包括：视频图像检测模块，用于对当前播放的包含人脸信息的视频图像进行人脸的面部动作检测；展现位置确定模块，用于当确定检测到的面部动作与对应的预定面部动作相匹配时，确定待展现的业务对象在所述视频图像中的展现位置；业务对象绘制模块，在所述展现位置采用计算机绘图方式绘制所述待展现的业务对象。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述视频图像检测模块，用于从当前播放的包含人脸信息的视频图像中提取人脸关键点，使用预先训练的、用于检测图像中人脸动作状态的第一卷积网络模型，确定所述视频图像中人脸的面部动作的状态，并根据视频图像中人脸动作状态确定所述视频图像中人脸的面部动作。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，训练样本获取模块，用于获取多张包括人脸信息的样本图像作为训练样本，其中，所述样本图像包含被标注的人脸动作状态的信息；第一卷积网络模型确定模块，用于使用所述训练样本对所述第一卷积网络模型进行训练，得到用于检测图像中人脸动作状态的第一卷积网络模型。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述训练样本获取模块，包括：样本图像获取单元，用于获取多张包括人脸信息的样本图像；人脸定位信息确定单元，用于对每张所述样本图像，检测样本图像中的人脸和人脸关键点，通过所述人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息；训练样本确定单元，用于将包含所述人脸定位信息的所述样本图像作为训练样本。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，包括：特征点提取单元，用于提取与检测到的面部动作相应的人脸区域内的人脸特征点；展现位置确定单元，用于根据所述人脸特征点，确定所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，用于根据所述人脸特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述装置还包括：特征向量获取模块，用于获取训练样本的样本图像的特征向量，其中，所述特征向量中包含有所述样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中面部动作相应的人脸区域内的人脸特征点对应的人脸特征向量；卷积模块，用于对所述特征向量进行卷积处理，获取特征向量卷积结果；收敛条件判断模块，用于判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断所述特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件；模型训练模块，用于若都满足，则完成对所述第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及所述人脸特征向量均满足相应的收敛条件。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，用于根据所述人脸特征点和所述待展现的业务对象的类型，确定待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，包括：展现位置获取单元，用于根据所述人脸特征点和所述待展现的业务对象的类型，获得待展现的业务对象在所述视频图像中的多个展现位置；展现位置选择单元，用于从所述多个展现位置中选择至少一个展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，用于从预先存储的面部动作与展现位置的对应关系中，获取所述预定面部动作对应的目标展现位置作为所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述业务对象为包含有语义信息的特效；所述视频图像为直播类视频图像。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述人脸的面部动作包括以下至少之一：眨眼、亲吻、张嘴、摇头、点头、笑、哭、皱眉、闭左/右/双眼、嘟嘴。

根据本发明实施例的又一方面，提供一种终端设备。所述终端设备包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述提供的视频图像的处理方法对应的操作。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于对当前播放的包含人脸信息的视频图像进行人脸的面部动作检测的可执行指令；用于当确定检测到的面部动作与对应的预定面部动作相匹配时，确定待展现的业务对象在所述视频图像中的展现位置的可执行指令；在所述展现位置采用计算机绘图方式绘制所述待展现的业务对象的可执行指令。

根据本发明实施例提供的视频图像的处理方法、装置和终端设备，通过对当前播放的包含人脸信息的视频图像进行面部动作检测，并将检测到的面部动作与对应的预定面部动作进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而从业务对象对应的多帧展示图像中选择一帧展示图像采用计算机绘图方式绘制在展现位置，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的系统资源；另一方面，业务对象与视频图像中的面部动作紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

附图说明

图1是示出根据本发明实施例一的一种视频图像的处理方法的流程图；

图2是示出根据本发明实施例二的一种第一卷积网络模型的获取方法的流程图；

图3是示出根据本发明实施例三的一种视频图像的处理方法的流程图；

图4是示出根据本发明实施例四的一种视频图像的处理方法的流程图；

图5是示出根据本发明实施例五的一种视频图像的处理装置的结构框图；

图6是示出根据本发明实施例六的一种视频图像的处理装置的结构框图；

图7是示出根据本发明实施例七的一种终端设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明的示例性实施例。

实施例一

图1是示出根据本发明实施例一的视频图像的处理方法的流程图。通过包括视频图像的处理装置的计算机系统执行所述方法。

参照图1，在步骤s110，对当前播放的包含人脸信息的视频图像进行人脸的面部动作检测。

其中，面部动作包括但不限于眨眼、张嘴、点头和嘟嘴等。人脸信息可以包括与面部、眼睛、嘴部、鼻子和/或头发等相关的信息。视频图像可以是正在直播的直播视频的图像，也可以是已录制完成或者正在录制过程中的视频图像等。

在实施中，以视频直播为例，目前，视频直播平台包括多个，如花椒直播平台、yy直播平台等，每一个直播平台包括有多个直播房间，而每个直播房间中会包括至少一个主播，主播可以通过终端设备的摄像头向其所在的直播房间中的粉丝直播视频图像。上述视频图像中的主体通常为一个主要人物(即主播)和简单的背景，主播常常在视频图像中所占的区域较大。当需要在视频直播的过程中插入业务对象(如广告等)时，可以获取当前视频直播过程中的视频图像，然后，可以通过预先设置的人脸检测机制对该视频图像进行人脸检测，以判断该视频图像中是否包括主播的人脸信息，如果包括，则获取或记录该视频图像，进行后续处理；如果不包括，则可以继续对下一帧视频图像执行上述相关处理，以得到包括主播的人脸信息的视频图像。

此外，视频图像还可以是已录制完成的短视频中的视频图像，对于此种情况，用户可以使用其终端设备播放该短视频，在播放的过程中，终端设备可以检测每一帧视频图像中是否包括主播的人脸信息，如果包括，则获取该视频图像，如果不包括，则可以丢弃该视频图像或者不对该视频图像做任何处理，并获取下一帧视频图像继续进行上述处理。

另外，对于视频图像是正在录制过程中的视频图像的情况，在录制的过程中，终端设备可以检测录制的每一帧视频图像中是否包括主播的人脸信息，如果包括，则获取该视频图像，如果不包括，则可以丢弃该视频图像或者不对该视频图像做任何处理，并获取下一帧视频图像继续进行上述处理。

播放视频图像的终端设备或者主播使用的终端设备中设置有对视频图像进行人脸的面部动作检测的机制，通过该机制可以对当前播放的包括人脸信息的每一帧视频图像进行检测，得到从视频图像中检测到的人脸的面部动作，一种可行的处理过程可以为，终端设备获取当前正在播放的一帧视频图像，通过预先设定的机制可以从该视频图像中截取出包括人脸区域的图像，然后，可以对人脸区域的图像进行分析和特征提取，得到人脸区域中各个部位(包括眼睛、嘴和面部等)的特征数据，通过对该特征数据的分析，确定视频图像中人脸的面部动作属于眨眼、闭左/右/双眼、眼珠向左/右运动、向左/右/上/下转头、笑、哭、皱眉、张嘴、点头或嘟嘴等动作中的哪一种。

在步骤s120，当确定检测到的面部动作与对应的预定面部动作相匹配时，确定待展现的业务对象在视频图像中的展现位置。

其中，业务对象是根据一定的业务需求而创建的对象，例如广告等。展现位置可以是视频图像中指定区域的中心位置，或者可以是上述指定区域中多个边缘位置的坐标等。

在实施中，可以预先存储多种不同的面部动作的特征数据，并对不同的面部动作进行相应的标记，以区分各个面部动作所代表的含义。通过上述步骤s110的处理可以从视频图像中检测到人脸的面部动作，可以将检测到的人脸的面部动作分别与预先存储的每一种面部动作进行比对，如果预先存储的多种不同的面部动作中包括与检测到人脸的面部动作相同的面部动作，则可以确定检测到的面部动作与对应的预定面部动作相匹配。

为了提高匹配的准确度，可以通过计算的方式确定上述匹配结果，例如，可以设置匹配算法计算任意两个面部动作之间的匹配度，例如，可以使用检测到人脸的面部动作的特征数据和预先存储的任一种面部动作的特征数据进行匹配计算，得到两者之间的匹配度数值，通过上述方式分别计算得到检测到的人脸的面部动作与预先存储的每一种面部动作之间的匹配度数值，从得到的匹配度数值中选取最大的匹配度数值，如果该最大的匹配度数值超过预定的匹配阈值，则可以确定最大的匹配度数值对应的预先存储的面部动作与检测到的面部动作相匹配。如果该最大的匹配度数值未超过预定的匹配阈值，则匹配失败，即检测到的面部动作不是预定面部动作，此时，可以继续执行上述步骤s110的处理。

进一步地，当确定检测到的面部动作与对应的预定面部动作相匹配时，可以先确定匹配到的面部动作所代表的含义，可以在预先设定的多个展现位置中选取与其含义相关或相应的展现位置作为待展现的业务对象在视频图像中的展现位置。例如，以视频直播为例，当检测到主播进行嘟嘴的面部动作时，可以将嘴部区域选取为与其相关或相应的展现位置。

在步骤s130，在展现位置采用计算机绘图方式绘制待展现的业务对象。

需要说明的是，为了增加业务对象的视觉效果，提高视频图像的趣味性，可以为业务对象设置动态效果，例如，业务对象可以是以一段视频的方式呈现，或者，可以是由多张展示图像通过动态展示的方式呈现等。

例如，以视频直播为例，当检测到主播进行张嘴的面部动作时，可以在视频图像中主播的嘴部所在的区域内绘制相应的业务对象(如带有预定商品标识的广告图像等)，如果粉丝对该业务对象感兴趣，则可以点击该业务对象所在的区域，粉丝的终端设备可以获取该业务对象对应的网络链接，并通过该网络链接进入与该业务对象相关的页面，粉丝可以在该页面中获取与该业务对象相关的资源。

其中，对业务对象采用计算机绘图方式绘制可以通过适当的计算机图形图像绘制或渲染等方式实现，包括但不限于：基于opengl图形绘制引擎进行绘制等。opengl定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口，其与硬件无关，可以方便地进行2d或3d图形图像的绘制。通过opengl，不仅可以实现2d效果如2d贴纸的绘制，还可以实现3d特效的绘制及粒子特效的绘制等等。但不限于opengl，其它方式，如unity或opencl等也同样适用。

本发明实施例提供的视频图像的处理方法，通过对当前播放的包含人脸信息的视频图像进行面部动作检测，并将检测到的面部动作与对应的预定面部动作进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而将业务对象采用计算机绘图方式绘制在展现位置，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的系统资源；另一方面，业务对象与视频图像中的面部动作紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例二

图2是示出根据本发明实施例二的第一卷积网络模型的获取方法的流程图。

上述实施例一中步骤s110的对视频图像进行人脸的面部动作检测的处理可以采用相应的特征提取算法或者使用神经网络模型如卷积网络模型等实现。本实施例中以卷积网络模型为例，对视频图像进行人脸的面部动作检测，为此，可以预先训练用于检测图像中人脸动作状态的第一卷积网络模型。

本实施例的视频图像的处理方法可以由任意具有数据采集、处理和传输功能的设备执行，包括但不限于移动终端和pc等，本发明实施对此不做限定。

参照图2，首先，为了对第一卷积网络模型进行训练，可以通过多种方式获取训练样本，该训练样本可以是多张包括人脸信息的样本图像，而且，该样本图像中包含有被标注的人脸动作状态的信息。具体处理可以参见下述步骤s210～步骤s230。

在步骤s210，获取多张包括人脸信息的样本图像，其中，样本图像包含被标注的人脸动作状态的信息。

其中，人脸信息可包括局部属性信息和全局属性信息等，其中，局部属性信息包括但不限于头发颜色、头发长短、眉毛长短、眉毛浓密或稀疏、眼睛大小、眼睛睁开或闭合、鼻梁高低、嘴巴大小、嘴巴张开或闭合、是否佩戴眼镜、是否戴口罩等，全局属性信息包括但不限于人种、性别、年龄等。样本图像可以是视频或连续拍摄的多张图像，也可以是任意图像(其中可包括包含人脸的图像和不包含人脸的图像等)。

在实施中，由于图像的分辨率越大其数据量也就越大，进行人脸动作状态检测时，所需要的计算资源越多，检测速度越慢，鉴于此，在本发明的一种具体实现方式中，上述样本图像可以是满足预设分辨率条件的图像。例如，上述预设分辨率条件可以是：图像的最长边不超过640个像素点，最短边不超过480个像素点等等。

样本图像可以是通过图像采集设备得到，其中，用于采集用户的人脸信息的图像采集设备可以是专用相机或集成在其他设备中的相机等。然而，实际应用中由于图像采集设备的硬件参数不同、设置不同等等，所采集的图像可能不满足上述预设分辨率条件，为得到满足上述预设分辨率条件的样本图像，在本发明的一种可选实现方式中，还可以在图像采集设备采集到图像之后，对所采集到的图像进行缩放处理，以获得符合条件的样本图像。

得到样本图像后，可以在每张样本图像中标注人脸动作状态，例如微笑、嘟嘴、闭左/右/双眼等，可以将每张样本图像中被标注的人脸动作状态与该样本图像作为训练数据存储。

为了使得对样本图像中的人脸动作状态的检测更加准确，可以对样本图像中的人脸进行定位，从而得到样本图像中人脸的准确位置，具体可参见下述步骤s220的处理。

在步骤s220，对每张样本图像，检测样本图像中的人脸和人脸关键点，通过人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息。

在实施中，每张人脸都有一定的特征点，比如眼角、眉毛的末端、嘴角、鼻尖等特征点，再比如人脸的边界点等，在获得了人脸的特征点后，通过人脸关键点可以计算该样本图像中的人脸到预先设定的标准人脸的映射或者相似变换，将该样本图像中的人脸与上述标准人脸对齐，从而将样本图像中的人脸进行定位，得到样本图像中人脸的定位信息。

在步骤s230，将包含人脸定位信息的样本图像作为训练样本。

在步骤s240，使用训练样本对第一卷积网络模型进行训练，得到用于检测图像中人脸动作状态的第一卷积网络模型。

在实施中，第一卷积网络模型的前端可以包括多个卷积层、池化层和非线性层的组合，其后端可以是损耗层(如基于softmax和/或crossentropy等算法的损耗层)。

第一卷积网络模型的结构可如下：

输入层：该层用于读入样本图像和被标注的人脸动作状态的信息等。该层可以对样本图像进行预处理，输出包括定位信息的人脸图像或者人脸信息等。输入层将经过预处理的人脸图像输出到卷积层，同时将经过预处理的人脸信息输入到损耗层。

卷积层：其输入是经过预处理的人脸图像或者图像特征，通过预定的线性变换输出得到人脸图像的特征。

非线性层：可以通过非线性函数对卷积层输入的特征进行非线性变换，使得其输出的特征有较强的表达能力。

池化层：池化层可以将多个数值映射到一个数值，因此，该层不但可以进一步加强学习到的特征的非线性，而且可以使得输出的特征的空间大小变小，而从增强学习的特征的平移(即人脸平移)不变性，提取的特征保持不变。其中，池化层的输出特征可以再次作为卷积层的输入数据或者全连接层的输入数据。

其中，卷积层、非线性层和池化层可以重复一次或者多次，即卷积层、非线性层和池化层的组合可以重复一次或多次，其中，对于每一次，池化层的输出数据可以作为卷积层的再次输入数据。卷积层、非线性层和池化层三层的多次组合，可以更好的处理输入的样本图像，使得样本图像中的特征具有最佳的表达能力。

全连接层：它对池化层的输入数据进行线性变换，将学习得到的特征投影到一个更好的子空间以利于人脸动作状态预测。

非线性层：与非线性层的功能一样，对全连接层的输入特征进行非线性变换。其输出特征可以作为损耗层的输入数据或者再次作为全连接层的输入数据。

其中，全连接层和非线性层可以重复一次或者多次。

一个或者多个损耗层：主要负责计算预测的人脸动作状态与输入的人脸动作状态的误差。

通过向后传递的梯度下降算法，训练得到第一卷积网络模型中的网络参数，这样可以使得输入层只需输入图像，即可输出与输入图像中的人脸相应的人脸动作状态的信息，从而得到第一卷积网络模型。

通过上述过程，输入层负责简单处理输入，卷积层、非线性层和池化层的组合负责对样本图像的特征提取，全连接层和非线性层是提取的特征到人脸信息的映射，损耗层负责计算预测误差。通过上述第一卷积网络模型的多层设计保证提取的特征具有丰富的表达能力，而从更好的预测人脸动作状态。同时，多个人脸信息同时连接损耗层，可确保多个任务同时学习，共享卷积网络学到的特征。

本实施例中，通过训练得到的第一卷积网络模型，可方便后续对当前播放的包含人脸信息的视频图像进行面部动作检测，并将检测到的面部动作与对应的预定面部动作进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而将业务对象采用计算机绘图方式绘制在展现位置，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的系统资源；另一方面，业务对象与视频图像中的面部动作紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例三

图3是示出根据本发明实施例三的视频图像的处理方法的流程图。本实施例中，业务对象为包含有语义信息的特效，具体地，业务对象可包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效等。视频图像为直播类视频图像，如花椒直播平台中某主播进行视频直播时的视频图像。

在步骤s310，获取当前播放的包含人脸信息的视频图像。

其中，上述步骤s310的具体处理可参见与上述实施例一中步骤s110的相关内容，在此不再赘述。

在步骤s320，从视频图像中提取人脸关键点，使用预先训练的、用于检测图像中人脸动作状态的第一卷积网络模型，确定视频图像中人脸的面部动作。

在实施中，可对视频图像进行检测，以判断视频图像中是否包括人脸区域。如果判断出视频图像中包括人脸区域，则在视频图像中提取人脸关键点。可以将获取到的视频图像和人脸关键点输入到上述实施例二中训练得到的第一卷积网络模型中，通过第一卷积网络模型中的网络参数可以分别对视频图像进行如特征提取、映射和变换等处理，以对视频图像进行人脸的动作检测，得到视频图像中人脸动作状态，从而基于人脸的动作状态，可以确定视频图像中包含的人脸的面部动作。

需要说明的是，对于由多个人脸动作状态组合得到的面部动作(如眨眼，其可由睁眼、闭眼和睁眼，或者闭眼、睁眼和闭眼组合而成)来说，可以将此类型的面部动作划分为多个状态，如，以眨眼为例，可划分为睁眼状态和闭眼状态，则上述处理具体可以为：从视频图像中提取人脸关键点，使用预先训练的、用于检测图像中人脸动作状态的第一卷积网络模型，确定视频图像中人脸动作状态，并根据视频图像中人脸动作状态确定视频图像中人脸的面部动作。

在实施中，可以获取当前播放的包含人脸信息的多张视频图像，首先，可对多张视频图像的连续性进行判断，以判断上述多张视频图像在空间和时间上是否连续。若判断为不连续，则认证失败或提醒用户需要重新获取视频图像。在进行视频图像连续性判断时，例如可将每一帧视频图像分为3x3个区域，在每个区域上建立颜色直方图、灰度的均值和方差。把相邻两张人脸图像的直方图的距离、灰度均值的距离以及灰度方差的距离当作特征向量，来判断线性分类器是否大于或等于零。其中，线性分类器中的参数可以通过具有标注信息的样本数据训练得到。如果线性分类器被判断为大于或等于零，则认为上述的相邻的两张视频图像在时间和空间上是连续的，此时，可以基于每张视频图像提取的人脸关键点确定相应的人脸动作状态，以便确定连续的多张视频图像所展现的脸部动作；如果线性分类器被判断为小于零，则认为上述的相邻的两张视频图像在时间和空间上为不连续，此时，可以当前视频图像为起点，继续执行上述步骤s310的处理。

如果上述多张视频图像连续，则可基于从每张视频图像提取的人脸关键点，利用第一卷积网络模型来判断某一帧视频图像中人脸的脸部动作的状态，例如，以眨眼为例，此时可以计算睁眼状态的概率或者闭眼状态的概率来判断该视频图像中人脸动作状态。为此，可以在眨眼动作对应的关键点中心附近提取图像块(即人脸信息)，可通过第一卷积网络模型得到人脸动作状态的判断。然后，可以基于每张视频图像中人脸动作状态确定视频图像中人脸的面部动作。

而对于可以由一个人脸动作状态即可确定相应的面部动作(如微笑、张嘴、嘟嘴等)的情况来说，可以通过检测到的带有微笑、张嘴或嘟嘴等人脸动作状态的视频图像，根据上述步骤s320的处理即可确定相应的人脸的面部动作。

在步骤s330，当确定检测到的面部动作与对应的预定面部动作相匹配时，提取与检测到的面部动作相应的人脸区域内的人脸特征点。

在实施中，对于包含人脸信息的每个视频图像，其中人脸中都会包含有一定的特征点，如眼睛、鼻子、嘴巴、脸部轮廓等特征点。对视频图像中的人脸进行检测并确定特征点，可以采用任意适当的相关技术中的方式实现，本发明实施例对此不作限定。例如，线性特征提取方式如pca主成分分析、lda线性判别分析、ica独立成分分析等；再例如非线性特征提取方式如kernelpca核主成分分析、流形学习等；也可以使用训练完成的神经网络模型如本发明实施例中的卷积网络模型进行人脸特征点的提取。

以视频直播为例，在进行视频直播的过程中，从直播的视频图像中检测人脸并确定人脸特征点；再例如，在某一已录制完成的视频的播放过程中，从播放的视频图像中检测人脸并确定人脸特征点；又例如，在某一视频的录制过程中，从录制的视频图像中检测人脸并确定人脸特征点等等。

在步骤s340，根据人脸特征点，确定待展现的业务对象在视频图像中的展现位置。

在实施中，在人脸特征点确定后，可以以此为依据，确定待展现的业务对象在视频图像中的一个或多个展现位置。

在本实施例中，在根据目标对象的特征点确定待展现的业务对象在视频图像中的展现位置时，可行的实现方式包括：

方式一，根据人脸特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定待展现的业务对象在视频图像中的展现位置；方式二，根据人脸特征点和待展现的业务对象的类型，确定待展现的业务对象在视频图像中的展现位置。

以下，分别对上述两种方式进行详细说明。

方式一

在使用方式一确定待展现的业务对象在视频图像中的展现位置时，需要预先训练一个卷积网络模型(即第二卷积网络模型)，训练完成的第二卷积网络模型具有确定业务对象在视频图像中的展现位置的功能；或者，也可以直接使用第三方已训练完成的、具有确定业务对象在视频图像中的展现位置的功能的卷积网络模型。

需要说明的是，本实施例中，着重对业务对象的训练进行说明，但本领域技术人员应当明了，第二卷积网络模型在对业务对象进行训练的同时，也可以对人脸进行训练，实现人脸和业务对象的联合训练。

当需要预先训练第二卷积网络模型时，一种可行的训练方式包括以下过程：

(1)获取训练样本的样本图像的特征向量。

其中，特征向量中包含有训练样本的样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中面部动作相应的人脸区域内的人脸特征点对应的人脸特征向量。业务对象的置信度信息指示了业务对象展现在当前位置时，能够达到的效果(如被关注或被点击或被观看)的概率，该概率可以根据对历史数据的统计分析结果设定，也可以根据仿真实验的结果设定，还可以根据人工经验进行设定。在实际应用中，可以根据实际需要，仅对业务对象的位置信息进行训练，也可以仅对业务对象的置信度信息进行训练，还可以对二者均进行训练。对二者均进行训练，能够使得训练后的第二卷积网络模型更为有效和精准地确定业务对象的位置信息和置信度信息，以便为业务对象的展示提供依据。

第二卷积网络模型通过大量的样本图像进行训练，本发明实施例中，需要使用包含有业务对象的样本图像对第二卷积网络模型进行训练，本领域技术人员应当明了的是，用来训练的样本图像中，除了包含业务对象外，也应当包含人脸动作状态的信息(用于确定人脸的面部动作的信息)。此外，本发明实施例中的样本图像中的业务对象可以被预先标注位置信息，或者置信度信息，或者二种信息都有。当然，在实际应用中，这些信息也可以通过其它途径获取。而通过预先在对业务对象进行相应信息的标注，可以有效节约数据处理的数据和交互次数，提高数据处理效率。

将具有业务对象的位置信息和/或置信度信息，以及某种人脸属性的样本图像作为训练样本，对其进行特征向量提取，获得包含有业务对象的位置信息和/或置信度信息的特征向量，以及人脸特征点对应的人脸特征向量。

可选地，可以使用第二卷积网络模型对人脸和业务对象同时进行训练，在此情况下，样本图像的特征向量中，也应当包含人脸的特征。

对特征向量的提取可以采用相关技术中的适当方式实现，本发明实施例在此不再赘述。

(2)对特征向量进行卷积处理，获取特征向量卷积结果。

在实施中，获取的特征向量卷积结果中包含有业务对象的位置信息和/或置信度信息，人脸动作状态对应的人脸特征向量对应的特征向量卷积结果。在对人脸和业务对象进行联合训练的情况下，特征向量卷积结果中还包含人脸动作状态的信息。

对特征向量的卷积处理次数可以根据实际需要进行设定，也即，第二卷积网络模型中，卷积层的层数根据实际需要进行设置，在此不再赘述。

卷积结果是对特征向量进行了特征提取后的结果，该结果能够有效表征视频图像中人脸的特征对应的业务对象。

本发明实施例中，当特征向量中既包含业务对象的位置信息，又包含业务对象的置信度信息时，也即，对业务对象的位置信息和置信度信息均进行了训练的情况下，该特征向量卷积结果在后续分别进行收敛条件判断时共享，无须进行重复处理和计算，减少了由数据处理引起的资源损耗，提高了数据处理速度和效率。

(3)判断该特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断该特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件。

其中，收敛条件由本领域技术人员根据实际需求适当设定。当信息满足收敛条件时，可以认为第二卷积网络模型中的网络参数设置适当；当信息不能满足收敛条件时，可以认为第二卷积网络模型中的网络参数设置不适当，需要对其进行调整，该调整是一个迭代的过程，直至使用调整后的网络参数对特征向量进行卷积处理的结果满足收敛条件。

一种可行方式中，收敛条件可以根据预设的标准位置和/或预设的标准置信度进行设定，如，将特征向量卷积结果中业务对象的位置信息指示的位置与预设的标准位置之间的距离是否满足一定阈值作为业务对象的位置信息的收敛条件；将特征向量卷积结果中业务对象的置信度信息指示的置信度与预设的标准置信度之间的差别是否满足一定阈值作为业务对象的置信度信息的收敛条件等。

其中，优选地，预设的标准位置可以是对待训练的样本图像中的业务对象的位置进行平均处理后获得的平均位置；预设的标准置信度可以是对待训练的样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。因样本图像为待训练样本且数据量庞大，可依据待训练的样本图像中的业务对象的位置和/或置信度设定标准位置和/或标准置信度，这样设定的标准位置和标准置信度也更为客观和精确。

在具体进行特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件的判断时，一种可行的方式包括：

获取特征向量卷积结果中对应的业务对象的位置信息，通过计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离，得到对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离，根据第一距离判断对应的业务对象的位置信息是否满足收敛条件；

和/或，

获取特征向量卷积结果中对应的业务对象的置信度信息，计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离，得到对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离，根据第二距离判断对应的业务对象的置信度信息是否满足收敛条件。其中，采用欧式距离的方式，实现简单且能够有效指示收敛条件是否被满足。但不限于此，其它方式，如马式距离，巴式距离等也同样适用。

优选地，如前所述，预设的标准位置为对待训练的样本图像中的业务对象的位置进行平均处理后获得的平均位置；和/或，预设的标准置信度为对待训练的样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。

对于判断该特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件可以由本领域技术人员根据实际情况进行设定，本发明实施例对此不做限定。

(4)若都满足，则完成对第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及人脸特征向量均满足相应的收敛条件。

通过对第二卷积网络模型进行上述训练，第二卷积网络模型可以对基于人脸进行展示的业务对象的展现位置进行特征提取和分类，从而具有确定业务对象在视频图像中的展现位置的功能。其中，当展现位置包括多个时，通过上述业务对象置信度的训练，第二卷积网络模型还可以确定出多个展现位置中的展示效果的优劣顺序，从而确定最优的展现位置。在后续应用中，当需要展示业务对象时，根据视频中的当前图像即可确定出有效的展现位置。

此外，在对第二卷积网络模型进行上述训练之前，还可以预先对样本图像进行预处理，包括：获取多个样本图像，其中，每个样本图像中包含有业务对象的标注信息；根据标注信息确定业务对象的位置，判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值；将小于或等于设定阈值的业务对象对应的样本图像，确定为待训练的样本图像。其中，预设位置和设定阈值均可以由本领域技术人员采用任意适当方式进行适当设置，如根据数据统计分析结果或者相关距离计算公式或者人工经验等，本发明实施例对此不作限定。

通过预先对样本图像进行预处理，可以过滤掉不符合条件的样本图像，以保证训练结果的准确性。

通过上述过程实现了第二卷积网络模型的训练，训练完成的第二卷积网络模型可以用来确定业务对象在视频图像中的展现位置。例如，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，在第二卷积网络模型获得了直播的视频图像中主播的面部特征点后，可以指示出展示业务对象的最优位置如主播的额头位置，进而控制直播应用在该位置展示业务对象；或者，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，第二卷积网络模型可以直接根据直播的视频图像确定业务对象的展现位置。

方式二

根据人脸特征点和待展现的业务对象的类型，确定待展现的业务对象在视频图像中的展现位置。

在实施中，在获取了人脸特征点之后，可以按照设定的规则确定待展现的业务对象的展现位置。其中，确定待展现的业务对象的展现位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域等。

在确定了展现位置后，可以进一步确定待展现的业务对象在视频图像中的展现位置。例如，以展现位置对应的展现区域的中心点为业务对象的展现位置中心点进行业务对象的展示；再例如，将展现位置对应的展现区域中的某一坐标位置确定为展现位置的中心点等，本发明实施例对此不作限定。

在一种优选的实施方案中，在确定待展现的业务对象在视频图像中的展现位置时，不仅根据人脸特征点，还根据待展现的业务对象的类型，确定待展现的业务对象在视频图像中的展现位置。其中，业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。但不限于此，业务对象的类型还可以为其它适当类型，如虚拟瓶盖类型，虚拟杯子类型、文字类型等等。

由此，根据业务对象的类型，可以以人脸特征点为参考，为业务对象选择适当的展现位置。

此外，在根据人脸特征点和待展现的业务对象的类型，获得待展现的业务对象在视频图像中的多个展现位置的情况下，可以从多个展现位置中选择至少一个展现位置。例如，对于文字类型的业务对象，可以展示在背景区域，也可以展示在人物的额头或身体区域等。

此外，可以预先存储面部动作与展现位置的对应关系，在确定检测到的面部动作与对应的预定面部动作相匹配时，可从预先存储的面部动作与展现位置的对应关系中，获取预定面部动作对应的目标展现位置作为待展现的业务对象在视频图像中的展现位置。其中，需要说明的是，尽管存在上述面部动作与展现位置的对应关系，但是，面部动作与展现位置并没有必然关系，面部动作仅仅是触发业务对象展现的一种方式，而且展现位置与人脸也不存在必然关系，也即是业务对象可以展现在人脸的某一个区域，也可以显示在人脸之外的其它区域，如视频图像的背景区域等。

在步骤s350，在展现位置采用计算机绘图方式绘制待展现的业务对象。

基于步骤s350的内容，当业务对象为包含有语义信息的贴纸，如广告贴纸时，在进行业务对象的绘制之前，可以先获取业务对象的相关信息，如业务对象的标识、大小等。在确定了展现位置后，可以根据展现位置的坐标，对业务对象进行缩放、旋转等调整，然后，通过相应的绘图方式如opengl方式对业务对象进行绘制。在某些情况下，广告还可以以三维特效形式展示，如通过粒子特效方式展示广告的文字或logo等。例如，当主播张嘴时，可通过动态逐渐减少杯子中的液体的方式展示某一产品的广告特效，该广告特效可包括多张不同状态的展示图像(如包括杯子中液体量逐渐减少的多帧图像)组成的视频帧，通过opengl等计算机绘图方式在展现位置上依次绘制视频帧的相应图像，由此展示杯子中的液体量逐渐减少的动态效果。通过这种方式，实现了广告效果的动态展现可以吸引观众观看，提升广告投放和展示的趣味性，提高广告投放和展示效率。

本发明实施例提供的视频图像的处理方法，通过面部动作触发业务对象(如广告)的展现，一方面，业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的系统资源；另一方面，业务对象与视频图像中的面部动作紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例四

图4是示出根据本发明实施例四的视频图像的处理方法的流程图。

本实施例以业务对象为包含有广告信息的二维贴纸特效为例，对本发明实施例的视频图像的处理方案进行说明。

本实施例的视频图像的处理方法包括以下步骤：

在步骤s401，获取多张包括人脸信息的样本图像作为训练样本，其中，样本图像包含被标注的人脸动作状态的信息。

在步骤s402，使用训练样本对第一卷积网络模型进行训练，得到用于检测图像中人脸动作状态的第一卷积网络模型。

上述步骤s401～步骤s402的步骤内容与上述实施例二中的步骤内容相同，在此不再赘述。

在步骤s403，获取上述训练样本的样本图像的特征向量。

其中，特征向量中包含有训练样本的样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中人脸动作状态对应的人脸特征向量。

其中，每一张样本图像中人脸动作状态可以是在对第一卷积网络模型进行训练时确定。

在实施中，训练样本的样本图像中存在一些不符合第二卷积网络模型的训练标准的样本图像，需要通过对样本图像的预处理将这部分样本图像过滤掉。

首先，本实施例中，每张样本图像中都包含有业务对象，且每个业务对象都标注有位置信息和置信度信息。一种可行的实施方案中，将业务对象的中心点的位置信息作为该业务对象的位置信息。本步骤中，仅根据业务对象的位置信息对样本图像进行过滤。获得位置信息指示的位置的坐标，将该坐标与预设的该类型的业务对象的位置坐标进行比对，计算二者的位置方差。若该位置方差小于或等于设定的阈值，则该样本图像可以作为待训练的样本图像；若该位置方差大于设定的阈值，则过滤掉该样本图像。其中，预设的位置坐标和设定的阈值均可以由本领域技术人员根据实际情况适当设置，例如，因为一般用于第二卷积网络模型训练的图像具有相同的大小，因此设定的阈值可以为图像长或宽的1/20～1/5，优选地，可以为图像长或宽的1/10。

此外，还可以对确定的样本图像中的业务对象的位置和置信度进行平均，获取平均位置和平均置信度，该平均位置和平均置信度可以作为后续确定收敛条件的依据。

当以业务对象为广告贴纸为实例时，本实施例中用于训练的样本图像需要标注有最优广告位置的坐标和该广告位的置信度。其中，最优广告位置可以在人脸、前背景等地方标注，因此可以实现面部特征点、前背景等地方的广告位的联合训练，这相对于基于面部动作等某一项技术单独训练的方案，有利于节省计算资源。置信度的大小表示了这个广告位是最优广告位的概率，例如，如果这个广告位是被遮挡多，则置信度低。

在步骤s404，对特征向量进行卷积处理，获取特征向量卷积结果。

需要说明的是，对该特征向量进行卷积处理时，既需要对样本图像中的业务对象的位置信息和/或置信度信息对应的特征向量进行卷积处理，还需要对每一张样本图像中人脸特征点对应的人脸特征向量进行卷积处理，分别得到相应的特征向量卷积结果。

在步骤s405，判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件。

在步骤s406，若都满足，则完成对第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及人脸特征向量均满足相应的收敛条件。

在实施中，如果该特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息不满足业务对象收敛条件，则根据特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息满足业务对象收敛条件；如果该特征向量卷积结果中对应的人脸特征向量不满足人脸收敛条件，则根据特征向量卷积结果中对应的人脸特征向量，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的人脸特征向量满足人脸收敛条件。

上述步骤s404～步骤s406的具体处理可以参见上述实施例三中的相关内容，在此不再赘述。

通过上述步骤s403～步骤s406的处理可以得到训练完成的第二卷积网络模型。其中，第二卷积网络模型的结构可以参考上述实施例二中第一卷积网络模型的结构，在此不再赘述。

通过上述训练得到的第一卷积网络模型和第二卷积网络模型可以对视频图像进行相应的处理，具体可以包括以下步骤s407～步骤s411。

在步骤s407，获取当前播放的包含人脸信息的视频图像。

在步骤s408，从视频图像中提取人脸关键点，使用预先训练的、用于检测图像中人脸动作状态的第一卷积网络模型，并根据视频图像中人脸动作状态确定视频图像中人脸的面部动作。

在步骤s409，当确定检测到的面部动作与对应的预定面部动作相匹配时，提取与检测到的面部动作相应的人脸区域内的人脸特征点。

在步骤s410，根据人脸特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定待展现的业务对象在视频图像中的展现位置。

在步骤s411，在展现位置采用计算机绘图方式绘制待展现的业务对象。

随着互联网直播和短视频分享的兴起，越来越多的视频以直播或者短视频的方式出现。这类视频常常以人物为主角(单一人物或少量人物)，以人物加简单背景为主要场景，观众主要在手机等移动终端上观看。在此情况下，对于某些业务对象的投放(如广告投放)来说，一方面，由于移动终端的屏幕展示区域有限，如果以传统的固定位置放置广告，往往占用主要的用户体验区域，容易引起用户反感；另一方面，对于主播类直播应用，由于直播的即时性，传统的插入固定时长的广告会明显打扰用户与主播交流的连贯性，影响用户观看体验；再一方面，对于短视频广告，由于直播或者短视频的内容时长本来就较短，也给采用传统方式插入固定时长的广告带来了困难。而通过本实施例提供的方案，可以实时对视频播放过程中的视频图像进行检测，给出效果最优的广告投放位置，且不影响用户的观看体验，投放效果更好；通过将业务对象与视频播放相结合，从而无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的系统资源；而且，业务对象与视频图像中的面部动作紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例五

基于相同的技术构思，图5是示出根据本发明实施例五的视频图像的处理装置的逻辑框图。参照图5，该视频图像的处理装置包括视频图像检测模块501、展现位置确定模块502和业务对象绘制模块503。

视频图像检测模块501，用于对当前播放的包含人脸信息的视频图像进行人脸的面部动作检测。

展现位置确定模块502，用于当确定检测到的面部动作与对应的预定面部动作相匹配时，确定待展现的业务对象在视频图像中的展现位置。

业务对象绘制模块503，用于在展现位置采用计算机绘图方式绘制待展现的业务对象。

通过本实施例提供的视频图像的处理装置，通过对当前播放的包含人脸信息的视频图像进行面部动作检测，并将检测到的面部动作与对应的预定面部动作进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而将业务对象采用计算机绘图方式绘制在展现位置，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的系统资源；另一方面，业务对象与视频图像中的面部动作紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例六

基于相同的技术构思，图6是示出根据本发明实施例六的视频图像的处理装置的逻辑框图。

本实施例的视频图像的处理装置包括：视频图像检测模块501，用于对当前播放的包含人脸信息的视频图像进行人脸的面部动作检测。展现位置确定模块502，用于当确定检测到的面部动作与对应的预定面部动作相匹配时，确定待展现的业务对象在该视频图像中的展现位置。业务对象绘制模块503，用于在展现位置采用计算机绘图方式绘制待展现的业务对象。

可选地，视频图像检测模块501，用于从当前播放的包含人脸信息的视频图像中提取人脸关键点，使用预先训练的、用于检测图像中人脸动作状态的第一卷积网络模型，确定视频图像中人脸的面部动作的状态，并根据每张人脸的面部动作的状态确定视频图像中人脸的面部动作。

可选地，该装置还包括：训练样本获取模块504，用于获取多张包括人脸信息的样本图像作为训练样本，其中，该样本图像包含被标注的人脸属性的信息；第一卷积网络模型确定模块505，用于使用该训练样本对该第一卷积网络模型进行训练，得到用于检测图像中人脸动作状态的第一卷积网络模型。

可选地，训练样本获取模块504包括：样本图像获取单元，用于获取多张包括人脸信息的样本图像；人脸定位信息确定单元，用于对每张该样本图像，检测样本图像中的人脸和人脸关键点，通过该人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息；训练样本确定单元，用于将包含该人脸定位信息的该样本图像作为训练样本。

可选地，展现位置确定模块502，包括：特征点提取单元，用于提取与检测到的面部动作相应的人脸区域内的人脸特征点；展现位置确定单元，用于根据该人脸特征点，确定待展现的业务对象在该视频图像中的展现位置。

可选地，展现位置确定模块502，用于根据该人脸特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定待展现的业务对象在该视频图像中的展现位置。

可选地，该装置还包括：特征向量获取模块506，用于获取训练样本的样本图像的特征向量，其中，该特征向量中包含有样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中面部动作相应的人脸区域内的人脸特征点对应的人脸特征向量；卷积模块507，用于对该特征向量进行卷积处理，获取特征向量卷积结果；收敛条件判断模块508，用于判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件；模型训练模块509，用于若都满足，则完成对第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及人脸特征向量均满足相应的收敛条件。

可选地，展现位置确定模块502，用于根据该人脸特征点和该待展现的业务对象的类型，确定待展现的业务对象在该视频图像中的展现位置。

可选地，展现位置确定模块502包括：展现位置获取单元，用于根据该人脸特征点和待展现的业务对象的类型，获得待展现的业务对象在该视频图像中的多个展现位置；展现位置选择单元，用于从该多个展现位置中选择至少一个展现位置。

可选地，展现位置确定模块502，用于从预先存储的面部动作与展现位置的对应关系中，获取该预定面部动作对应的目标展现位置作为该待展现的业务对象在该视频图像中的展现位置。

可选地，该业务对象为包含有语义信息的特效；视频图像为直播类视频图像。

可选地，业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

可选地，展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

可选地，业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

可选地，人脸的面部动作包括以下至少之一：眨眼、亲吻、张嘴、摇头、点头、笑、哭、皱眉、闭左/右/双眼、嘟嘴。

实施例七

参照图7，示出了根据本发明实施例七的一种终端设备的结构示意图，本发明具体实施例并不对终端设备的具体实现做限定。

如图7所示，该终端设备可以包括：处理器(processor)702、通信接口(communicationsinterface)704、存储器(memory)706、以及通信总线708。

其中：

处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它设备比如其它客户端或服务器等的网元通信。

处理器702，用于执行程序710，具体可以执行上述方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器710可能是中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路，或者是图形处理器gpu(graphicsprocessingunit)。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu，或者，一个或多个gpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个gpu。

存储器706，用于存放程序710。存储器706可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行以下操作：对当前播放的包含人脸信息的视频图像进行人脸的面部动作检测；当确定检测到的面部动作与对应的预定面部动作相匹配时，确定待展现的业务对象在视频图像中的展现位置；在展现位置采用计算机绘图方式绘制待展现的业务对象。

在一种可选的实施方式中，程序710还用于使得处理器702在对当前播放的包含人脸信息的视频图像进行人脸的面部动作检测，包括：从当前播放的包含人脸信息的视频图像中提取人脸关键点，使用预先训练的、用于检测图像中人脸动作状态的第一卷积网络模型，确定视频图像中人脸的面部动作的状态，并根据每张人脸的面部动作的状态确定视频图像中人脸的面部动作。

在一种可选的实施方式中，程序710还用于使得处理器702在对第一卷积网络模型进行预先训练，包括：获取多张包括人脸信息的样本图像作为训练样本，其中，样本图像包含被标注的人脸属性的信息；使用训练样本对第一卷积网络模型进行训练，得到用于检测图像中人脸动作状态的第一卷积网络模型。

在一种可选的实施方式中，程序710还用于使得处理器702在获取多张包括人脸信息的样本图像作为训练样本，包括：获取多张包括人脸信息的样本图像；对每张样本图像，检测样本图像中的人脸和人脸关键点，通过人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息；将包含人脸定位信息的样本图像作为训练样本。

在一种可选的实施方式中，程序710还用于使得处理器702在确定待展现的业务对象在视频图像中的展现位置，包括：提取与检测到的面部动作相应的人脸区域内的人脸特征点；根据人脸特征点，确定待展现的业务对象在视频图像中的展现位置。

在一种可选的实施方式中，程序710还用于使得处理器702在根据人脸特征点，确定待展现的业务对象在视频图像中的展现位置，包括：根据人脸特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定待展现的业务对象在视频图像中的展现位置。

在一种可选的实施方式中，程序710还用于使得处理器702在对第二卷积网络模型的预先训练，包括：获取训练样本的样本图像的特征向量，其中，特征向量中包含有样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中面部动作相应的人脸区域内的人脸特征点对应的人脸特征向量；对特征向量进行卷积处理，获取特征向量卷积结果；判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件；若都满足，则完成对第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及人脸特征向量均满足相应的收敛条件。

在一种可选的实施方式中，程序710还用于使得处理器702在根据人脸特征点，确定待展现的业务对象在视频图像中的展现位置，包括：根据人脸特征点和待展现的业务对象的类型，确定待展现的业务对象在视频图像中的展现位置。

在一种可选的实施方式中，程序710还用于使得处理器702在根据人脸特征点和待展现的业务对象的类型，确定待展现的业务对象在视频图像中的展现位置，包括：根据人脸特征点和待展现的业务对象的类型，获得待展现的业务对象在视频图像中的多个展现位置；从多个展现位置中选择至少一个展现位置。

在一种可选的实施方式中，程序710还用于使得处理器702在确定待展现的业务对象在视频图像中的展现位置，包括：从预先存储的面部动作与展现位置的对应关系中，获取预定面部动作对应的目标展现位置作为待展现的业务对象在视频图像中的展现位置。

在一种可选的实施方式中，业务对象为包含有语义信息的特效；视频图像为直播类视频图像。

在一种可选的实施方式中，业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

在一种可选的实施方式中，展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

在一种可选的实施方式中，业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

在一种可选的实施方式中，人脸的面部动作包括以下至少之一：眨眼、亲吻、张嘴、摇头、点头、笑、哭、皱眉、闭左/右/双眼、嘟嘴。

通过本实施例提供的终端设备，通过对当前播放的包含人脸信息的视频图像进行面部动作检测，并将检测到的面部动作与对应的预定面部动作进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而将业务对象采用计算机绘图方式绘制在展现位置，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的系统资源；另一方面，业务对象与视频图像中的面部动作紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如cdrom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，ram、rom、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：栾青;彭义刚
技术所有人：北京市商汤科技开发有限公司
我是此专利的发明人

上一篇：手势检测网络训练、手势检测及控制方法、系统及终端与流程
上一篇：视频图像的处理方法、装置和终端设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。