一种嘴部表情迁移的方法及电子设备与流程

文档序号：11276844阅读：185来源：国知局

本发明涉及计算机技术领域，特别涉及一种嘴部表情迁移的方法及电子设备。

背景技术：

目前在对视频中人脸嘴部的状态进行识别判断时，要么是通过图像处理的方式来对视频中人脸嘴部的状态进行识别判断，要么是通过对视频中的声音信息进行识别来判断人脸嘴部的状态；图像处理的方式在人脸嘴部的开闭幅度变化很小时判断精度不高，很容易出现误判；而单纯通过声音信息来识别判断人脸嘴部的状态容易收到噪声等外部环境的干扰，因此需要提供一种方法能够将二者的优势结合起来，同时又能避免二者各自的缺陷。

技术实现要素：

为了解决上述问题，本发明提供一种嘴部表情迁移的方法及电子设备。

所述技术方案如下：

第一方面，提供了一种获取嘴部状态的方法，所述方法包括：

获取视频帧中人脸嘴部的关键特征点；

判断所述嘴部状态；

如果所述嘴部状态为闭合，则分析所述视频帧对应的声音片段的特征，

并根据所述声音片段的特征对所述嘴部状态进行修正；

根据修正后的所述嘴部状态对目标进行表情迁移。

结合第一方面，在第一种可能的实现方式中，所述判断所述嘴部状态包括：

获取所述关键特征点中上嘴唇对应的关键特征点；

获取所述关键特征点中下嘴唇对应的关键特征点；

获取所述上嘴唇对应的关键特征点和下嘴唇对应的关键特征点之间的距离；

如果所述距离小于预设值，则判定所述嘴部状态为闭合，否则，判断所述嘴部状态为开启。

结合第一方面，在第二种可能的实现方式中，所述如果所述嘴部状态为闭合，则分析所述视频帧对应的声音片段的特征，并根据所述声音片段的特征对所述嘴部状态进行修正包括：

获取所述视频帧对应的声音片段的特征；

根据所述声音片段的特征获取所述嘴部状态；

如果根据所述声音片段的特征获取的所述嘴部状态为开启，则更改所述嘴部状态为开启。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述根据所述声音片段的特征获取所述嘴部状态包括：

根据所述声音片段的特征与预设的模型，获取所述声音片段的特征对应的嘴部状态。

第二方面，提供了一种电子设备，所述电子设备包括：

获取模块，用于获取视频帧中人脸嘴部的关键特征点；

判断模块，用于判断所述嘴部状态；

修正模块，用于：如果所述嘴部状态为闭合，则分析所述视频帧对应的声音片段的特征，并根据所述声音片段的特征对所述嘴部状态进行修正；

表情迁移模块，用于根据修正后的所述嘴部状态对目标进行表情迁移。

结合第二方面，在第一种可能的实现方式中，所述获取模块具体用于：

获取所述关键特征点中上嘴唇对应的关键特征点；

获取所述关键特征点中下嘴唇对应的关键特征点；

获取所述上嘴唇对应的关键特征点和下嘴唇对应的关键特征点之间的距离。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述判断模块具体用于：

如果所述距离小于预设值，则判定所述嘴部状态为闭合，否则，判断所述嘴部状态为开启。

结合第二方面，在第三种可能的实现方式中，所述修正模块具体用于：

获取所述视频帧对应的声音片段的特征；

根据所述声音片段的特征获取所述嘴部状态；

如果根据所述声音片段的特征获取的所述嘴部状态为开启，则更改所述嘴部状态为开启。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述修正模块还用于：

根据所述声音片段的特征与预设的模型，获取所述声音片段的特征对应的嘴部状态。

第三方面，提供了一种电子设备，所述设备包括存储器以及与所述存储器连接的处理器，其中，所述存储器用于存储一组程序代码，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

获取视频帧中人脸嘴部的关键特征点；

判断所述嘴部状态；

如果所述嘴部状态为闭合，则分析所述视频帧对应的声音片段的特征，

并根据所述声音片段的特征对所述嘴部状态进行修正；

根据修正后的所述嘴部状态对目标进行表情迁移。

结合第三方面，在第一种可能的实现方式中，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

获取所述关键特征点中上嘴唇对应的关键特征点；

获取所述关键特征点中下嘴唇对应的关键特征点；

获取所述上嘴唇对应的关键特征点和下嘴唇对应的关键特征点之间的距离；

如果所述距离小于预设值，则判定所述嘴部状态为闭合，否则，判断所述嘴部状态为开启。

结合第三方面，在第二种可能的实现方式中，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

获取所述视频帧对应的声音片段的特征；

根据所述声音片段的特征获取所述嘴部状态；

如果根据所述声音片段的特征获取的所述嘴部状态为开启，则更改所述嘴部状态为开启。

结合第三方面的第二种可能的实现方式，在第三种可能的实现方式中，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

根据所述声音片段的特征与预设的模型，获取所述声音片段的特征对应的嘴部状态。

本发明实施例提供了一种嘴部表情迁移的方法及电子设备，通过图像处理的方式获取人脸嘴部状态的初始值，再进一步通过声音识别的方式来进一步对该人脸嘴部状态的初始值进行修正，从而有效地提高了获取人脸嘴部状态的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种嘴部表情迁移的方法的流程图；

图2是本发明实施例提供的一种嘴部表情迁移的方法的流程图；

图3是本发明实施例提供的一种电子设备的结构示意图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

本发明实施例提供了一种嘴部表情迁移的方法，参照图1所示，方法流程包括：

101、获取视频帧中人脸嘴部的关键特征点。

具体的，该过程可以为：

获取所述关键特征点中上嘴唇对应的关键特征点；

获取所述关键特征点中下嘴唇对应的关键特征点。

102、获取所述上嘴唇对应的关键特征点和下嘴唇对应的关键特征点之间的距离。

103、判断所述嘴部状态。

具体的，该过程可以为：

如果所述距离小于预设值，则判定所述嘴部状态为闭合，否则，判定所述嘴部状态为开启。

104、如果所述嘴部状态为闭合，则分析所述视频帧对应的声音片段的特征，并根据所述声音片段的特征对所述嘴部状态进行修正。

具体的，该过程可以为：

获取所述视频帧对应的声音片段的特征；

根据所述声音片段的特征获取所述嘴部状态；

如果根据所述声音片段的特征获取的所述嘴部状态为开启，则更改所述嘴部状态为开启。

105、根据修正后的所述嘴部状态对目标进行表情迁移。

具体的，该过程可以为：

根据修正后的嘴部对应的关键特征点的位置，驱动目标表情中的嘴部至与所述修正后的嘴部对应的关键特征点的位置相对应的位置。

本发明实施例提供了一种嘴部表情迁移的方法，通过图像处理的方式获取人脸嘴部状态的初始值，再进一步通过声音识别的方式来进一步对该人脸嘴部状态的初始值进行修正，从而有效地提高了获取人脸嘴部状态的准确性。

实施例二

本发明实施例提供了一种嘴部表情迁移的方法，参照图2所示，方法流程包括：

201、获取视频帧中人脸嘴部的关键特征点。

具体的，该过程可以为：

采用基于形状回归的方法对视频帧中的人脸关键特征点进行定位。人脸关键特征点定位是在人脸检测的基础上，进一步定位人脸的眼睛、眉毛、鼻子和嘴部轮廓等。可以利用关键特征点附近的信息以及各个关键特征点之间的相互关系来定位关键特征点，通过该方法可以获取所述关键特征点中上嘴唇对应的关键特征点以及所述关键特征点中下嘴唇对应的关键特征点。

202、获取所述上嘴唇对应的关键特征点和下嘴唇对应的关键特征点之间的距离。

具体的，该过程可以为：

通过以下两种方式中的任意一种，获取所述上嘴唇对应的关键特征点和下嘴唇对应的关键特征点之间的距离：

分别获取多个上嘴唇的关键特征点与对应的下嘴唇的关键特征点之间的多个距离；

计算多个距离之间的平均值，该平均值即为上下嘴唇之间的距离。或者，

获取上嘴唇中间的关键特征点与下嘴唇中间的关键特征点之间的距离，该距离即为上下嘴唇之间的距离。

203、判断所述嘴部状态。

具体的，该过程可以为：

如果所述距离小于预设值，则判定所述嘴部状态为闭合，否则，判定所述嘴部状态为开启。

204、如果所述嘴部状态为闭合，则分析所述视频帧对应的声音片段的特征，并根据所述声音片段的特征对所述嘴部状态进行修正。

具体的，该过程可以为：

获取所述视频帧对应的声音片段的特征。

示例性的，当所述视频的帧率为30帧/秒时，所述视频帧对应的声音片段的长度为1/30秒；当所述视频的帧率为60帧/秒时，所述视频帧对应的声音片段的长度为1/60秒。

从所述声音片段中提取出该声音片段对应的特征，示例性的，该特征可以是mfcc(melfrequencycepstralcoefficents，梅尔频率倒谱系数)特征。本发明实施例对具体的特征不加以限定。

根据所述声音片段的特征获取所述嘴部状态。

具体的，根据所述特征与预设的模型获取所述特征对应的嘴部状态。

预设的模型是预先设置好的模型，该模型可以是通过有监督学习训练得到的。

训练的具体方法包括：

a、收集训练数据。

收集大量的包含声音和嘴部开闭状态对应关系的数据，例如电影、电视片段。

b、对收集到的数据进行预处理。

将收集到的数据中带有人脸嘴部的视频帧挑选出来。

将这些视频帧中嘴部的开闭状态和对应的语音信息的mfcc特征提取出来。

c、根据这些嘴部的开闭状态和对应的mfcc特征对svm(supportvectormachine，支持向量机)进行训练，得到训练后的svm作为预设模型。

在根据所述特征选取对应的嘴部表情的过程中，将所述特征输入该训练后的svm，svm将判断该特征对应的嘴部状态是开启还是闭合。

如果根据所述声音片段的特征获取的所述嘴部状态为开启，则更改所述嘴部状态为开启。

205、根据修正后的所述嘴部状态对目标进行表情迁移。

具体的，该过程可以为：

根据修正后的嘴部对应的关键特征点的位置，驱动目标表情中的嘴部至与所述修正后的嘴部对应的关键特征点的位置相对应的位置。

本发明实施例提供了一种嘴部表情迁移的方法，通过图像处理的方式获取人脸嘴部状态的初始值，再进一步通过声音识别的方式来进一步对该人脸嘴部状态的初始值进行修正，从而有效地提高了获取人脸嘴部状态的准确性，进一步地，通过svm能够快速的对嘴部的开闭状态进行判断，从而有效地提高识别的速度。

实施例三

本发明实施例提供了一种电子设备，参照图3所示，该电子设备包括：

获取模块301，用于获取视频帧中人脸嘴部的关键特征点；

判断模块302，用于判断所述嘴部状态；

修正模块303，用于：如果所述嘴部状态为闭合，则分析所述视频帧对应的声音片段的特征，并根据所述声音片段的特征对所述嘴部状态进行修正；

表情迁移模块304，用于根据修正后的所述嘴部状态对目标进行表情迁移。

优选的，所述获取模块具体用于：

获取所述关键特征点中上嘴唇对应的关键特征点；

获取所述关键特征点中下嘴唇对应的关键特征点；

获取所述上嘴唇对应的关键特征点和下嘴唇对应的关键特征点之间的距离。

优选的，所述判断模块具体用于：

如果所述距离小于预设值，则判定所述嘴部状态为闭合，否则，判定所述嘴部状态为开启。

优选的，所述修正模块具体用于：

获取所述视频帧对应的声音片段的特征；

根据所述声音片段的特征获取所述嘴部状态；

如果根据所述声音片段的特征获取的所述嘴部状态为开启，则更改所述嘴部状态为开启。

优选的，所述修正模块还用于：

根据所述声音片段的特征与预设的模型，获取所述声音片段的特征对应的嘴部状态。

本发明实施例提供了一种电子设备，通过图像处理的方式获取人脸嘴部状态的初始值，再进一步通过声音识别的方式来进一步对该人脸嘴部状态的初始值进行修正，从而有效地提高了获取人脸嘴部状态的准确性。

实施例四

本发明实施例提供了一种电子设备，参照图4所示，所述设备包括存储器401以及与存储器401连接的处理器402，其中，存储器401用于存储一组程序代码，处理器402调用存储器401所存储的程序代码用于执行以下操作：

获取视频帧中人脸嘴部的关键特征点；

判断所述嘴部状态；

如果所述嘴部状态为闭合，则分析所述视频帧对应的声音片段的特征，

并根据所述声音片段的特征对所述嘴部状态进行修正；

根据修正后的所述嘴部状态对目标进行表情迁移。

优选的，所述处理器402调用所述存储器401所存储的程序代码用于执行以下操作：

获取所述关键特征点中上嘴唇对应的关键特征点；

获取所述关键特征点中下嘴唇对应的关键特征点；

获取所述上嘴唇对应的关键特征点和下嘴唇对应的关键特征点之间的距离；

如果所述距离小于预设值，则判定所述嘴部状态为闭合，否则，判定所述嘴部状态为开启。

优选的，所述处理器402调用所述存储器401所存储的程序代码用于执行以下操作：

获取所述视频帧对应的声音片段的特征；

根据所述声音片段的特征获取所述嘴部状态；

如果根据所述声音片段的特征获取的所述嘴部状态为开启，则更改所述嘴部状态为开启。

优选的，所述处理器402调用所述存储器401所存储的程序代码用于执行以下操作：

根据所述声音片段的特征与预设的模型，获取所述声音片段的特征对应的嘴部状态。

以上仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，本领域普通技术人员在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：武俊敏
技术所有人：掌赢信息科技（上海）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。