3D表情制作方法及系统与流程

文档序号：15640892发布日期：2018-10-12 22:03阅读：1976来源：国知局

本发明涉及图像处理技术领域，尤其涉及一种3d表情制作方法及系统。

背景技术：

通过互联网进行网络沟通已成为人们日常生活中必不可少的一部分，在沟通聊天过程中通过发送一些表情可以活跃气氛也可以表达出语言不容易描述的内容。各种各样的表情包被提前制作以供用户下载使用，目前大多数表情包均由第三方专业人员制作，普通用户只有选择使用的权利。

为了使得用户可以自主定义表情包，一些技术中通过用户自主选择照片，随后由制作软件对照片内容进行识别、分割等措施后生成相应的表情。这类表情包虽然制作方便，但由于是2d表情，用户体验较差。

技术实现要素：

本发明为了解决现有技术的表情包是2d表情，用户体验差的问题，提供一种3d表情制作方法及系统。

为了解决上述问题，本发明采用的技术方案如下所述：

一种3d表情制作方法，包括如下步骤：s1：提供标准表情模型；s2：采集用户在当前表情下的人脸二维图像与人脸深度图像；s3：基于所述人脸二维图像与所述人脸深度图像驱动所述标准表情模型变形，生成与所述人脸表情一致的表情动画。

在本发明的一种实施例中，所述人脸二维图像包括红外图像，所述红外图像与所述人脸深度图像是交替采集的。

在本发明的又一种实施例中，步骤s3中所述驱动包括：获取所述人脸深度图像与所述人脸二维图像中的方位特征参数和表情特征参数；依据所述表情特征参数以及所述方位特征参数驱动所述标准表情模型变形；基于所述表情特征参数获取与所述人脸表情一致的表情动画对应的文本和/或语音。

在本发明的再一种实施例中，还包括：同步采集所述用户的语音，识别所述语音并获取与所述语音对应的文本；根据所识别的语音从预设的原声语音库中匹配出对应的原声语音；还包括将所述文本和/或语音或原声语音与所述表情模型融合。

本发明又提供一种3d表情制作系统，包括：深度相机，用于获取二维图像和深度图像；存储器，用于存储数据信息；处理器，与所述深度相机和所述存储器相连，用于执行如前任一所述的3d表情制作方法。

在本发明的一种实施例中，所述二维图像包括红外图像，所述深度相机包括：红外泛光灯，用于提供红外照明；红外结构光投影仪，用于向目标投影红外结构光图像；红外相机，当仅所述红外泛光灯打开时采集所述红外图像，当仅所述红外结构光投影仪打开时采集结构光图像；深度计算处理器，对所述结构光图像进行深度计算以获取深度图像。

在本发明的又一种实施例中，所述二维图像包括彩色图像，所述深度相机还包括彩色相机，用于采集可见光照条件下目标的彩色图像。

本发明的有益效果为：提供一种3d表情制作方法及系统，通过预存储标准表情模型，基于采集到的用户在当前表情下的人脸二维图像与人脸深度图像驱动标准表情模型变形，生成与所述人脸表情一致的表情动画，提高用户体验，增加聊天的趣味性。

附图说明

图1是根据本发明实施例的一种3d表情制作系统的示意图。

图2是根据本发明实施例的一种3d表情制作方法的示意图。

其中，100-深度相机，110-处理器，120-存储器，130-显示器，140-输入/输出接口，150-麦克风，101-红外结构光投影仪，102-红外泛光灯，103-红外相机，104-深度计算处理器。

具体实施方式

下面结合附图通过具体实施例对本发明进行详细的介绍，以使更好的理解本发明，但下述实施例并不限制本发明范围。另外，需要说明的是，下述实施例中所提供的图示仅以示意方式说明本发明的基本构思，附图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的形状、数量及比例可为一种随意的改变，且其组件布局形态也可能更为复杂。

如图1所示，本发明提供一种3d表情制作系统，系统包括：深度相机100、存储器120、处理器110，也可以包括显示器130、输入/输出接口140、麦克风150等。

深度相机100用于获取目标的二维图像与深度图像(视频)，在一个实施例中，深度相机100为基于结构光技术的深度相机，包括红外结构光投影仪101、红外相机103以及深度计算处理器104，其中红外结构光投影仪101用于向目标投影红外结构光图像，红外相机103采集并传输结构光图像至深度计算处理器，深度计算处理器对结构光图像实施深度计算以获取深度图像，深度相机100还包括一个提供红外照明的红外泛光灯102，当红外泛光灯102打开而红外结构光投影仪101关闭时，红外相机103将采集到二维图像(红外图像)。因此可以通过对红外泛光灯102以及红外结构光投影仪101的交替工作，使得深度相机100具备交替获取二维红外图像与深度图像的能力。这里的红外泛光灯102与红外结构光投影仪101也可以融合进同一个装置中，该装置具备泛光照明与结构光投影的功能，由此可以节省空间与成本。在一个实施例中，深度相机100还包括一个彩色相机(图中未画出)，用于采集可见光照条件下目标的二维图像-彩色图像，此时由于彩色相机与红外相机之间有位置上的偏差，因此深度图像与彩色图像之间存在视差，在一些应用中，需要对深度图像与彩色图像进行配准以消除视差，如不做特别说明在后面的描述中默认深度图像与二维图像之间没有视差。在一些实施例中，二维图像也可以包括其他图像，比如热红外图像、紫外图像等。

存储器120用于存储数据信息，比如深度相机100中红外相机103或彩色相机的参数数据、用于计算深度图像的参考图像数据、3d表情制作程序数据、临时数据等等。存储器120可以有一个或多个，分布在系统的不同位置，比如由一个flash存储器嵌入到深度相机中，系统中还设置有ram、rom等存储器。

处理器110分别与存储器120、深度相机100等连接，用于控制以及处理数据。在一些实施例中，处理器110包含至少两个子处理器，比如其中一个子处理器被嵌入在深度相机中执行深度图像的计算任务，即深度计算处理器。处理器110通过调用存储器中的程序来执行相关的指令。在一个实施例中，存储器120中存储有3d表情制作的程序，在3d表情任务激活后，处理器调用相关程序并执行以下3d表情制作方法，所述方法如图2所示：

(1)提供标准表情模型。

标准表情模型是预先设置好并保存在存储器中以被处理器调用。标准表情模型可以通过3d动画制作软件进行制作，也可以选择已有的模型，比如candide-3模型、mpeg-4模型等。标准表情模型可以是单个模型，也可以包括多个不同表情下的基准模型。标准表情模型中含有可以进行变形的特征参数，比如对于candide-3模型而言其特征参数包括多个au(actionunits)参数、对于mpeg-4模型而言其特征参数包括多个静态参数fdps和动态参数faps。在一些实施例中，标准表情模型也可以包括动物模型、植物模型以及虚拟物体模型等。

标准表情模型可以在特征参数的驱动下进行变形，在一个实施例中，特征参数分为方位特征参数与表情特征参数，分别用来控制标准表情模型的方位控制与表情控制。

(2)采集用户在当前表情下的人脸二维图像与人脸深度图像。

处理器将向深度相机发出激发信号，深度相机在接收到激发信号后对其视场内的物体进行图像采集，比如以60fps的帧率交替采集红外图像与深度图像，由此可以分别获取30fps的红外图像与深度图像。由于是交替采集，因此若需要获取同一时刻的二维图像与深度图像，则需要进行进一步的处理，比如对相邻帧深度图像进行插值等，或者考虑到相邻帧的红外图像与深度图像间隔时间非常短，可以近似认为是其是同一时刻采集的。对于二维图像是彩色图像的情形则可以同步进行彩色图像与深度图像的采集，只不过后续需要进行额外的配准计算。

在采集到目标的二维图像与深度图像后，对二维图像进行人脸检测与追踪以获取人脸二维图像与深度图像，比如采用viola-jones人脸检测算法检测到当前人脸，利用meanshift算法实现对后续多帧图像的人脸追踪，从而获取各帧二维图像中的人脸二维图像，由于二维图像与深度图像之间的对应关系，则可以获取相应的人脸深度图像。在一个实施例中，进一步将人脸深度图像进行处理以获取精度更高的模型，比如人脸网格模型等，统一起见，后面的描述中统一称为人脸深度图像。

(3)基于所述人脸二维图像与所述人脸深度图像驱动所述标准表情模型变形，生成与所述人脸表情一致的表情动画。

在获取到人脸二维图像与人脸深度图像后，分别对其进行特征提取以获取可以驱动标准表情模型变形的特征参数。在一个实施例中，第一步通过对人脸深度图像进行计算以获取当前人脸的方位向量，比如首先通过对人脸关键点坐标进行提取，在本实施例中，关键点包括额头、嘴角以及鼻尖，其中额头以及嘴角处的关键点用于确定人脸所在的平面，鼻尖处的点则用于确定人脸的法向量，即方位向量，由方位向量可以得到驱动标准表情模型的方位参数。第二步对人脸二维图像后执行特征点提取算法，比如主动外观模型(aam)算法等，特征点包括人脸轮廓、眼部、鼻子以及嘴等，所需要获取的特征点与选择的标准表情模型相关，同样地，由于二维图像与深度图像之间的对应关系，可以直接获取这些特征点的三维坐标值。第三步，将标准表情模型与当前人脸深度图像进行配准。比如采用icp配准算法实现对标准表情模型与当前人脸深度图像的对齐与变形。具体地，在一个实施例中，若标准表情模型用下式表示：

m＝r(m+sα+aβ)+t

其中m表示中性标准表情模型，r、t分别表示反映人脸方位的旋转矩阵与平移矩阵，s、a分别为静态变形矩阵与动态变形矩阵，α、β分别表示静态参数与动态参数。

配准的目的是通过不断迭代以最小化能量函数来求解标准表情模型中的r、t、α、β，r和t表示方位特征参数，α和β表示表情特征参数，从而进一步基于这些参数计算出与当前人脸表情一致的表情动画。能量函数反应的是人脸深度图像(用d表示)与标准表情模型m中对应点之间的差异。

在配准过程中，迭代初值的选取将直接影响到迭代的速度与配准的精度，在一个实施例中，将上一步中方位向量与特征点坐标作为迭代初值可以大幅减少迭代次数以及提升配准精度。

单纯的由图像组成的表情动画往往不够生动，在表情动画的基础上结合一些文本或语音则可以提升表情动画的观赏性。

在一个实施例中，基于前述步骤中所获取的表情特征参数，在预先设置好的文本和/或语音库中选取与该表情特征参数所匹配的文本和/或语音。比如对于反映痛苦的表情特征参数而言，与之匹配的文本和/或语音同样用于表达痛苦。

在一些实施例中，在利用深度相机进行图像采集的过程中，利用麦克风等装置同步采集用户语音。可以将用户语音直接作为表情动画的配音。在一个实施例中，为了增加趣味性等，通过混声技术将用户语音进行处理，比如处理成其他发音或表达方式的语音，将该语音作为表情动画的配音。

在一些实施例中，在同步采集用户语音的基础上对用户语音进行识别，并进一步根据识别到的语音搜索与之类似的原声语音，比如电影原声、电视原声、动画原声等，从而可极大提升趣味性。为了实现这一点，往往需要预先建立原声语音库，并对原声语音库中的语音进行识别并标记出相应的特征符号，特征符号包含时间、字符数、内容等。对用户语音进行识别后，同样获取用户语音的时间、字符数、内容等特征中的至少一种，并基于该特征从原声语音库中进行搜索以匹配出合适的原声语音，最后将该原声语音作为表情动画的配音。在一种实施例中，可以识别用户语音的内容，并拼接处与用户语音内容相同的语音。

在获取相应的文本和/或语音或原声语音等后，将其与表情动画中的各帧进行融合以得到最终的表情动画。

在一些实施例中，在完成表情动画制作后，将表情动画保存到存储器中以形成3d表情包，以便于后续随时调用。

图2中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在图2中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许星;钟亮洪
技术所有人：深圳奥比中光科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。