一种智能终端图像转换的方法、智能终端及存储装置与流程

文档序号:17727895发布日期:2019-05-22 02:38阅读:191来源:国知局
一种智能终端图像转换的方法、智能终端及存储装置与流程

本申请涉及图像处理技术领域,尤其涉及一种智能终端图像转换的方法、智能终端及存储装置。

技术背景

现有移动终端中有各种可爱的动物模仿人的表情的功能,这已经成为年轻人群体一项有趣的交流互动方式。

但是,如果带有卡通图像的视频一旦生成,是无法更换动物模型的。比如,选用小兔作为模型,录了一段唱歌的视频,同时,想看下如果模型为小猪效果,现有的技术只能重新换个模型录制一遍。更换视频头像需要重录,过程繁琐,用户体验较差。



技术实现要素:

为解决上述技术问题,本申请提供了一种智能终端图像转换的方法、智能终端及存储装置,能够实现在不重录视频的情况下,完成对视频图像的头像更换。

为解决上述技术问题,本申请采用的第一个技术方案是:提供一种智能终端图像转换的方法,该方法包括:接收对视频图像进行头像类型转换的第一控制指令,其中,第一控制指令包括待转换图像类型;获取到视频图像的每一帧图像的三维系数;基于每一帧图像的三维系数通过三维模型将视频图像的每一帧图像转换成与待转换图像类型对应的图像;将与待转换图像类型对应的图像合成目标视频图像。

其中,接收对视频图像进行头像类型转换的第一控制指令的步骤之前还包括:

获取到视频图像的每一帧图像的表情数据;基于表情数据生成每一帧图像的三维系数;其中,三维系数为表情数据对应的表情动作幅度系数;保存三维系数。

其中,三维系数包括眼睛闭合程度、张嘴大小、头部角度中的至少一种。

其中,保存三维系数的步骤具体包括:将三维系数转换成设定格式的数据,并进行保存。

其中,设定格式包括javascript对象标记格式。

其中,获取到视频图像的每一帧图像的表情数据的步骤包括:通过智能终端的摄像设备获取到视频图像的每一帧图像;提取每一帧图像的表情数据。

其中,待转换图像类型包括卡通图像,接收对视频图像进行头像类型转换的第一控制指令的步骤包括:接收对视频图像转换为设定的卡通图像的第一控制指令。

其中,接收更换视频头像的第一控制指令的步骤之前还包括:确定需要进行头像类型更换的视频图像。

为解决上述技术问题,本申请采用的第二个技术方案是:提供一种智能终端,该智能终端包括处理器、通信电路,其中处理器配合通信电路实现上述任一实施例的智能终端图像转换的方法。

为解决上述技术问题,本申请采用的第三个技术方案是,提供一种存储装置,该存储装置存储有程序数据,程序数据能够被执行实现上述任一实施例的智能终端图像转换的方法。

本申请的有益效果是:本申请通过直接读取视频图像的三维系数,当需要对视频文件进行头像更换时,通过第一控制指令直接获取到视频图像的每一帧图像的三维系数,然后再基于该三维系数通过三维模型将视频图像的每一帧图像转换成与待转换图像类型对应的图像,最后将与待转换图像类型对应的图像合成目标视频图像。能够实现不重录视频而完成对视频文件的头像进行更换。另外,本申请先录制视频,然后再进行头像更换处理,通过分时处理数据的方式,降低了对智能终端性能的要求。

附图说明

图1是本申请智能终端图像转换的方法第一实施方式流程示意图;

图2是本申请智能终端图像转换的方法第二实施方式流程示意图;

图3是图2中s21一实施方式流程示意图;

图4是本申请智能终端一实施例结构示意图;

图5是本申请存储装置一实施例结构示意图。

具体实施方式

本申请提供一种智能终端图像转换的方法、智能终端及存储装置,为使本申请的目的、技术方案和技术效果更加明确、清楚,以下对本申请进一步详细说明,应当理解此处所描述的具体实施条例仅用于解释本申请,并不用于限定本申请。

目前,大部分年轻人在使用移动终端时,都喜欢用动物表情模拟人的表情,以增加趣味性。但是现有技术中,如果选定了一个卡通图像拍摄了一段视频,当想看看另一种类型的卡通图像应用于该段视频的效果时,只能重新再拍摄一遍视频。重新拍摄视频不仅费时,而且增加用户的劳动量,使得用户体验不好。

为了解决上述问题,本申请提供了一种智能终端图像转换的方法,该方法具体包括:

s11:接收对视频图像进行头像类型转换的第一控制指令,其中,第一控制指令包括待转换图像类型。

当用户想要对视频文件中视频图像的头像进行更换时,则对智能终端发出对视频图像进行头像类型转换的第一控制指令,智能终端接收该第一控制指令。

具体地,第一控制指令中包括有待转换图像类型,比如之前的视频文件中视频图像的头像类型为小猪,现在想将小猪头像转换成羊,那此时第一控制指令中包括待转换图像的类型为羊。第一触控指令可以为单击、双击、滑动、语音口令中的任一种。

在一个优选的实施例中,首先确定需要进行头像类型更换的视频图像。具体地,可通过获取用户的确认指令来确定需要进行头像类型转换的视频图像。在其他可替代的实施例中,可设置预定位置,将在预定位置的视频文件即确定为需要进行视频头像转换的视频图像。

视频图像可以是读取的智能终端本身自带的视频文件,也可以是通过无线/有线传输技术从外部设备中获取到的视频文件。具体地,当该视频图像是从外部设备中获取到的视频文件时,该视频文件的格式为智能终端所支持的格式。

可选地,待转换图像类型包括卡通图像,比如兔子、狗、猫、羊等。在其他可替代的实施例中,待转换图像类型还可为动漫图像以及明星人脸图像等。在一个具体的实施例中,当待转换图像的类型为卡通图像,且要将视频图像的头像转换成羊时,则智能终端接收对视频图像转换成羊头像的第一控制指令。

s12:获取到视频图像的每一帧图像的三维系数。

当接收到对视频图像进行头像类型转换的第一控制指令后,则获取该视频图像对应的每一帧图像的三维系数。该三维系数预先被保存在智能终端中。

三维系数为采集的视频图像中的脸部表情数据对应的表情动作幅度系数。可选地,表情数据分为:高兴、惊讶、悲伤、生气、厌恶、恐惧和中性7种表情。也可以按照表情幅度进行分类,比如,张嘴、眨眼、挑眉、摇头等。本实施例中,三维系数包括眼睛闭合程度、张嘴大小、头部角度中的至少一种。

可选地,人脸表情数据提取可采用人脸关键点检测的方法,通过人脸关键点检测算法对人脸表情数据进行人脸关键点检测。在一个具体的实施例中,可在人脸区域获得68个特征点,其中面部轮廓包含16个特征点,其它特征点均匀分布在双眼,鼻子,嘴巴部位,并按照从左到右,从内到外的顺序对特征点进行排序,将人脸全局区域校准归一化为固定大小,利用关键点位置获取表情数据。

在其他可替代的实施例中,该表情数据提取还可采用其他方法。比如,人脸表情依靠肌肉的运动来体现,人脸表情静态图像直观地显示了表情发生时人脸肌肉运动所产生的面部形体和纹理的变化。从整体上看,这种变化造成了面部器官的明显形变,会对人脸图像的全局信息带来影响,因此可从整体角度考虑表情特征的人脸表情识别算法。整体法中的经典算法包括主元分析法(principalcomponentanalysis,pca)、独立分量分析法(indenpentcompondentanalysis,ica)和线性判别分析法(lineardiscriminantanalysis,lda)。其中pca算法是一种无监督方法,其优点是不需要待处理样本的类别信息,同时可以有效地处理高维数据。缺点是该方法处理数据时产生的协方差矩阵维数过高,影响了算法的运行。作为pca算法的延伸,二维主元分析算法(2dpca)在一定程度上解决了这一问题。ica算法也属于无监督方法,可以提取像素间隐藏的信息,并且适合非高斯分布的数据处理,但是算法的实时性有待提高。lda算法属于有监督方法,其特点是充分地保留了样本的类别结构。

s13:基于所述每一帧图像的三维系数通过三维模型将视频图像的每一帧图像转换成与待转换图像类型对应的图像。

本实施例中,待转换图像类型的三维模型已经提前编辑完成,只需将每一帧的图像的三维系数对应的表情数据添加到三维模型中,通过该三维模型即可实现对视频图像头像的转换,省略重新录制的麻烦。

在一个具体的实施例中,三维模型首先确定待转换图像的类型,再根据接收到的三维系数确定表情。比如,上述保存的视频图像的帧图像的三维系数为眼睛闭着、嘴巴张大、头上扬15度,待转换的图像类型为羊时,即将上述三维系数添加到本智能终端中保存的羊的三维模型中去。通过该三维模型将视频图像中的头像类型更换为羊,并根据上述三维系数确定头像中羊的表情也是眼睛闭着、嘴巴张大、头上扬15度。

s14:将与待转换图像类型对应的图像合成目标视频图像。

通过上述视频图像的头像转换得到与转换图像类型对应的图像后,将与转换图像类型对应的图像进行合成,而得到目标视频图像。

优选地,在将对应的卡通图像进行合成时,可按照视频图像中对应的帧图像的顺序和视频图像的帧速率对卡通图像进行合成,而得到目标视频图像,以保证待转换视频图像与目标视频图像的一致性。

在其他可替代的实施例中,为了使得合成的目标视频图像更加有趣味性,可选取部分合成的图像来进行合成目标视频图像。比如按照待转换视频图像的时间先后顺序将视频图像中的100幅帧图像进行处理得到了对应的转换后的图像,可只对其中的50帧图像进行图像合成,比如只对编号为奇数的转换后的图像进行合成,或者只对编号为偶数的转换后的图像进行合成。通过此种方式,合成的目标视频图像的表情跨度会更大一些,给人以更强的视觉感。

另外,用户也可根据自身的爱好,选择不同的帧速率来进行合成卡通图像,得到目标视频图像。当用户想观看快速版的视频文件时,则可选择较高的帧速率来合成目标视频图像,当用户想观看慢速版的视频文件,可选择较低的帧速率来合成目标视频图像。至于帧速率的具体大小,用户可根据自己的爱好自行设置,在此不做限定。

上述实施例中,本申请通过直接读取视频图像的三维系数,当需要对视频文件进行头像更换时,通过第一控制指令直接获取到视频图像的每一帧图像的三维系数,然后再基于该三维系数通过三维模型将视频图像的每一帧图像转换成与待转换图像类型对应的图像,最后将与待转换图像类型对应的图像合成目标视频图像。能够实现不重录视频而完成对视频文件的头像进行更换。另外,本申请先录制视频,然后再进行头像更换处理,通过分时处理数据的方式,降低了对智能终端性能的要求。

请参阅图2,图2是本申请智能终端图像转换的方法第二实施方式流程示意图。在本实施例中,该方法具体包括:

s21:获取到视频图像的每一帧图像的表情数据。

用帧的方式读取需要转换头像的视频图像,得到视频图像的每一帧图像。智能终端再对每一帧图像进行识别处理,对视频图像中的人脸区域进行识别截取,以得到视频图像的每一帧图像的表情数据区域。

在一个具体的实施例中,该步骤的一实施方式如图3所示,具体为:

s211:通过智能终端的摄像设备获取到视频图像的每一帧图像。

当智能终端的性能不高时,可以采用先录制视频,得到视频文件的视频图像,再对该视频文件进行拆分,得到视频图像的每一帧图像。当智能终端性能较高,具有处理复杂数据功能时,可以一边通过智能终端的摄像设备录制视频图像,一边读取视频图像的每一帧图像,而进行图像处理。

s212:提取每一帧图像的表情数据。

读取到视频图像的每一帧图像后,则提取每一帧图像的表情数据。对每一帧图像进行识别,通过关键点检测的方法,对帧图像的面部区域进行截取,以基于该面部区域进行表情数据的获取。可选的,表情数据具体包括眨眼、张嘴、摇头等相关特征。

本实施例中,将表情数据分为:高兴、惊讶、悲伤、生气、厌恶、恐惧和中性7种表情。在其他可替代的实施例中,也可以按照表情幅度进行分类,比如,张嘴、眨眼、挑眉、摇头等。

s22:基于表情数据生成每一帧图像的所述三维系数;其中,三维系数为表情数据对应的表情动作幅度系数。

基于上述获取到的表情数据,生成三维系数。三维系数为采集的视频图像中的脸部表情数据。具体地,可包括眼睛闭合程度、张嘴大小、头部角度中的至少一种。可选地,人脸表情数据提取可采用人脸关键点检测的方法,人脸关键点检测算法对人脸表情数据进行人脸关键点检测。在一个具体的实施例中,可获得68个特征点,其中面部轮廓包含16个特征点,其它特征点均匀分布在双眼,鼻子,嘴巴部位,并按照从左到右,从内到外的顺序对特征点进行排序。将人脸全局区域校准归一化为固定大小,利用关键点位置获取表情数据。

在其他可替代的实施例中,表情数据提取还可采用其他方法。比如,人脸表情依靠肌肉的运动来体现,人脸表情静态图像直观地显示了表情发生时人脸肌肉运动所产生的面部形体和纹理的变化。从整体上看,这种变化造成了面部器官的明显形变,会对人脸图像的全局信息带来影响,因此可从整体角度考虑表情特征的人脸表情识别算法。整体法中的经典算法包括:主元分析法(principalcomponentanalysis,pca)、独立分量分析法(indenpentcompondentanalysis,ica)和线性判别分析法(lineardiscriminantanalysis,lda)。其中pca算法是一种无监督方法,其优点是不需要待处理样本的类别信息,同时可以有效地处理高维数据。缺点是该方法处理数据时产生的协方差矩阵维数过高,影响了算法的运行。作为pca算法的延伸,二维主元分析算法(2dpca)在一定程度上解决了这一问题。ica算法也属于无监督方法,可以提取像素间隐藏的信息,并且适合非高斯分布的数据处理,但是算法的实时性有待提高。lda算法属于有监督方法,其特点是充分地保留了样本的类别结构。

s23:保存三维系数。

在获取到三维系数后,将三维系数转换成设定格式的数据,并进行保存。本实施例中,设定格式包括javascript对象标记格式(javascriptobjectnotation,json)。json是一种轻量级的数据交换格式,采用完全独立于语言的文本格式,是理想的数据交换格式。

可选地,三维系数还可保存为扩展标记语言(extensiblemarkuplanguage,xml)的格式,xml格式用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。或者三维系数还可保存为protocolbuffers格式,该格式是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。还可用于通讯协议、数据存储等领域的与语言无关、平台无关、可扩展的序列化结构数据格式。

s24:接收对视频图像进行头像类型转换的第一控制指令,其中,第一控制指令包括待转换图像类型。

同步骤s11,在此不再赘述。

s25:获取到所述视频图像的每一帧图像的三维系数。

同步骤s12,在此不再赘述。

s26:基于所述每一帧图像的三维系数通过三维模型将视频图像的每一帧图像转换成与待转换图像类型对应的图像。

同步骤s13,在此不再赘述。

s27:将与待转换图像类型对应的图像合成目标视频图像。

同步骤s14,在此不再赘述。

上述实施例中,本申请通过直接读取视频图像的三维系数,当需要对视频文件进行头像更换时,通过第一控制指令直接获取到视频图像的每一帧图像的三维系数,然后再基于该三维系数通过三维模型将视频图像的每一帧图像转换成与待转换图像类型对应的图像,最后将与待转换图像类型对应的图像合成目标视频图像。能够实现不重录视频而完成对视频文件的头像进行更换。另外,本申请先录制视频,然后再进行头像更换处理,通过分时处理数据的方式,降低了对智能终端性能的要求。

本申请还提供了一种智能终端,该智能终端的结构示意图如图4所示,该智能终端4包括相互耦接的通信电路401以及处理器402,处理器402在工作时配合通信电路401实现上述实施例中的智能终端图像转换的方法。

其中,该智能终端4包括pc机、平板电脑以及智能手机等的智能设备。

处理器402与通信电路401相配合用于接收对视频图像进行头像类型转换的第一控制指令,其中,第一控制指令包括待转换图像类型;获取到视频图像的每一帧图像的三维系数;基于每一帧图像的三维系数通过三维模型将视频图像的每一帧图像转换成与待转换图像类型对应的图像;将与待转换图像类型对应的图像合成目标视频图像。本实施例中,将表情数据分为:高兴、惊讶、悲伤、生气、厌恶、恐惧和中性7种表情。也可以按照表情幅度进行分类,比如,张嘴、眨眼、挑眉、摇头等。其中,三维系数包括眼睛闭合程度、张嘴大小、头部角度中的至少一种。

其中,待转换图像类型包括卡通图像,在其他实施例中,还可包括动漫图像、明星图像等。

优选地,处理器402与通信电路401相配合还用于获取到视频图像的每一帧图像的表情数据;基于表情数据生成每一帧图像的三维系数;其中,三维系数为表情数据对应的表情动作幅度系数;保存三维系数。具体地,可将三维系数转换成设定格式的数据,并进行保存。在本实施例中,设定格式包括json格式。其他实施例中,设定格式还可包括xml格式、protocolbuffers格式等数据格式。

在其他实施例中,处理器402与通信电路401相配合还用于通过智能终端的摄像设备获取到视频图像的每一帧图像;提取每一帧图像的表情数据。

可选地,处理器402与通信电路401相配合还可用于确定需要进行头像类型更换的视频图像。

本实施例提供的智能终端,通过直接读取视频图像的三维系数,当需要对视频文件进行头像更换时,通过第一控制指令直接获取到视频图像的每一帧图像的三维系数,然后再基于该三维系数通过三维模型将视频图像的每一帧图像转换成与待转换图像类型对应的图像,最后将与待转换图像类型对应的图像合成目标视频图像。能够实现不重录视频而完成对视频文件的头像进行更换。另外,本申请先录制视频,然后再进行头像更换处理,通过分时处理数据的方式,降低了对智能终端性能的要求。

本申请还提供了一种存储装置,该存储装置上存储有程序数据,该程序数据被处理器执行实现如上述任一实施例的智能终端图像转换的方法。请参阅图5,图5是本申请提供的存储装置的一实施例的结构示意图。本实施例中,该存储装置5存储有处理器可运行的程序数据501,该程序数据501用于执行上述任一实施例中的智能终端图像转换的方法。

该存储装置5具体可以为u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory,)、磁碟或者光盘等可以存储程序数据的介质,或者也可以为存储有该程序数据501的服务器或者终端,该服务器或者终端可将存储的程序数据501发送给其他设备运行,或者也可以自运行该存储的程序数据501。

以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1