视频处理方法、装置、电子设备及存储介质与流程

文档序号：12890274阅读：171来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及图像处理和语音处理技术领域，具体涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术：

随着图像处理和语音处理技术的发展，用户通常可使用相关的应用软件或插件对图像或语音进行处理，例如，在旅行或会议的应用场景下，将输入语音进行语译合成；在聊天的场景下，对语音进行变声处理；对输入图像进行美颜、换脸等等图像处理。

然而，在相关技术中，声音转换或图像合成都是基于应用软件或插件为用户提供的模板，从而无法为输入视频中的人物选择合适的语音和人脸图像，造成应用的实用性差的问题。

技术实现要素：

本发明实施例提供一种视频处理方法、装置、电子设备及存储介质，用于解决视频中的人物特征难以识别造成应用的实用性差的问题。

本发明实施例第一方面提供一种视频处理方法，包括：

对输入视频划分的a个视频片段和b个语音片段进行目标识别，得到包含目标人物的第一人脸图像的m个视频片段和包含所述目标人物的第一声音的n个语音片段，所述a为大于1的整数，所述b为正整数，所述m为小于或等于所述a的正整数，所述n为小于或等于所述b的正整数；

将所述n个语音片段进行语音处理，得到n个目标语音文本，每一语音片段对应一个目标语音文本；

从所述m个视频片段中提取所述第一人脸图像的表征信息，得到q个表征信息，所述q为大于或等于所述m的整数；

根据所述q个表征信息确定与所述目标人物匹配的第二声音；

将所述第二声音与所述n个目标语音文本进行合成，得到n个目标语音片段，每一目标语音文本对应一个目标语音片段。

结合本发明实施例第一方面，所述将所述n个语音片段语音处理，得到n个目标语音文本，包括：

将所述n个语音片段进行语音识别，得到所述n个文本文件，每一语音片段对应一个文本文件；

将所述n个文本文件按照指定语言进行翻译，得到所述n个目标语音文本，每一文本文件对应一个目标语音文本。

结合本发明实施例第一方面，在本发明实施例第一方面的第二种可能的实现方式中，所述从所述m个视频片段中提取所述第一人脸图像的表征信息，得到q个表征信息，包括：

对所述m个视频片段中的每一视频片段的第一人脸图像，或对所述m个视频片段中包含所述第一人脸图像的l帧图像中的每一帧图像的第一人脸图像进行表征信息提取，得到所述q个表征信息，所述l为正整数。

结合本发明实施例第一方面，在本发明实施例第一方面的第三种可能的实现方式中，所述根据所述q个表征信息确定与所述目标人物匹配的第二声音，包括：

将所述q个表征信息进行分类，得到p类表征信息，所述p为小于或等于所述q的正整数；

根据所述p类表征信息中占用所述输入视频的播放时长最长的一类表征信息确定所述第二声音。

结合本发明实施例第一方面、第一方面的第一种可能的实现方式、第二种可能的实现方式或第三种可能的实现方式，在本发明实施例第一方面的第四种可能的实现方式中，在所述得到q个表征信息之后，所述方法还包括：

根据所述q个表征信息确定与所述目标人物匹配的第二人脸图像；

将所述m个视频片段中的第一人脸图像替换为所述第二人脸图像，得到m个目标视频片段，每一视频片段对应一个目标视频片段；

将所述n个目标语音片段和所述m个目标视频片段进行融合处理，得到输出视频。

结合本发明实施例第一方面、第一方面的第一种可能的实现方式、第二种可能的实现方式或第三种可能的实现方式，在本发明实施例第一方面的第五种可能的实现方式中，在所述对输入视频划分的a个视频片段和b个语音片段进行目标识别之前，所述方法还包括：

根据预设时长或所述输入视频的播放时长将所述输入视频划分为所述a个视频片段；

根据预设音量阈值将所述输入视频划分为所述b个语音片段。

结合本发明实施例第一方面、第一方面的第一种可能的实现方式、第二种可能的实现方式或第三种可能的实现方式，在本发明实施例第一方面的第六种可能的实现方式中，所述方法还包括：

从所述n个语音片段提取所述第一声音的声音信息，得到r个表征信息，所述r为大于或等于所述n的整数；

根据所述q个表征信息和所述r个声音信息确定所述第二声音。

本发明实施例第二方面提供一种视频处理装置，包括：

目标识别单元，用于对输入视频划分的a个视频片段和b个语音片段进行目标识别，得到包含目标人物的第一人脸图像的m个视频片段和包含所述目标人物的第一声音的n个语音片段，所述a为大于1的整数，所述b为正整数，所述m为小于或等于所述a的正整数，所述n为小于或等于所述b的正整数；

语音处理单元，用于将所述n个语音片段进行语音处理，得到n个目标语音文本，每一语音片段对应一个目标语音文本；

表征提取单元，用于从所述m个视频片段中提取所述第一人脸图像的表征信息，得到q个表征信息，所述q为大于或等于所述m的整数；

声音确定单元，根据所述q个表征信息确定与所述目标人物匹配的第二声音；

语音合成单元，用于将所述第二声音与所述n个目标语音文本进行合成，得到n个目标语音片段，每一目标语音文本对应一个目标语音片段。

结合本发明实施例第二方面，在本发明实施例第二方面的第一种可能的实现方式中，所述语音处理单元包括：

语音识别单元，用于将所述n个语音片段进行语音识别，得到所述n个文本文件，每一语音片段对应一个文本文件；

语音翻译单元，用于将所述n个文本文件按照指定语言进行翻译，得到所述n个目标语音文本，每一文本文件对应一个目标语音文本。

结合本发明实施例第二方面，在本发明实施例第二方面的第二种可能的实现方式中，所述表征提取单元具体用于对所述m个视频片段中的每一视频片段的第一人脸图像，或对所述m个视频片段中包含所述第一人脸图像的l帧图像中的每一帧图像的第一人脸图像进行表征信息提取，得到所述q个表征信息，所述l为正整数。

结合本发明实施例第二方面，在本发明实施例第二方面的第三种可能的实现方式中，所述装置还包括：

表征分类单元，用于将所述q个表征信息进行分类，得到p类表征信息，所述p为小于或等于所述q的正整数，由所述声音确定单元根据所述p类表征信息中占用所述输入视频的播放时长最长的一类表征信息确定所述第二声音。

结合本发明实施例第二方面、第二方面的第一种可能的实现方式、第二种可能的实现方式或第三种可能的实现方式，在本发明实施例第二方面的第四种可能的实现方式中，所述装置还包括：

图像确定单元，用于根据所述q个表征信息确定与所述目标人物匹配的第二人脸图像；

图像替换单元，用于将所述m个视频片段中的第一人脸图像替换为所述第二人脸图像，得到m个目标视频片段，每一视频片段对应一个目标视频片段；

视频融合单元，用于将所述n个目标语音片段和所述m个目标视频片段进行融合处理，得到输出视频。

结合本发明实施例第二方面、第二方面的第一种可能的实现方式、第二种可能的实现方式或第三种可能的实现方式，在本发明实施例第二方面的第五种可能的实现方式中，所述装置还包括：

视频划分单元，用于根据预设时长或所述输入视频的播放时长将所述输入视频划分为所述a个视频片段；

语音划分单元，用于根据预设音量阈值将所述输入视频划分为所述b个语音片段。

结合本发明实施例第二方面、第二方面的第一种可能的实现方式、第二种可能的实现方式或第三种可能的实现方式，在本发明实施例第二方面的第六种可能的实现方式中，所述装置还包括：

声音提取单元，用于从所述n个语音片段提取所述第一声音的声音信息，得到r个表征信息，所述r为大于或等于所述n的整数，由所述声音确定单元根据所述q个表征信息和所述r个声音信息确定所述第二声音。

本发明实施例第三方面提供了一种电子设备，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行本发明实施例第一方面提供的一种视频处理方法。

本发明实施例第四方面提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现本发明实施例第一方面提供的一种视频处理方法。

本发明实施例第五方面提供了一种应用程序，其中，该应用程序用于在运行时执行本发明实施例第一方面提供的一种视频处理方法。

本发明实施例中，将输入视频划分为a个视频片段和b个语音片段，从a个视频片段中选取包含目标人物的第一人脸图像的视频片段得到m个视频片段，从b个语音片段中选取包含目标人物的第一声音的语音片段得到n个视频片段，也就是说，只提取包含目标人物的视频片段和语音片段，可提高提取效率。根据从m个视频片段中的每一视频片段中提取的第一人脸图像的表征信息来确定与目标人物匹配的第二声音。将n个语音片段进行语音处理得到的n个目标语音文本与第二声音进行合成得到n个目标语音片段，即目标语音片段中是以第二声音进行播放的，从而增强了应用的实用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频处理方法的流程图；

图2是本发明实施例提供的一种图像换脸方法的示意图；

图3是本发明实施例提供的另一种视频处理方法的流程图；

图4是本发明实施例提供的另一种图像换脸方法的示意图；

图5是本发明实施例提供的一种视频处理装置的结构图；

图6是本发明实施例提供的另一种视频处理装置的结构图；

图6a是本发明实施例提供的语音处理单元的结构图；

图7是本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例所描述的电子设备可以包括智能手机(如android手机)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备(mid，mobileinternetdevices)或穿戴式设备等电子设备，设备仅是举例，而非穷举，包含但不限于电子设备。

本发明实施例提供一种视频处理方法、装置、电子设备及存储介质，用于解决视频中的人物特征难以识别造成应用的实用差的问题。以下分别进行详细说明。

请参阅图1，图1是本发明实施例提供的一种视频处理方法的流程图，该视频处理方法可以包括以下步骤：

101、对输入视频划分的a个视频片段和b个语音片段进行目标识别，得到包含目标人物的第一人脸图像的m个视频片段和包含目标人物的声音的n个语音片段。

本发明实施例中，a为大于1的整数，b为正整数，m为小于或等于a的正整数，n为小于或等于b的正整数。本实施例基于目标人脸的第一人脸图像第一声音，将在a个视频片段中识别到第一人脸图像的m个视频片段，在b个语音片段中识别到第一声音的n个语音片段时，执行步骤102，否则结束。

本发明实施例中，将输入视频解码为a个视频片段和b个语音片段，对于拆分视频片段的技术不作限定，可选ffmpeg技术将输入视频划分为a个视频片段。将输入视频划分为a个视频片段和b个语音片段，可减小处理整个输入视频的复杂度，从而提高处理视频的速率。

本发明实施例中，可采用hog(histogramoforientedgradient，方向梯度直方图)、lbp(localbinarypattern，局部二值模式)、gabor小波变换、类哈尔(haar-like)等特征提取算法进行人脸识别，对于具体的特征提取算法不作限定。

可选的，提取视频片段的特征值，根据特征值对输入图像进行积分处理得到积分图像；采用自适应增强算法区分积分图像中的人脸和非人脸的强分类器；采用瀑布型级联分类器将人脸的强分类器级联起来，得到人脸图像；判断得到的人脸图像是否为目标人脸，若是，则确定视频片段包含目标人脸。采用本方法，在多种尺度下用相同的时间计算不同的特征，可迅速淘汰大量待检测区域，降低了平均检测开销，从而提高人脸识别的效率。

需要说明的是，将输入视频划分为a个视频片段和b个语音片段时，对视频片段和语音片段的起始点和终止点进行标记，一方面对视频片段和语音片段进行区分，另一方面利于合成处理得到输出视频。当a等于b时，则视频片段和语音片段的播放时长的起始点和结束点相同，利于后续合并输入视频。

本发明实施例中，输入视频除了是视频之外，还可以是由多个连续帧图像构成的动态图像，或者是通过连拍形成的图像文件。输入视频可以上传至服务器端，也可导入本地端，还可通过本地端上传至服务器。其中，将输入视频上传至服务器端，由于服务器端采用大量的标签对输入视频中的对象、场景和人物表情进行识别，利于提高识别表征信息的准确性。

102、将n个语音片段进行语音处理，得到n个目标语音文本。

本发明实施例中，每一语音片段对应一个目标语音文本，语音处理可以提取语音片段中的文字，对文字进行翻译，调整、替换等处理，还可以对文字中的关键字进行提取和扩展等处理。

可选的，将n个语音片段进行语音识别，得到n个文本文件；将n个文本文件按照指定语言进行翻译，得到n个目标语音文本。

其中，每一语音片段对应一个文本文件，每一文本文件对应一个目标语音文本。举例来说，假设指定语言为英语，输入视频中的语言为汉语，存在3个语音片段包含第一声音，则将语音片段先转化为文本文件得到3个中文的文本文件，再根据英文和中文之间的关系进行翻译得到3个英文的目标语音文本，从而将输入视频中的语音片段进行翻译。

103、从m个视频片段中提取第一人脸图像的表征信息，得到q个表征信息。

本发明实施例中，提取第一人脸图像的人脸特征可采用人脸识别的深度学习框架，对于人脸的部份提取不同的尺度特征，经过类神经网络的分类器加以分类，最后得到各种不同的人脸的特征，这些特征包括性别、情绪、五官状态、与其他图像中的人脸的相似程度等。需要说明的是，表征信息还携带了该表征信息占用输入视频的播放时长。

本发明实施例中，q为大于或等于m的整数。表征信息可以是向量形式，也可以是以json为格式的文本形式，还可以是列表等一系列表征组成的形式，对于具体形式的表征信息不作限定。表征信息至少包括：表情特征、年龄特征、性别特征和五官特征等k个维度，其中，k为正整数。

可选的，对m个视频片段中的每一视频片段的第一人脸图像或对m个视频片段中包含第一人脸图像的l帧图像中的每一帧图像的第一人脸图像进行表征信息提取，得到q个表征信息。

其中，l为正整数。由于视频片段中可包括很多帧图像，而帧图像之间存在一定的差别，以视频片段为单位提取第一人脸图像的表征信息可大致获取该视频片段的表征信息，而以帧为单位提取第一人脸图像的表征信息，可进一步将视频片段的表征信息进行分类，从而提高目标人物的人物特征的准确率。

可选的，表征信息至少包括表情特征、性别特征和五官特征等多个维度。以表征信息中的目标维度为例，目标维度为表征信息中的任一维度。可选的，将人脸特征与目标维度的特征参数进行匹配，得到多个匹配值；将多个匹配值中大于或等于预设阈值的匹配值作为目标维度对应的表征概率值。

其中，对于表征概率值的具体形式不作限定，可为百分数或者小数。也就是说，分别将第一人脸图像的人脸特征与每个维度的特征参数进行匹配得到多个匹配值，选取每个维度中大于或等于预设阈值的匹配值作为该维度对应的表征概率值，且以概率的方式来描述人脸特征，从而提高人脸特征描述的准确率。

举例来说，假设预设阈值为10％，表征信息包括表情特征、性别特征和五官特征。如图2所示的绿巨人洛克的图像中，获取洛克的人脸特征，将洛克的人脸特征分别与表情特征、性别特征和五官特征中的特征参数进行匹配，特征参数如生气、高兴、难过、男性、女性、双眼皮、高鼻梁、没有佩戴眼镜、方脸等等。得到80％的生气表情特征、5％的难过表情特征、98％的男性性别特征、2％的女性性别特征、70％的方脸五官特征，没有眼镜的概率为100％，由于预设阈值为10％，则洛克的表征信息为{生气80％，男性98％，方脸70％，没有眼镜100％}。

可选的，估算人脸特征得到n个维度中每一维度对应的至少1个表征概率值，得到m个表征概率值；对m个表征概率值进行加权处理，得到表征信息。其中，m大于或等于n。也就是说，综合考虑各种不同的人脸特征，做出最适配的决策，从而提高判断人脸表情的准确性。

举例来说，表情特征为开心的概率为60％，但动作特征为微笑的概率有80％，则可以提高开心表情特征的权重，将开心表情特征的表征概率值加权得到80％。或者五官特征中表情特征为冷酷的概率为60％，带太阳眼镜的概率为75％，并且有留山羊胡80％的机率值，则可提高冷酷表情特征的权重，将冷酷表情特征的表征概率值加权得到80％。

104、根据q个表征信息确定与目标人物匹配的第二声音。

可选的，将q个表征信息进行分类，得到p类表征信息；根据p类表征信息中占用输入视频的播放时长最长的一类表征信息确定第二声音。

其中，p为小于或等于q的正整数。也就是说，根据每一视频片段或每一帧图像之间的每类表征信息之间的差异值进行分类得到p类表征信息，根据p类表征信息中选取占用输入视频的播放时长最长的一类表征信息确定第二声音。

举一个例子来说，假设输入视频中存在10个包含目标人物的第一人脸图像的视频片段，提取每一视频片段的表征信息，其中，第1视频片段到第3视频片段的差异值小于表征阈值，第3视频片段与第4视频片段的差异值大于表征阈值，第4视频片段到第7视频片段差异值小于表征阈值，第7视频片段与第8视频片段的差异值大于表征阈值，第8视频片段到第10视频片段差异值小于表征阈值，且第8视频片段到第10视频片段差异值与第1视频片段到第3视频片段的差异值小于表征阈值，则第4视频片段到第7视频片段分为第一类表征信息，将第1视频片段到第3视频片段和第8视频片段到第10视频片段分为第二类表征信息。假设每个视频片段的播放时长相等，则第二类表征信息与第一类表征信息相比播放时间更长，则根据第二类表征信息确定第二声音。

再举一个例子来说，假设视频片段包括200帧，则在同一个视频片段中，提取每一帧图像的表征信息，其中，第1帧图像到第79帧图像的差异值小于表征阈值，第79帧图像与第80帧图像的差异值大于表征阈值，第80帧图像到第200帧图像的差异值小于表征阈值，则将第1帧图像到第79帧图像分为第一类表征信息，而第80帧图像到第200帧图像分为第二类表征信息，可进一步将视频片段的表征信息进行分类。且第二类表征信息与第一类表征信息相比播放时间更长，则根据第二类表征信息确定第二声音。

可选的，从n个语音片段提取第一声音的声音信息，得到r个表征信息；根据q个表征信息和r个声音信息确定第二声音。

其中，r为大于或等于n的整数。对于提取第一声音的声音信息的方法不作限定，声音信息可包括性别、情绪、年龄、与其他人的声音相似程度等。需要说明的是，声音信息还携带了该声音信息占用输入视频的播放时长。

也就是说，根据视频片段中的第一人脸图像的表征信息和语音片段中的第一声音的声音特征来确定目标人物的人物特征，从而进一步提高人物特征判断的准确性。

其中，第二声音可从预设声音库中进行查找，预设声音库包括多种类型的声音，根据目标人物的表征信息和/或声音信息可从预设声音库中选择至少一个第二声音。当确定多个第二声音时，可接收用户发送的指定指令，从而确定最终转换的第二声音，也可全部进行转换后供用户选择。

105、将第二声音与n个目标语音文本进行合成，得到n个目标语音片段。

在图1所描述的视频处理方法中，将输入视频划分为a个视频片段和b个语音片段，从a个视频片段中选取包含目标人物的第一人脸图像的视频片段得到m个视频片段，从b个语音片段中选取包含目标人物的第一声音的语音片段得到n个视频片段，也就是说，只提取包含目标人物的视频片段和语音片段，可提高提取效率。根据从m个视频片段中的每一视频片段中提取的第一人脸图像的表征信息来确定与目标人物匹配的第二声音。将n个语音片段进行语音处理得到的n个目标语音文本与第二声音进行合成得到n个目标语音片段，即目标语音片段中是以第二声音进行播放的，从而增强了应用的实用性。

请参阅图3，图3是本发明实施例提供的另一种视频处理方法的流程图，该视频处理方法可以包括以下步骤。

201、根据预设时长或输入视频的播放时长将输入视频划分为a个视频片段，根据预设音量阈值将输入视频划分为b个语音片段。

本发明实施例中，将输入视频划分为a个视频片段和b个语音片段，可选ffmpeg技术将输入视频划分为m个视频片段，对于拆分视频片段的技术不作限定。可减小处理整个输入视频的复杂度，从而提高处理图像和语音的速率。

例如，假设预设时长为1秒钟，则每连续的1秒钟的输入视频为一个视频片段；假设输入视频的播放时长为10秒钟，m为5，则每连续的2秒钟的输入视频为一个视频片段。将输入视频划分为多个视频片段，由于视频片段是连续的且时间相差不大，则可认为该视频片段中的人脸表征一致，从而利于提高查找效率。

再例如，假设预设音量阈值为0，则当音量为0时，停止划分语音片段。

202、对输入视频划分的a个视频片段和b个语音片段进行目标识别，得到包含目标人物的第一人脸图像的m个视频片段和包含目标人物的第一声音的n个语音片段。

203、将n个语音片段进行语音处理，得到n个目标语音文本。

204、根据从m个视频片段中提取的第一人脸图像的表征信息，得到q个表征信息。

205、根据q个表征信息确定与目标人物匹配的第二声音。

206、将第二声音与n个目标语音文本进行合成，得到n个目标语音片段，每一目标语音文本对应一个目标语音片段。

其中，步骤202-206可参照图1所描述的视频处理方法中的步骤101-105，在此不再赘述。

207、根据q个表征信息确定与目标人物匹配的第二人脸图像。

本实施例中，根据q个表征信息确定第二人脸图像，可在存储的预设人脸图像库中查找与目标人物匹配的第二人脸图像。

其中，预设人脸图像库包括多种类型的人脸图像，根据目标人物的人物特征可分别从预设人脸图像库中选择至少一个第二人脸图像。当确定多个第二人脸图像时，可接收用户发送的指定指令，从而确定最终转换的第二人脸图像，也可全部进行转换后供用户选择。

可选的，从n个语音片段提取第一声音的声音信息，得到r个表征信息；根据q个表征信息和r个声音信息确定第二人脸图像。

也就是说，根据视频片段中的第一人脸图像的表征信息和语音片段中的第一声音的声音特征来确定第二人脸图像，从而进一步提高人物特征判断的准确性。

208、将m个视频片段中的第一人脸图像替换为第二人脸图像，得到m个目标视频片段。

在本实施例中，将第二人脸图像替换为m个视频片段中的第一人脸图像，每一视频片段对应一个目标视频片段。举例来说，如图2所示的换脸的场景示意图，输入视频中的第一人脸图像为特普朗的图像，获取特普朗的图像的人脸特征，确定特普朗的图像的人脸特征的表征信息{生气80％，男性98％，方脸70％，没有眼镜100％}，假设预设人脸图像库中包括绿巨人洛克、女超人和叶问，则经过表征信息与预设人脸图像库中的人脸图像的表征信息确定第二人脸图像为洛克，将特普朗的图像与洛克的图像进行换脸处理，可看出输出图像中洛克的脸换成了特普朗的脸。

可选的，将目标人脸图像中的第二人脸图像进行预处理，得到第三人脸图像；将第三人脸图像的人脸特征替换为第一人脸图像的人脸特征，得到第四人脸图像；通过损失函数修正第四人脸图像，得到第五人脸图像；将第五人脸图像与目标人脸图像中除了第二人脸图像之外的图像进行贴合，得到输出图像。

其中，预处理可以是对脸部对齐处理、图像增强和归一化等工作。对第二人脸图像进行脸部对齐处理，可得到人脸位置端正的人脸图像，对转换后的第二人脸图像进行反对齐处理，可得到与目标人脸图像对应的图像中的第二人脸图像的人脸位置一致的人脸图像，从而增强了图像效果。图像增强是为了改善人脸图像的质量，不仅在视觉上更加清晰图像，而且使图像更利于计算机的处理与识别；归一化工作的目标是取得尺寸一致，灰度取值范围相同的标准化人脸图像，从而进一步提高图像效果。

当预处理为脸部对齐处理时，为了保证输出图像与目标人脸图像中人脸方向一致，还需将第四人脸图像进行反脸部对齐处理。可选的，将第四人脸图像进行反脸部对齐处理，得到第六人脸图像；通过损失函数修正第六人脸图像，得到第五人脸图像，从而提高图像效果。

其中，损失函数为经过类神经网络训练的网络图像，用来修正换脸处理后的图像损耗，从而提高图像效果。

需要说明的是，替换后的第二人脸图像没有清除第二人脸图像的人脸特征，也就是说，转换后的第二人脸图像融合了第一人脸图像的人脸特征和第二人脸图像特征。

举例来说，如图4所示的图像换脸的示意图，第三人脸图像是将目标人脸图像的第二人脸图像进行脸部对齐处理得到的，第四人脸图像是将第三人脸图像的人脸特征替换为输入图像的第一人脸图像的人脸特征得到的，第六人脸图像是将第四人脸图像进行反脸部对齐处理，通过损失函数修正第六人脸图像得到第五人脸图像，可提高图像效果，再将第五人脸图像与目标人脸图像中除了第二人脸图像之外的图像进行贴合得到输出图像，从而提高了换脸后的图像效果，增强了趣味性。

209、将n个目标语音片段和m个目标视频片段进行融合处理，得到输出视频。

举例来说，目标人物因为等人聚会等了很久有点愤怒，则录了一段讲话的输入视频，根据步骤103确定目标人物的人物特征为：男30岁、愤怒80％，则确定第二人脸图像为绿巨人洛克，第二声音为c罗，假设指定语音为英语，则最后出来得到的输入视频为洛克的脸，c罗的声音。

在图3所描述的视频处理方法中，根据预设时长或输入视频的播放时长将输入视频划分为a个视频片段，根据预设音量阈值将输入视频划分为b个语音片段，可减小处理整个输入视频的复杂度，从而提高处理视频的速率。且只提取包含目标人物的第一人脸图像的视频片段的m个视频片段，和包含目标人物的第一声音的语音片段的n个视频片段，可提高提取效率。根据从m个视频片段中的每一视频片段中提取的第一人脸图像的表征信息确定目标人物匹配的第二人脸图像和第二声音。将m个视频片段中的第一人脸图像全部替换为第二人脸图像得到m个目标视频片段，将n个语音片段进行语音处理得到的n个目标语音文本与第二声音进行合成得到n个目标语音片段，再将n个目标语音片段和m个视频片段进行融合处理，得到处理后的输入视频。将原本只能识别静态图片的人物特征延伸到视频，将视频中的第一人脸图像进行换脸，将视频中的第一声音进行处理和替换，从而增强了应用的趣味性和实用性。

请参阅图5，图5是本发明实施例提供的一种视频处理装置的结构图，该视频处理装置300可以包括：

目标识别单元301，用于对输入视频划分的a个视频片段和b个语音片段进行目标识别，得到包含目标人物的第一人脸图像的m个视频片段和包含目标人物的第一声音的n个语音片段，a为大于1的整数，b为正整数，m为小于或等于a的正整数，n为小于或等于b的正整数。

语音处理单元302，用于将n个语音片段进行语音处理，得到n个目标语音文本，每一语音片段对应一个目标语音文本。

表征提取单元303，用于从m个视频片段中提取第一人脸图像的表征信息，得到q个表征信息，q为大于或等于m的整数。

声音确定单元304，根据q个表征信息确定与目标人物匹配的第二声音。

语音合成单元305，用于将第二声音与n个目标语音文本进行合成，得到n个目标语音片段，每一目标语音文本对应一个目标语音片段。

在图5所描述的视频处理装置中，将输入视频划分为a个视频片段和b个语音片段，从a个视频片段中选取包含目标人物的第一人脸图像的视频片段得到m个视频片段，从b个语音片段中选取包含目标人物的第一声音的语音片段得到n个视频片段，也就是说，只提取包含目标人物的视频片段和语音片段，可提高提取效率。根据从m个视频片段中的每一视频片段中提取的第一人脸图像的表征信息来确定与目标人物匹配的第二声音。将n个语音片段进行语音处理得到的n个目标语音文本与第二声音进行合成得到n个目标语音片段，即目标语音片段中是以第二声音进行播放的，从而增强了应用的实用性。

请参阅图6，图6是本发明实施例提供的另一种视频处理装置的结构图，该视频处理装置400可以包括：

视频划分单元401，用于根据预设时长或输入视频的播放时长将输入视频划分为a个视频片段。

语音划分单元402，用于根据预设音量阈值将输入视频划分为b个语音片段。

目标识别单元403，用于对输入视频划分的a个视频片段和b个语音片段进行目标识别，得到包含目标人物的第一人脸图像的m个视频片段和包含目标人物的第一声音的n个语音片段，a为大于1的整数，b为正整数，m为小于或等于a的正整数，n为小于或等于b的正整数。

语音处理单元404，用于将n个语音片段进行语音处理，得到n个目标语音文本，每一语音片段对应一个目标语音文本。

表征提取单元405，用于从m个视频片段中提取第一人脸图像的表征信息，得到q个表征信息，q为大于或等于m的整数。

声音确定单元406，根据q个表征信息确定与目标人物匹配的第二声音。

语音合成单元407，用于将第二声音与n个目标语音文本进行合成，得到n个目标语音片段，每一目标语音文本对应一个目标语音片段。

图像确定单元408，用于根据q个表征信息确定与目标人物匹配的第二人脸图像。

图像替换单元409，用于将m个视频片段中的第一人脸图像替换为第二人脸图像，得到m个目标视频片段，每一视频片段对应一个目标视频片段。

视频融合单元410，用于将n个目标语音片段和m个目标视频片段进行融合处理，得到输出视频。

可选的，如图6a所示，语音处理单元404包括：

语音识别单元414，用于将n个语音片段进行语音识别，得到n个文本文件，每一语音片段对应一个文本文件；

语音翻译单元424，用于将n个文本文件按照指定语言进行翻译，得到n个目标语音文本，每一文本文件对应一个目标语音文本。

可选的，表征提取单元405具体用于对m个视频片段中的每一视频片段的第一人脸图像，或对m个视频片段中包含第一人脸图像的l帧图像中的每一帧图像的第一人脸图像进行表征信息提取，得到q个表征信息，l为正整数。

可选的，装置还包括：

表征分类单元411，用于将q个表征信息进行分类，得到p类表征信息，p为小于或等于q的正整数，由声音确定单元根据p类表征信息中占用输入视频的播放时长最长的一类表征信息确定第二声音。

可选的，装置还包括：

声音提取单元412，用于从n个语音片段提取第一声音的声音信息，得到r个表征信息，r为大于或等于n的整数，由声音确定单元根据q个表征信息和r个声音信息确定第二声音。

在图6所描述的视频处理装置中，将输入视频划分为a个视频片段和b个语音片段，从a个视频片段中选取包含目标人物的第一人脸图像的视频片段得到m个视频片段，从b个语音片段中选取包含目标人物的第一声音的语音片段得到n个视频片段，也就是说，只提取包含目标人物的视频片段和语音片段，可提高提取效率。根据从m个视频片段中的每一视频片段中提取的第一人脸图像的表征信息确定目标人物的人物特征，由人物特征确定第二人脸图像和第二声音。将m个视频片段中的第一人脸图像全部替换为第二人脸图像得到m个目标视频片段，将n个语音片段进行语音处理得到的n个目标语音文本与第二声音进行合成得到n个目标语音片段，再将n个目标语音片段和m个视频片段进行融合处理，得到处理后的输入视频。将原本只能识别静态图片的人物特征延伸到视频，将视频中的第一人脸图像进行换脸，将视频中的第一声音进行处理和替换，从而增强了应用的趣味性和实用性。

请参阅图7，图7是本发明实施例公开的一种电子设备。其中，电子设备可以为手机、平板电脑等。如图7所示，该电子设备可以包括壳体501、处理器502、存储器503、电路板504和电源电路505，其中，电路板504安置在壳体围成的空间内部，处理器502和存储器503设置在电路板504上；电源电路505，用于为电子设备的各个电路或器件供电；存储器503用于存储可执行程序代码；处理器502通过读取存储器503中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

对输入视频划分的a个视频片段和b个语音片段进行目标识别，得到包含目标人物的第一人脸图像的m个视频片段和包含目标人物的第一声音的n个语音片段，a为大于1的整数，b为正整数，m为小于或等于a的正整数，n为小于或等于b的正整数；

将n个语音片段进行语音处理，得到n个目标语音文本，每一语音片段对应一个目标语音文本；

从m个视频片段中提取第一人脸图像的表征信息，得到q个表征信息，q为大于或等于m的整数；

根据q个表征信息确定与目标人物匹配的第二声音；

将第二声音与n个目标语音文本进行合成，得到n个目标语音片段，每一目标语音文本对应一个目标语音片段。

作为一种可能的实施方式，在将n个语音片段语音处理，得到n个目标语音文本方面，处理器502具体用于执行以下操作：

将n个语音片段进行语音识别，得到n个文本文件，每一语音片段对应一个文本文件；

将n个文本文件按照指定语言进行翻译，得到n个目标语音文本，每一文本文件对应一个目标语音文本。

作为一种可能的实施方式，在从m个视频片段中提取第一人脸图像的表征信息，得到q个表征信息方面，处理器502具体用于执行以下操作：

对m个视频片段中的每一视频片段的第一人脸图像，或对m个视频片段中包含第一人脸图像的l帧图像中的每一帧图像的第一人脸图像进行表征信息提取，得到q个表征信息，l为正整数。

作为一种可能的实施方式，在根据q个表征信息确定与目标人物匹配的第二声音方面，处理器502具体用于执行以下操作：

将q个表征信息进行分类，得到p类表征信息，p为小于或等于q的正整数；

根据p类表征信息中占用输入视频的播放时长最长的一类表征信息确定第二声音。

作为一种可能的实施方式，在得到q个表征信息之后，处理器502还用于执行以下操作：

根据q个表征信息确定与目标人物匹配的第二人脸图像；

将m个视频片段中的第一人脸图像替换为第二人脸图像，得到m个目标视频片段，每一视频片段对应一个目标视频片段；

将n个目标语音片段和m个目标视频片段进行融合处理，得到输出视频。

作为一种可能的实施方式，在对输入视频划分的a个视频片段和b个语音片段进行目标识别之前，处理器502还用于执行以下操作：

根据预设时长或输入视频的播放时长将输入视频划分为a个视频片段；

根据预设音量阈值将输入视频划分为b个语音片段。

作为一种可能的实施方式，处理器502还用于执行以下操作：

从n个语音片段提取第一声音的声音信息，得到r个表征信息，r为大于或等于n的整数；

根据q个表征信息和r个声音信息确定第二声音。

在图7所描述的电子设备中，将输入视频划分为a个视频片段和b个语音片段，从a个视频片段中选取包含目标人物的第一人脸图像的视频片段得到m个视频片段，从b个语音片段中选取包含目标人物的第一声音的语音片段得到n个视频片段，也就是说，只提取包含目标人物的视频片段和语音片段，可提高提取效率。根据从m个视频片段中的每一视频片段中提取的第一人脸图像的表征信息来确定与目标人物匹配的第二声音。将n个语音片段进行语音处理得到的n个目标语音文本与第二声音进行合成得到n个目标语音片段，即目标语音片段中是以第二声音进行播放的，从而增强了应用的实用性。

在一个实施例中提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现实施例一或实施例二的视频处理方法。

在一个实施例中提供了一种应用程序，该应用程序用于在运行时执行实施例一或实施例二的视频处理方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(readonlymemory；以下简称：rom)、随机存取存储器(randomaccessmemory；以下简称：ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张瀚文
技术所有人：北京金山安全软件有限公司
我是此专利的发明人

上一篇：多平台无线会议多屏共享系统的制作方法与工艺
上一篇：图像获取方法及诊断仪与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。