模型训练方法、图像处理方法及装置、介质和电子设备与流程

文档序号:26543305发布日期:2021-09-07 22:41阅读:63来源:国知局
模型训练方法、图像处理方法及装置、介质和电子设备与流程

1.本公开涉及图像处理技术领域,具体而言,涉及一种模型训练方法、图像处理方法、模型训练装置、图像处理装置、计算机可读存储介质和电子设备。


背景技术:

2.在图像处理技术领域,视线校正是对包含人眼的图像进行处理,以实现调整人眼视线角度的效果。研究表明,视线接触(即谈话的一方感到另一方的视线在注视自己)可以有效提升沟通效率,因此,视线校正至少在视频沟通、远程会议等领域有广阔的应用场景。
3.目前的视线校正方案,可能存在校正后图像视觉效果差的问题,尤其对视频连续帧进行处理后,可能出现视频帧图像眼部不协调、视线变化不连续的问题。


技术实现要素:

4.本公开提供一种模型训练方法、图像处理方法、模型训练装置、图像处理装置、计算机可读存储介质和电子设备,进而至少在一定程度上克服视线校正效果差的问题。
5.根据本公开的第一方面,提供了一种模型训练方法,包括:确定训练样本对,训练样本对包括第一眼部图像样本和第二眼部图像样本,第一眼部图像样本和第二眼部图像样本基于同一视频的相邻两帧确定出;分别对第一眼部图像样本和第二眼部图像样本进行视线校正过程,并基于视线校正的结果确定图像帧损失;其中,视线校正过程基于初始模型和目标模型来实现,初始模型被配置为参数固定的模型,且目标模型与初始模型的模型结构相同;对第一眼部图像样本和第二眼部图像样本进行光流处理过程,确定光流损失;利用图像帧损失和光流损失计算总损失,并利用总损失对目标模型的参数进行调整。
6.根据本公开的第二方面,提供了一种图像处理方法,包括:获取待校正的眼部图像;利用上述模型训练方法而确定出的训练后的目标模型,对待校正的眼部图像进行处理,以得到校正后的眼部图像。
7.根据本公开的第三方面,提供了一种模型训练装置,包括:样本确定模块,用于确定训练样本对,训练样本对包括第一眼部图像样本和第二眼部图像样本,第一眼部图像样本和第二眼部图像样本基于同一视频的相邻两帧确定出;第一损失确定模块,用于分别对第一眼部图像样本和第二眼部图像样本进行视线校正过程,并基于视线校正的结果确定图像帧损失;其中,视线校正过程基于初始模型和目标模型来实现,初始模型被配置为参数固定的模型,且目标模型与初始模型的模型结构相同;第二损失确定模块,用于对第一眼部图像样本和第二眼部图像样本进行光流处理过程,确定光流损失;参数调整模块,用于利用图像帧损失和光流损失计算总损失,并利用总损失对目标模型的参数进行调整。
8.根据本公开的第四方面,提供了一种图像处理装置,包括:图像获取模块,用于获取待校正的眼部图像;视线校正模块,用于利用上述模型训练方法而确定出的训练后的目标模型,对待校正的眼部图像进行处理,以得到校正后的眼部图像。
9.根据本公开的第五方面,提供了一种计算机可读存储介质,其上存储有计算机程
序,该程序被处理器执行时实现上述的模型训练方法或图像处理方法。
10.根据本公开的第六方面,提供了一种电子设备,包括处理器;存储器,用于存储一个或多个程序,当一个或多个程序被处理器执行时,使得所述处理器实现上述的模型训练方法或图像处理方法。
11.在本公开的一些实施例所提供的技术方案中,获取待校正的眼部图像,利用本公开实施方式的模型训练方案得到的训练后的目标模型,对待校正的眼部图像进行处理,得到校正后的眼部图像。其中,本公开实施方式的模型训练方案结合光流损失来训练模型,加入相邻帧一致性约束,使得校正结果能够保持帧间一致性,可以提升视频视线校正的处理效果。
12.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
13.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
14.图1示出了本公开示例性模型训练方案或图像处理方案的示例性系统架构的示意图;
15.图2示出了适于用来实现本公开实施例的电子设备的结构示意图;
16.图3示意性示出了根据本公开示例性实施方式的模型训练方法的流程图;
17.图4示意性示出了本公开实施例的训练目标模型所用系统的架构图;
18.图5示意性示出了根据本公开示例性实施方式的图像处理方法的流程图;
19.图6示意性示出了根据本公开示例性实施方式的模型训练装置的方框图;
20.图7示意性示出了根据本公开示例性实施方式的图像处理装置的方框图;
21.图8示意性示出了根据本公开另一示例性实施方式的图像处理装置的方框图。
具体实施方式
22.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
23.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功
能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
24.附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,下面所有的术语“第一”、“第二”、“第三”、“第四”仅是为了区分的目的,不应作为本公开内容的限制。
25.图1示出了本公开示例性模型训练方案或图像处理方案的示例性系统架构的示意图。
26.如图1所示,系统架构可以包括终端设备11和服务器12。终端设备11与服务器12可以通过网络连接,网络的连接类型可以例如包括有线、无线通信链路或者光纤电缆等。
27.应当理解,终端设备11和服务器12的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备和服务器。比如服务器12可以是多个服务器组成的服务器集群等。服务器12还可以被称为云端或云端服务器。
28.终端设备11可以通过网络与服务器12交互,以接收或发送消息等。虽然图1中以智能手机为例示出,然而,终端设备11还包括平板电脑、智能可穿戴设备、个人计算机等设备。其中,终端设备11还可以被称为终端、移动终端、移动端、智能终端等。
29.在本公开的实施方式中,可以由终端设备11和服务器12基于交互的方式实现本公开的图像处理方案和/或模型训练方案。或者由服务器12实现本公开的模型训练方案,终端设备11可以基于训练后的目标模型实现本公开的图像处理方案,例如,终端设备11可以从服务器12获取到训练后的目标模型。
30.应当理解,可以由终端设备11单独实现本公开的图像处理方案和/或模型训练方案。或者,可以由服务器12单独实现本公开的图像处理方案和/或模型训练方案。
31.在由服务器12执行本公开示例性实施方式的模型训练过程的情况下,首先,服务器12可以确定训练样本对,该训练样本对包括第一眼部图像样本和第二眼部图像样本,其中,第一眼部图像样本和第二眼部图像样本基于同一视频的相邻两帧确定出。
32.接下来,服务器12可以分别对第一眼部图像样本和第二眼部图像样本进行视线校正过程,并基于视线校正的结果确定图像帧损失。其中,该视线校正过程基于初始模型和目标模型来实现,初始模型被配置为参数固定的模型,并且目标模型与初始模型的模型结构相同。
33.另外,服务器12可以对第一眼部图像样本和第二眼部图像样本进行光流处理过程,确定光流损失。
34.随后,服务器12可以利用图像帧损失和光流损失计算总损失,并利用该总损失对目标模型的参数进行调整。
35.服务器12通过不断获取不同的训练样本对,执行上述模型训练过程,直至训练步数达到预设步数或者上述总损失小于一预设阈值,则训练完成,得到训练后的目标模型。
36.在由终端设备11执行本公开示例性实施方式的图像处理过程的情况下,首先,终端设备11可以获取待校正的眼部图像。
37.接下来,终端设备11可以将待校正的眼部图像输入训练后的目标模型,得到校正后的眼部图像。
38.在待校正的眼部图像是终端设备11从一个原始人脸图像上提取的图像的情况下,在得到校正后的眼部图像之后,终端设备11还可以结合原始人脸图像,将校正后的眼部图像与原始人脸图像融合,以得到视线校正后的人脸图像。
39.此外,还可以由服务器12执行本公开实施例实施方式的图像处理过程。其中,待校正的眼部图像可以由终端设备11发送给服务器12,随后,服务器12将待校正的眼部图像输入训练后的目标模型,得到校正后的眼部图像,并可以将校正后的眼部图像反馈给终端设备11。或者,服务器12可以接收由终端设备11发送的原始人脸图像,由服务器12从原始人脸图像中提取出待校正的眼部图像,输入至训练后的目标模型,得到校正后的眼部图像后,再与原始人脸图像融合,以得到视线校正后的人脸图像,并可以将得到的视线校正后的人脸图像反馈给终端设备11。
40.应当理解的是,本公开实施方式的图像处理过程中的任意步骤和/或模型训练过程中的任意步骤,均可以由终端设备11或服务器12执行,本公开对此不做限制。
41.图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。本公开示例性实施方式的终端设备可以被配置为如图2的形式。需要说明的是,图2示出的电子设备仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
42.本公开的电子设备至少包括处理器和存储器,存储器用于存储一个或多个程序,当一个或多个程序被处理器执行时,使得处理器可以实现本公开示例性实施方式的图像处理方法或模型训练方法。
43.具体的,如图2所示,电子设备200可以包括:处理器210、内部存储器221、外部存储器接口222、通用串行总线(universal serial bus,usb)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(subscriber identification module,sim)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。
44.可以理解的是,本公开实施例示意的结构并不构成对电子设备200的具体限定。在本公开另一些实施例中,电子设备200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。
45.处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,ap)、调制解调处理器、图形处理器(graphics processing unit,gpu)、图像信号处理器(image signal processor,isp)、控制器、视频编解码器、数字信号处理器(digital signal processor,dsp)、基带处理器和/或神经网络处理器(neural

etwork processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。另外,处理器210中还可以设置存储器,用于存储指令和数据。
46.电子设备200可以通过isp、摄像模组291、视频编解码器、gpu、显示屏290及应用处理器等实现拍摄功能。在一些实施例中,电子设备200可以包括1个或n个摄像模组291,n为
大于1的正整数,若电子设备200包括n个摄像头,n个摄像头中有一个是主摄像头。在本公开示例性方案中,电子设备200可以通过摄像模组291进行人脸图像采集,进而电子设备200可以执行对人脸图像进行视线校正的方案。
47.内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡,例如micro sd卡,实现扩展电子设备200的存储能力。
48.本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
49.计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
50.计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
51.计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。
52.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
53.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
54.下面以服务器执行本公开示例性实施方式的模型训练方法为例进行说明,在这种情况下,模型训练装置可以配置在服务器中。
55.图3示意性示出了本公开的示例性实施方式的模型训练方法的流程图。参考图3,模型训练方法可以包括以下步骤:
56.s32.确定训练样本对,训练样本对包括第一眼部图像样本和第二眼部图像样本,第一眼部图像样本和第二眼部图像样本基于同一视频的相邻两帧确定出。
57.在本公开的示例性实施方式中,可以预先构建训练样本集,形式可以是多段包含
人脸图像的视频。
58.首先,服务器可以从训练样本集中随机选取一视频,并从中任取两帧相邻的视频帧图像。
59.接下来,服务器可以分别对该两帧视频帧图像进行眼部区域检测,以得到第一眼部图像样本和第二眼部图像样本,形成一个训练样本对。例如,服务器可以通过dlib人脸关键点检测模型来确定人脸关键点,然后根据人脸关键点的位置信息确定出人脸中眼部的位置,以得到眼部图像,本公开对从人脸图像中提取眼部图像的方式不做限制。
60.s34.分别对第一眼部图像样本和第二眼部图像样本进行视线校正过程,并基于视线校正的结果确定图像帧损失;其中,视线校正过程基于初始模型和目标模型来实现,初始模型被配置为参数固定的模型,且目标模型与初始模型的模型结构相同。
61.在本公开的示例性实施方式中,初始模型是预先训练后的能够对单帧图像进行视线校正的模型,在执行本公开对目标模型的训练过程中,初始模型的参数是固定不变的,也就是说,反向传播调整模型参数时,不会改变初始模型的参数。本公开对初始模型的模型结构、训练过程均不做限制,例如,初始模型可以是如gazeanimation的开源模型。
62.另外,本公开所述的目标模型为应用于实际图像处理过程的模型,其模型结构可以配置为与初始模型结构相同。目标模型的初始参数也可以配置为与初始模型的参数相同。也就是说,训练前的目标模型的结构和参数与初始模型相同,在训练的过程中,其参数会不断进行调整。
63.对于确定图像帧损失(又可称为单帧损失)的过程,首先,服务器可以将第一眼部图像样本输入初始模型,得到视线校正的第一校正结果,并将第二眼部图像样本输入初始模型,得到视线校正的第二校正结果。可以看出,本公开所述的第一校正结果和第二校正结果是基于初始模型而得到的校正结果。
64.服务器还可以将第一眼部图像样本输入目标模型,得到视线校正的第三校正结果,并将第二眼部图像样本输入目标模型,得到视线校正的第四校正结果。可以看出,本公开所述的第三校正结果和第四校正结果是基于目标模型而得到的校正结果。
65.接下来,可以利用第一校正结果、第二校正结果、第三校正结果和第四校正结果,确定图像帧损失。
66.具体的,一方面,服务器可以计算第一校正结果与第三校正结果的损失,作为第一中间损失。另一方面,服务器可以计算第二校正结果与第四校正结果的损失,作为第二中间损失。其中,损失的计算方式可以包括l1损失或l2损失,本公开对此不做限制。
67.在得到第一中间损失和第二中间损失后,可以对第一中间损失和第二中间损失求和,并将求和的结果确定为图像帧损失。
68.s36.对第一眼部图像样本和第二眼部图像样本进行光流处理过程,确定光流损失。
69.首先,服务器可以基于第一眼部图像样本和第二眼部图像样本,确定光流。其中,光流包括前向光流和后向光流。
70.可以理解的是,在第一眼部图像样本为视频的第t帧而第二眼部图像样本为视频的第t+1帧的情况下,先第一眼部图像样本后第二眼部图像样本的顺序可以对应前向光流,先第二眼部图像样本后第一眼部图像样本的顺序可以对应后向光流。
71.具体的,可以按先第一眼部图像样本后第二眼部图像样本的顺序,将第一眼部图像样本和第二眼部图像样本输入光流模型,可以得到前向光流。另外,可以按先第二眼部图像样本后第一眼部图像样本的顺序,将第一眼部图像样本和第二眼部图像样本输入光流模型,可以得到后向光流。本公开对光流模型的形式不做限制,可以是任意现有方法如flownet。
72.接下来,服务器可以利用前向光流、后向光流和第一眼部图像样本,计算光流掩膜(mask)。其中,光流掩膜是与眼部图像样本(包括第一眼部图像样本和第二眼部图像样本)尺寸相同的二维张量,取1的位置光流置信度较高,可以用于帧间一致性约束,而取0的位置光流置信度低,不应用于帧间一致性约束。
73.具体的,可以利用前向光流对第一眼部图像样本进行处理,得到第一中间图像,并利用后向光流对第一中间图像进行处理,得到第二中间图像。再计算第一眼部图像样本与第二中间图像的绝对误差,并根据该绝对误差及以误差阈值,确定出光流掩膜。
74.例如,将第一眼部图像样本记为e
t
,前向光流记为ff,后向光流记为fb。则确定光流掩膜的过程可以是:首先,通过前向光流ff将e
t
映射到预测的后一帧e’t+1
,即第一中间图像。具体的,可以采用双线性插值的方法来实现此处所说的映射操作。接下来,通过后向光流fb将映射到预测的前一帧e’t
,即第二中间图像。类似地,可以采用双线性插值的方法得到第二中间图像。然后计算e’t
与e
t
的绝对误差d,其中,d=|e’t

e
t
|。再结合公式1确定出光流掩膜mask:
[0075][0076]
其中,δ为误差阈值,即可接受的误差的阈值。
[0077]
在确定出光流掩膜之后,可以利用前向光流、第三校正结果、第四校正结果和光流掩膜,确定光流损失。
[0078]
具体的,服务器可以利用前向光流对第三校正结果进行处理,得到中间校正结果。再利用中间校正结果、第四校正结果和光流掩膜,确定出光流损失。
[0079]
例如,将第三校正结果记为g
t
,第四校正结果记为g
t+1
。确定光流损失的过程可以是:首先,通过前向光流ff将g
t
映射到预测的后一帧校正结果g’t+1
,即中间校正结果。类似地,可以采用双线性插值的方法得到中间校正结果。接下来,可以计算g’t+1
*mask与g
t+1
*mask间的损失,作为光流损失。类似地,此处损失的计算方式可以包括l1损失或l2损失,本公开对此不做限制。
[0080]
应当理解,光流损失的作用是保证校正结果的帧间一致性。
[0081]
s38.利用图像帧损失和光流损失计算总损失,并利用总损失对目标模型的参数进行调整。
[0082]
在步骤s34和步骤s36分别确定出图像帧损失和光流损失的情况下,可以利用这两个损失计算总损失。如果将图像帧损失记为loss
frame
,将光流损失记为loss
flow
,将总损失记为loss,则可以通过公式2计算总损失:
[0083]
loss=loss
frame
+αloss
flow
ꢀꢀ
(公式2)
[0084]
其中,α为加权因子,通常大于0,其值越大可以使相邻两帧的校正结果越平滑,但
可能会削弱校正效果,本公开对α的具体取值不做限制,可以根据实际场景需要自定义调整。
[0085]
应当理解的是,上面的描述仅是利用一个训练样本对目标模型进行训练的方案,通过不断获取不同的训练样本对并执行上述的训练过程,直至收敛,即可得到训练后的目标模型。其中,收敛的条件可以是训练步数达到预设步数,或者计算出的总损失小于预设阈值。
[0086]
下面结合图4对本公开实施例的训练目标模型的过程进行说明。
[0087]
参考图4,首先,服务器从训练视频中提取第t帧图像和第t+1帧图像,并分别确定出眼部图像e
t
和眼部图像e
t+1

[0088]
接下来,一方面,将眼部图像e
t
输入初始模型41,得到对应的校正结果gi
t
。并将眼部图像e
t+1
初始模型41,得到对应的校正结果gi
t+1
。另一方面,将眼部图像e
t
输入目标模型42,得到对应的校正结果g
t
。并将眼部图像e
t+1
目标模型42,得到对应的校正结果g
t+1
。再一方面,可以按不同的顺序将眼部图像e
t
和眼部图像e
t+1
输入光流网络43,得到前向光流ff和后向光流fb。
[0089]
然后,基于校正结果gi
t
、校正结果gi
t+1
、校正结果g
t
和校正结果g
t+1
,可以计算图像帧损失。以及,基于校正结果g
t
、校正结果g
t+1
和光流,可以计算光流损失。
[0090]
在得到图像帧损失和光流损失后,可以结合上述公式2,计算出总损失,进而目标模型的参数调整过程。
[0091]
下面以终端设备执行本公开示例性实施方式的图像处理方法为例进行说明,在这种情况下,图像处理装置可以配置在终端设备中。
[0092]
图5示意性示出了本公开的示例性实施方式的图像处理方法的流程图。参考图5,图像处理方法可以包括以下步骤:
[0093]
s52.获取待校正的眼部图像。
[0094]
根据本公开的一些实施例,终端设备可以直接获取待校正的眼部图像。例如,该待校正的眼部图像可以是预先从人脸图像中提取并存储的图像,或者该待校正的眼部图像是通过拍摄直接获取到的图像,而不需要从另一图像提取得到。
[0095]
根据本公开的一些实施例,首先,终端设备可以获取原始人脸图像,该原始人脸图像可以是终端设备从其他设备接收或利用其摄像模组拍摄到的包含人脸的图像。接下来,终端设备可以从原始人脸图像中提取待校正的眼部图像。例如,终端设备可以通过dlib人脸关键点检测模型来确定人脸关键点,然后根据人脸关键点的位置信息确定出人脸中眼部的位置,以得到待校正的眼部图像,本公开对从原始人脸图像中提取眼部图像的方式不做限制。
[0096]
另外,终端设备还可以执行判断获取到的原始图像是否包含人脸的操作,在确定出原始图像包含人脸的情况下,再执行眼部图像提取的操作。如果确定出原始图像不包含人脸,则不进行后续操作。
[0097]
s54.利用上述模型训练方法而确定出的训练后的目标模型,对待校正的眼部图像进行处理,以得到校正后的眼部图像。
[0098]
终端设备可以将待校正的眼部图像输入经上述模型训练方法而得到的训练后的目标模型中,以得到校正后的眼部图像。
[0099]
在待校正的眼部图像是从原始人脸图像中提取出的图像的情况下,在得到校正后的眼部图像之后,利用校正后的眼部图像和原始人脸图像,生成视线校正后的人脸图像。
[0100]
具体的,可以将校正后的眼部图像与原始人脸图像进行融合,利用校正后的眼部图像替代或填补原始人脸图像中眼部图像的区域,以生成视线校正后的人脸图像。
[0101]
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0102]
进一步的,本示例实施方式中还提供了一种模型训练装置。
[0103]
图6示意性示出了本公开的示例性实施方式的模型训练装置的方框图。参考图6,根据本公开的示例性实施方式的模型训练装置6可以包括样本确定模块61、第一损失确定模块63、第二损失确定模块65和参数调整模块67。
[0104]
具体的,样本确定模块61可以用于确定训练样本对,训练样本对包括第一眼部图像样本和第二眼部图像样本,第一眼部图像样本和第二眼部图像样本基于同一视频的相邻两帧确定出;第一损失确定模块63可以用于分别对第一眼部图像样本和第二眼部图像样本进行视线校正过程,并基于视线校正的结果确定图像帧损失;其中,视线校正过程基于初始模型和目标模型来实现,初始模型被配置为参数固定的模型,且目标模型与初始模型的模型结构相同;第二损失确定模块65可以用于对第一眼部图像样本和第二眼部图像样本进行光流处理过程,确定光流损失;参数调整模块67可以用于利用图像帧损失和光流损失计算总损失,并利用总损失对目标模型的参数进行调整。
[0105]
根据本公开的示例性实施例,第一损失确定模块63可以被配置为执行:将第一眼部图像样本输入初始模型,得到视线校正的第一校正结果,并将第二眼部图像样本输入初始模型,得到视线校正的第二校正结果;将第一眼部图像样本输入目标模型,得到视线校正的第三校正结果,并将第二眼部图像样本输入目标模型,得到视线校正的第四校正结果;利用第一校正结果、第二校正结果、第三校正结果和第四校正结果,确定图像帧损失。
[0106]
根据本公开的示例性实施例,第一损失确定模块63利用第一校正结果、第二校正结果、第三校正结果和第四校正结果确定图像帧损失的过程可以被配置为执行:计算第一校正结果与第三校正结果的损失,作为第一中间损失;计算第二校正结果与第四校正结果的损失,作为第二中间损失;对第一中间损失与第二中间损失求和,得到图像帧损失。
[0107]
根据本公开的示例性实施例,第二损失确定模块65可以被配置为执行:基于第一眼部图像样本和第二眼部图像样本,确定前向光流和后向光流;利用前向光流、后向光流和第一眼部图像样本,计算光流掩膜;利用前向光流、第三校正结果、第四校正结果和光流掩膜,确定光流损失。
[0108]
根据本公开的示例性实施例,第二损失确定模块65计算光流掩膜的过程可以被配置为执行:利用前向光流对第一眼部图像样本进行处理,得到第一中间图像;利用后向光流对第一中间图像进行处理,得到第二中间图像;计算第一眼部图像样本与第二中间图像的绝对误差;根据绝对误差及一误差阈值,确定出光流掩膜。
[0109]
根据本公开的示例性实施例,第二损失确定模块65利用前向光流、第三校正结果、第四校正结果和光流掩膜确定光流损失的过程可以被配置为执行:利用前向光流对第三校
正结果进行处理,得到中间校正结果;利用中间校正结果、第四校正结果和光流掩膜,确定出光流损失。
[0110]
进一步的,本示例实施方式中还提供了一种图像处理装置。
[0111]
图7示意性示出了本公开的示例性实施方式的图像处理装置的方框图。参考图7,根据本公开的示例性实施方式的图像处理装置7可以包括图像获取模块71和视线校正模块73。
[0112]
具体的,图像获取模块71可以用于获取待校正的眼部图像;视线校正模块73可以用于利用上述模型训练方法而确定出的训练后的目标模型,对待校正的眼部图像进行处理,以得到校正后的眼部图像。
[0113]
根据本公开的一些实施例,参考图8,相比于图像处理装置7,图像处理装置8还可以包括图像处理模块81。
[0114]
具体的,图像处理模块81可以被配置为执行:从原始人脸图像中提取待校正的眼部图像;以及在得到校正后的眼部图像之后,利用校正后的眼部图像和原始人脸图像,生成视线校正后的人脸图像。
[0115]
由于本公开实施方式的模型训练装置和图像处理装置的各个功能模块与上述方法实施方式中相同,因此在此不再赘述。
[0116]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
[0117]
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0118]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0119]
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0120]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1