本技术实施例涉及图像处理,特别涉及一种图片处理方法、装置、设备及存储介质。
背景技术:
1、目前,有根据描述文本对原始肖像图片进行编辑的需求,即根据描述文本的内容,对原始肖像图片中的环境、人物表情等进行编辑。
2、在相关技术中,通过训练由描述文本引导的生成模型,使用该训练后的生成模型在描述文本的引导下,对原始肖像图片进行编辑,生成处理后肖像图片。
3、使用相关技术对原始肖像图片进行编辑时,由于编辑时仅关注描述文本的内容,导致出现生成的处理后肖像图片中的人物与原始肖像图片中的人物相似度低的问题,即出现人物失真的情况,进行的编辑越复杂,人物失真越严重。
技术实现思路
1、本技术实施例提供了一种图片处理方法、装置、设备及存储介质。所述技术方案如下:
2、根据本技术实施例的一个方面,提供了一种图片处理方法,所述方法包括:
3、基于原始肖像图片和描述文本,生成条件嵌入信息,所述条件嵌入信息包括所述原始肖像图片的特征和所述描述文本的特征;其中,所述原始肖像图片是包含人物面部特征的图片,所述描述文本是用于描述人物表情特征的文本;
4、对所述原始肖像图片进行压缩,得到隐空间图片;其中,所述隐空间图片是维度低于所述原始肖像图片,且保留所述人物面部特征的图片;
5、根据所述隐空间图片、所述条件嵌入信息和面部蒙版图,生成所述原始肖像图片对应的交叉注意力图,所述面部蒙版图用于区分所述原始肖像图片中的面部区域和除所述面部区域之外的其他区域,所述交叉注意力图用于在所述面部区域生成所述人物表情特征对应的表情内容;
6、基于所述条件嵌入信息和所述交叉注意力图,对所述隐空间图片进行编辑,生成处理后肖像图片;其中,所述处理后肖像图片保留所述原始肖像图片的面部特征,且包含所述描述文本所描述的人物表情特征。
7、根据本技术是实施例的一个方面,提供了一种图片处理模型的训练方法,所述方法包括:
8、获取所述图片处理模型的至少一个训练样本,每个所述训练样本包括一组相对应的样本肖像图片和样本描述文本;其中,所述样本肖像图片是包含人物面部特征的图片,所述样本描述文本是用于描述所述样本肖像图片中的人物表情特征的文本;
9、通过所述图片处理模型基于所述样本肖像图片和所述样本描述文本,生成样本条件嵌入信息,所述样本条件嵌入信息包括所述样本肖像图片的特征和所述样本描述文本的特征;
10、通过所述图片处理模型对所述样本肖像图片进行压缩,得到样本隐空间图片;其中,所述样本隐空间图片是维度低于所述样本肖像图片,且保留所述人物面部特征的图片;
11、通过所述图片处理模型根据所述样本隐空间图片、所述样本条件嵌入信息和样本面部蒙版图,生成所述样本肖像图片对应的交叉注意力图,所述样本面部蒙版图用于区分所述样本肖像图片中的面部区域和除所述面部区域之外的其他区域,所述交叉注意力图用于在所述面部区域生成所述人物表情特征对应的表情内容;
12、通过所述图片处理模型基于所述样本条件嵌入信息和所述交叉注意力图,对所述样本隐空间图片进行编辑,生成所述样本肖像图片对应的处理后肖像图片;
13、基于所述样本肖像图片和所述处理后肖像图片,对所述图片处理模型的参数进行调整,得到训练后的图片处理模型。
14、根据本技术实施例的一个方面,提供了一种图片处理装置,所述装置包括:
15、嵌入模块,用于基于原始肖像图片和描述文本,生成条件嵌入信息,所述条件嵌入信息包括所述原始肖像图片的特征和所述描述文本的特征;其中,所述原始肖像图片是包含人物面部特征的图片,所述描述文本是用于描述人物表情特征的文本;
16、压缩模块,用于对所述原始肖像图片进行压缩,得到隐空间图片;其中,所述隐空间图片是维度低于所述原始肖像图片,且保留所述人物面部特征的图片;
17、注意模块,用于根据所述隐空间图片、所述条件嵌入信息和面部蒙版图,生成所述原始肖像图片对应的交叉注意力图,所述面部蒙版图用于区分所述原始肖像图片中的面部区域和除所述面部区域之外的其他区域,所述交叉注意力图用于在所述面部区域生成所述人物表情特征对应的表情内容;
18、编辑模块,用于基于所述条件嵌入信息和所述交叉注意力图,对所述隐空间图片进行编辑,生成处理后肖像图片;其中,所述处理后肖像图片保留所述原始肖像图片的面部特征,且包含所述描述文本所描述的人物表情特征。
19、根据本技术实施例的一个方面,提供了一种图片处理模型的训练装置,所述装置包括:
20、样本获取模块,用于获取所述图片处理模型的至少一个训练样本,每个所述训练样本包括一组相对应的样本肖像图片和样本描述文本;其中,所述样本肖像图片是包含人物面部特征的图片,所述样本描述文本是用于描述所述样本肖像图片中的人物表情特征的文本;
21、样本嵌入模块,用于通过所述图片处理模型基于所述样本肖像图片和所述样本描述文本,生成样本条件嵌入信息,所述样本条件嵌入信息包括所述样本肖像图片的特征和所述样本描述文本的特征;
22、样本压缩模块,用于通过所述图片处理模型对所述样本肖像图片进行压缩,得到样本隐空间图片;其中,所述样本隐空间图片是维度低于所述样本肖像图片,且保留所述人物面部特征的图片;
23、样本注意模块,用于通过所述图片处理模型根据所述样本隐空间图片、所述样本条件嵌入信息和样本面部蒙版图,生成所述样本肖像图片对应的交叉注意力图,所述样本面部蒙版图用于区分所述样本肖像图片中的面部区域和除所述面部区域之外的其他区域,所述交叉注意力图用于在所述面部区域生成所述人物表情特征对应的表情内容;
24、样本编辑模块,用于通过所述图片处理模型基于所述样本条件嵌入信息和所述交叉注意力图,对所述样本隐空间图片进行编辑,生成所述样本肖像图片对应的处理后肖像图片;
25、模型调参模块,用于基于所述样本肖像图片和所述处理后肖像图片,对所述图片处理模型的参数进行调整,得到训练后的图片处理模型。
26、根据本技术实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述图片处理方法,或者实现上述图片处理模型的训练方法。
27、根据本技术实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述图片处理方法,或者实现上述图片处理模型的训练方法。
28、根据本技术实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述图片处理方法,或者实现上述图片处理模型的训练方法。
29、本技术实施例提供的技术方案至少包括如下有益效果:
30、通过基于原始肖像图片和描述文本,生成条件嵌入信息,然后对该原始肖像图片进行压缩,得到隐空间图片,根据上述条件嵌入信息、隐空间图片和面部蒙版图,生成该原始肖像图片对应的交叉注意力图,根据条件嵌入信息和交叉注意力图,就对隐空间图片进行编辑,生成处理后肖像图片,实现了通过融合原始肖像图片中人物的面部特征和描述文本的人物表情特征,保证了生成的处理后肖像图片中的人物与原始肖像图片中的人物相似度高,在编辑的过程中的人物保真率显著提高。