本申请涉及人工智能,尤其涉及基于多任务学习的通用图像文字描述生成方法及相关装置。
背景技术:
1、在现有的图像文字描述系统中,通常针对特定类型的图像(如风景或人像)进行训练。然而,这种特定类型图像的限制导致系统无法很好地扩大到其他未见类别的图像中,并且不同类型的图像对于描述生成算法有不同要求。例如,风景图像需要充分描述场景的内容,包括物体、地理位置等细节;而人像图像则需要进行情绪分析和人物特征的描述。可见,当前图像文字描述模型的泛化能力和适应性差,无法在处理多种类型的图像时生成更准确、更丰富的文字描述。
技术实现思路
1、本申请提供了一种基于多任务学习的通用图像文字描述生成方法,以解决当前图像文字描述模型无法在处理多种类型的图像时生成更准确、更丰富的文字描述的技术问题。
2、为了解决上述技术问题,第一方面,本申请提供了一种基于多任务学习的通用图像文字描述生成方法,包括:
3、获取待处理图像;
4、利用目标多任务编码器模型中的共享编码器,对所述待处理图像进行特征提取,得到图像特征数据;
5、利用所述目标多任务编码器模型中的多个任务子网络,基于所述图像特征数据,对所述待处理图像进行理解,得到每个所述任务子网络的理解结果数据,其中在多任务训练时,所述任务子网络之间相互正则化所述共享编码器;
6、利用所述目标多任务编码器模型中的解码器,对多个所述理解结果数据进行融合,生成所述待处理图像的文字描述数据。
7、在第一方面的一些实现方式中,所述利用所述目标多任务编码器模型中的多个任务子网络,基于所述图像特征数据,对所述待处理图像进行理解,得到每个所述任务子网络的理解结果数据,包括:
8、将所述图像特征数据分别输入到各个所述任务子网络,以对所述待处理图像进行协同理解,得到每个所述任务子网络的理解结果数据,其中每个所述任务子网络的网络参数通过协同训练得到。
9、在第一方面的一些实现方式中,任务子网络为基于注意力机制的子网络,所述任务子网络的表达式为:
10、;
11、;
12、;
13、其中,为第个任务子网络的理解结果数据,为激活函数,为第个任务子网络的输出层权重,为第个任务子网络的偏置项,为第个任务子网络的注意力权重,为与第个任务相关的特征表示,为第个任务子网络的注意力参数,为共享编码器输出的图像特征数据,为与第个任务的权重矩阵。
14、在第一方面的一些实现方式中,所述任务子网络为交叉缝合网络,所述任务子网络的表达式为:
15、;
16、;
17、其中,为第个任务子网络的理解结果数据,为激活函数,为第个任务子网络的缝合层输出,x为共享编码器输出的图像特征数据,为第个任务子网络的编码器输出,为缝合权重矩阵。
18、在第一方面的一些实现方式中,所述利用目标多任务编码器模型中的共享编码器,对所述待处理图像进行特征提取,得到图像特征数据之前,还包括:
19、基于包含多种图像类型的预设图像集,对预设多任务编码器模型进行训练,直至所述目标多任务编码器模型的损失函数小于预设值,得到所述目标多任务编码器模型,其中所述损失函数包括正则化项,所述损失函数的表达式为:
20、;
21、其中,表示损失函数值,n为预设图像集的样本数量,x为图像特征数据,y为期望值,w为多任务学习的权重向量;为第个任务的l1正则化权重,是关于时间的函数;为第个任务的l1范数;为第个任务的l2正则化权重,为第个任务的l2范数。
22、在第一方面的一些实现方式中,所述利用所述目标多任务编码器模型中的解码器,对多个所述理解结果数据进行融合,生成所述待处理图像的文字描述数据,包括:
23、利用所述解码器,对多个所述理解结果数据进行加权融合,得到目标理解结果数据;
24、对所述目标理解结果数据进行自然语言转换,得到所述待处理图像的文字描述数据。
25、在第一方面的一些实现方式中,所述解码器为基于注意力机制的解码器,所述利用所述解码器,对多个所述理解结果数据进行加权融合,得到目标理解结果数据,包括:
26、将多个所述理解结果数据输入到所述解码器的注意力层,以利用所述解码器学习到的上下文信息,对多个所述理解结果数据进行加强融合,得到所述目标理解结果数据。
27、第二方面,本申请还提供一种基于多任务学习的通用图像文字描述生成装置,包括:
28、获取模块,用于获取待处理图像;
29、提取模块,用于利用目标多任务编码器模型中的共享编码器,对所述待处理图像进行特征提取,得到图像特征数据;
30、理解模块,用于利用所述目标多任务编码器模型中的多个任务子网络,基于所述图像特征数据,对所述待处理图像进行理解,得到每个所述任务子网络的理解结果数据,其中在多任务训练时,所述任务子网络之间相互正则化所述共享编码器;
31、融合模块,用于利用所述目标多任务编码器模型中的解码器,对多个所述理解结果数据进行融合,生成所述待处理图像的文字描述数据。
32、第三方面,本申请还提供一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的基于多任务学习的通用图像文字描述生成方法。
33、第四方面,本申请还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于多任务学习的通用图像文字描述生成方法。
34、与现有技术相比,本申请至少具备以下有益效果:
35、通过获取待处理图像,利用目标多任务编码器模型中的共享编码器,对所述待处理图像进行特征提取,得到图像特征数据;利用所述目标多任务编码器模型中的多个任务子网络,基于所述图像特征数据,对所述待处理图像进行理解,得到每个所述任务子网络的理解结果数据,其中在多任务训练时,所述任务子网络之间相互正则化所述共享编码器,以使共享编码器能够更好地适应各个子任务的特征提取要求;利用所述目标多任务编码器模型中的解码器,对多个所述理解结果数据进行融合,生成所述待处理图像的文字描述数据。实现了根据不同类型图像的特点,采用多种任务子网络,以满足不同类型图像对文字描述的不同要求,从而提高了图像文字描述模型的泛化能力和适应性。
1.基于多任务学习的通用图像文字描述生成方法,其特征在于,包括:
2.如权利要求1所述的基于多任务学习的通用图像文字描述生成方法,其特征在于,所述任务子网络为交叉缝合网络,所述任务子网络的表达式为:
3.如权利要求1所述的基于多任务学习的通用图像文字描述生成方法,其特征在于,所述利用目标多任务编码器模型中的共享编码器,对所述待处理图像进行特征提取,得到图像特征数据之前,还包括:
4.如权利要求1所述的基于多任务学习的通用图像文字描述生成方法,其特征在于,所述利用所述目标多任务编码器模型中的解码器,对多个所述理解结果数据进行融合,生成所述待处理图像的文字描述数据,包括:
5.如权利要求4所述的基于多任务学习的通用图像文字描述生成方法,其特征在于,所述解码器为基于注意力机制的解码器,所述利用所述解码器,对多个所述理解结果数据进行加权融合,得到目标理解结果数据,包括:
6.一种基于多任务学习的通用图像文字描述生成装置,其特征在于,包括:
7.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5任一项所述的基于多任务学习的通用图像文字描述生成方法。
8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于多任务学习的通用图像文字描述生成方法。