本发明涉及视觉语言,具体是一种基于目标权重的多模态数据增强方法。
背景技术:
1、深度学习作为一种机器学习方法,使用神经网络模型来从数据中提取特征并做出决策。深度学习的主要特点之一是它对大规模数据的需求,通常需要大量标记的数据来进行有效的训练。在实际数据采集时,往往很难覆盖所有场景;同时,大量的数据采集和标注需要高昂的成本。针对这一问题,数据增强的概念被提出,数据增强是一种用于增加训练数据数量和多样性的技术。它的基本思想是通过对原始数据进行一系列变换和扩展,生成新的训练样本,从而帮助模型更好地泛化到未见过的数据。数据增强技术通常应用于计算机视觉任务,如图像分类和目标检测,以及自然语言处理任务,如文本分类和情感分析。常见数据增强操作包括随机旋转、翻转和缩放图像,添加噪声或扭曲,随机剪裁/拼接图像;对文本数据进行同义词替换、删除或添加单词等。
2、多模态数据包含图像、文本等类型的数据,广泛应用在视觉定位(visualgrounding)、图像描述生成(image captioning)、视觉问答(visual question answering,vqa)、图像-文本匹配(image-text matching)、跨模态生成(cross-modal generation)等任务中。然而在多模态数据之间存在一定的关联性,在图像、文本单模态中使用的数据增强方法往往会破坏多模态数据语义之间的对应性。例如,在视觉定位任务中,文本描述为“左侧的狗”,而如果使用随机翻转数据增强,图像中目标的位置会被变换,导致与文本语义不对应,导致训练数据错误,影响模型性能。针对这一情况,现在可用的数据增强手段较少,一般仅仅进行图像的尺寸变化。论文【mixgen: a new multi-modal data augmentation】提出了一种“将图像加权求和、文本拼接”的方法,但这种方法在图像融合过程中没有考虑目标区域的特殊性,在一定程度上引入了噪声。
3、综上所述,现有的多模态数据增强的方法存在数据增强方法较为单一、无法满足模型泛化需求的缺点。
技术实现思路
1、本发明要解决的技术问题是提供一种基于目标权重的多模态数据增强方法,具有不破坏多模态数据语义关系、数据多样性强、方法简单易用等优点。
2、本发明的技术方案为:
3、一种基于目标权重的多模态数据增强方法,具体包括有以下步骤:
4、(1)、随机获取多对待融合图文对和与每对图文对对应的目标标注文件;
5、(2)、将多对待融合图文对中的图像尺寸均缩放到统一尺寸,然后根据每张缩放后的图像对对应目标标注文件中各目标的位置信息进行同步调整;
6、(3)、遍历每张图像中的目标,每个目标生成一个对应的距离加权权重矩阵,然后根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化,得到多张待融合图像归一化后的权重矩阵,最后根据归一化后的权重矩阵进行图像融合,形成融合图像;
7、(4)、将多对待融合图文对中的文本进行多种组合排序,得到多个融合文本,将每个融合文本均与融合图像进行组合,从而形成多对融合图文对。
8、所述的目标标注文件包括有对应图像中所有目标的位置信息,具体包括有目标边界的形状、目标边界像素点的坐标信息、目标的尺寸信息和倾斜角度信息。
9、所述的图像尺寸的缩放方法选用最近邻插值法、双线性插值法或双三次插值法。
10、所述的每个目标生成一个对应的距离加权权重矩阵;具体见下式(1)和式(2):
11、 (1),
12、 (2);
13、式(1)和式(2)中,为图像的尺寸;代表目标在图像中覆盖的区域;代表图像中第i行第j列的像素;为超参数,取值为不小于1的浮点数;为不小于1的正整数,距离目标越近的像素点,其取值越小。
14、所述的的取值方法为:以目标的边界开始顺次向外膨胀,将与边界处像素点紧邻的目标区域外像素点记为,像素点对应的为1,与像素点紧邻的目标区域外像素点记为,像素点对应的为2,依次类推,与紧邻的目标区域外像素点记为,像素点对应的为。
15、所述的根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化,得到多张待融合图像归一化后的权重矩阵,权重矩阵归一化的公式见下式(3):
16、 (3);
17、式(3)中,为多张待融合图像归一化后的权重矩阵,为每张图像中目标的个数,为待融合图像的图像个数。
18、所述的根据归一化后的权重矩阵进行图像融合,计算公式见下式(4):
19、 (4);
20、式(4)中,为融合后的融合图像,为每张待融合图像。
21、所述的将多对待融合图文对中的文本进行多种组合排序,得到多个融合文本的具体方式为:将多个待融合文本均作为第一段表述,然后针对每个第一段表述,除了第一段表述外的其它待融合文本作为后几段表述并随机排列于第一段表述后面,相邻段表述之间采用分隔符号分隔开,从而组成一个融合文本,即针对多个第一段表述,最后形成了多个融合文本。
22、本发明的优点:
23、(1)、本发明采用基于目标的距离加权权重矩阵进行图像融合,在不破坏多模态数据语义关系的同时,减少图像融合过程中与目标无关的噪声,增强了图像融合的质量。
24、(2)、本发明的文本融合将多个待融合文本采用随机组合排序的方式生成多个融合文本,在增加文本描述多样性的同时,保证融合后文本描述的差异性。
25、综上所述,本发明具有不破坏视语多模态数据语义关系、数据多样性强、方法简单易用等优点。
1.一种基于目标权重的多模态数据增强方法,其特征在于:具体包括有以下步骤:
2.根据权利要求1所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的目标标注文件包括有对应图像中所有目标的位置信息,具体包括有目标边界的形状、目标边界像素点的坐标信息、目标的尺寸信息和倾斜角度信息。
3.根据权利要求1所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的图像尺寸的缩放方法选用最近邻插值法、双线性插值法或双三次插值法。
4.根据权利要求1所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的每个目标生成一个对应的距离加权权重矩阵;具体见下式(1)和式(2):
5.根据权利要求4所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的的取值方法为:以目标的边界开始顺次向外膨胀,将与边界处像素点紧邻的目标区域外像素点记为,像素点对应的为1,与像素点紧邻的目标区域外像素点记为,像素点对应的为2,依次类推,与紧邻的目标区域外像素点记为,像素点对应的为。
6.根据权利要求4所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化,得到多张待融合图像归一化后的权重矩阵,权重矩阵归一化的公式见下式(3):
7.根据权利要求6所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的根据归一化后的权重矩阵进行图像融合,计算公式见下式(4):
8.根据权利要求1所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的将多对待融合图文对中的文本进行多种组合排序,得到多个融合文本的具体方式为:将多个待融合文本均作为第一段表述,然后针对每个第一段表述,除了第一段表述外的其它待融合文本作为后几段表述并随机排列于第一段表述后面,相邻段表述之间采用分隔符号分隔开,从而组成一个融合文本,即针对多个第一段表述,最后形成了多个融合文本。