本发明涉及计算机图像处理,具体为一种多模态融合的草图检索方法。
背景技术:
1、随着文化资源数据和文化数字内容数量的快速增长,如何对文化资源的数据和元数据进行有效管理,并建立灵活多样的检索体系成为了一个重要的问题。对于文化资源数据中图像数据的检索方式来说,最常见的方式是以图搜图,然而在以图搜图场景下,查询图像的获取有时是一件比较困难的事情,草图的出现解决了这一问题,用户可以实时绘制一张草图获得查询图像的输入。
2、现有技术的不足:
3、目前草图相比于图像具有高度的抽象性,与图像具有着视觉上和形状上的相似性,但又存在着颜色、纹理方面的差异性,利用草图和图像之间的相似性实现草图检索,对于实现文化大数据的文化资源数据管理具有重要意义。
技术实现思路
1、本发明的目的在于提供一种多模态融合的草图检索方法,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:一种多模态融合的草图检索方法,本检索方法包括以下步骤:
3、s110、采用两种方式构建文物图像草图检索数据集的训练集和测试集,使用草图生成算法对文物图像处理生成对应的草图数据并结合文本和图像构建训练集,使用人工绘制的方式得到文物图像的对应草图数据并结合文本和图像构建测试集;
4、s120、分别构建文本、图像和草图三个分支用于提取对应数据的特征向量;
5、s130、在训练过程中将文本特征和草图特征进行加权和得到融合特征,对每个批次的融合特征和图像特征采用对比学习的方式进行训练,直到损失函数收敛;
6、s140、使用训练后的图像分支处理图像库中的所有图像构建特征库,在线检索时将输入的文本和绘制的草图提取特征后进行加权和得到融合特征,将融合特征和特征库的所有特征进行点积运算计算相似度,排序并输出最终检索结果。
7、优选的,所述本检索方法中步骤s3具体包括以下步骤:
8、a1、草图和文本特征融合,假设每个批次包含n个(图像,文本,草图)三元组,该批次数据表示为ο={x,y,z},其中为该批次的n个图像,为该批次的n个文本,为该批次的n个草图,每个批次的图像、文本、草图经过各自编码器网络的特征提取分别得到对应的特征向量和和将各自模态的特征向量映射到多模态嵌入空间中,得到图像、文本、草图在多模态嵌入空间中的特征表示为:
9、和
10、ii=i`i·wii
11、
12、
13、其中,和是学习到的映射参数矩阵,i=1,2,…,n,
14、对草图特征和文本特征进行加权和计算进行融合,融合公式为:
15、mi=λ·si+(1-λ)·ti
16、其中,λ是一个权重超参数,0<λ<1,i代表一个批次中的第i个样本,i=1,2,…,n,mi代表第i个草图特征si和第i个文本特征ti融合后的特征;
17、a2、基于对比学习的多模态嵌入空间训练,每个批次的原始图像、文本、草图经过编码器特征提取、特征映射、草图和文本特征融合后,在多模态嵌入空间内得到了n个草图文本的融合特征和n个图像的特征,表示为为了能够预测到在这n×n个特征组合(n个融合特征和n个图像特征两两组合),对于第i对特征组合{mi,ii},优化目标包括两个损失函数,第一个是融合特征到图像特征的对比损失,
18、
19、其中<mi,ii>表示计算融合特征和图像特征之间的余弦相似度,计算方式为是一个温度系数,最小化该损失函数会尽可能保留真正语义匹配组合的信息,
20、第二个损失函数是图像特征到融合特征的对比损失,
21、
22、
23、优选的,所述本检索方法中步骤s4具体包括以下步骤:
24、b1、测试集中的图像通过图像编码器获取特征向量并映射到嵌入空间中,草图和文本通过各自的编码器提取特征并在嵌入空间中融合,之后与图像在嵌入空间的特征进行相似度计算,假设用户输入的文本经过文本编码器处理得到特征向量tquery,绘制的草图经过草图编码器处理得到特征向量squery,两者经过融合得到特征mquery,计算公式如下所示:
25、
26、其中,ifeature为图像库中的某一张图像的特征;
27、b2、取相似度分数最高的topk作为检索结果。
28、优选的,所述步骤s110中,使用草图生成算法获取草图数据并构建训练集。
29、优选的,所述步骤s110中,使用人工绘制的方式获取草图数据并构建测试集。
30、优选的,所述步骤b1中,所述图像分支和所述草图分支的编码器的结构是visiontransformer,文本分支编码器的结构是transformer。
31、优选的,所述步骤a1中,一般的λ=0.3。
32、优选的,所述步骤a2中,一般的τ=0.07。
33、优选的,所述步骤b1中,使用余弦相似度计算查询特征和特征库之间的相似度。
34、优选的,所述步骤a2中,最终的损失函数为该批次中所有真正语义匹配组合上两个损失的加权和的平均。
35、与现有技术相比,本发明的有益效果是:
36、本发明解决草图检索过程中遇到的上述问题,分别构建草图、图像和文本分支提取对应数据的特征向量,将草图特征与文本特征融合,之后同样采用对比学习的方式得到多模态嵌入空间,实现输入草图和文本检索图像的目标,同时提升草图检索的准确率。
1.一种多模态融合的草图检索方法,其特征在于:本检索方法包括以下步骤:
2.根据权利要求1所述的一种多模态融合的草图检索方法,其特征在于:所述本检索方法中步骤s130具体包括以下步骤:
3.根据权利要求1所述的一种多模态融合的草图检索方法,其特征在于:所述本检索方法中步骤s140具体包括以下步骤:
4.根据权利要求1所述的一种多模态融合的草图检索方法,其特征在于:所述步骤s110中,使用草图生成算法获取草图数据并构建训练集。
5.根据权利要求1所述的一种多模态融合的草图检索方法,其特征在于:所述步骤s110中,使用人工绘制的方式获取草图数据并构建测试集。
6.根据权利要求3所述的一种多模态融合的草图检索方法,其特征在于:所述步骤b1中,所述图像分支和所述草图分支的编码器的结构是vision transformer,文本分支编码器的结构是transformer。
7.根据权利要求2所述的一种多模态融合的草图检索方法,其特征在于:所述步骤a1中,一般的λ=0.3。
8.根据权利要求2所述的一种多模态融合的草图检索方法,其特征在于:所述步骤a2中,一般的τ=0.07。
9.根据权利要求3所述的一种多模态融合的草图检索方法,其特征在于:所述步骤b1中,使用余弦相似度计算查询特征和特征库之间的相似度。
10.根据权利要求2所述的一种多模态融合的草图检索方法,其特征在于:所述步骤a2中,最终的损失函数为该批次中所有真正语义匹配组合上两个损失的加权和的平均。