本申请实施例涉及人工智能,尤其涉及一种哈希模型训练方法、检索方法和装置。
背景技术:
1、随着互联网的高速发展,图像、文本、视频等多媒体数据急剧增长,大规模数据检索成为了一个研究热点。面对海量数据,最近邻搜索(approximate nearest neighbor,ann)相比精确检索具备更广的应用优势,从而成为信息检索中的一项关键技术。其中,基于哈希技术的近似ann方法通过设计和优化哈希函数,减少计算次数从而缩短搜索时间。哈希技术由于其低廉的存储成本和高效的查询效率,得到了人们越来越多的关注。
2、无监督哈希技术利用无标签的样本数据来学习哈希函数。相关技术中,无监督哈希技术一般通过利用预训练好的卷积神经网络提取数据点的特征向量,然后依据提取到的特征向量来定义数据点之间的相似性关系,以该相似性信息为指导信息优化目标函数,实现哈希模型的训练。然而,面对实际场景中的大规模复杂数据,无监督哈希技术在检索精度上依然存在着较大的挑战。如何有效保障无监督哈希技术的检索精度,亟待解决。
技术实现思路
1、本申请提供一种哈希模型训练方法、检索方法和装置,能够有助于提升无监督哈希技术的检索精度。
2、第一方面,本申请实施例提供一种哈希模型训练方法,包括:
3、获取训练样本集,所述训练样本集包括n个图片样本;n为大于1的正整数;
4、利用视觉语言模型,获取每个所述图片样本的语义概念信息;其中,所述视觉语言模型根据文本-图像对预训练得到;所述语义概念信息包括图片样本在多个语义概念的语义分布,所述语义概念包括具有同种特性的实体构成的集合;
5、根据每个所述图片样本的语义概念信息,获取所述n个图片样本间的语义相似性;
6、将所述n个图片样本输入哈希模型,得到所述n个图片样本的哈希码;
7、根据所述n个图片样本间的语义相似性和所述n个图片样本的哈希码,确定哈希损失;
8、根据所述哈希损失,对所述哈希模型的参数进行更新,得到训练后的所述哈希模型。
9、第二方面,本申请实施例提供一种检索方法,包括:
10、获取查询图片;
11、将所述查询图片输入哈希模型,得到所述查询图片的第一哈希码;其中,所述哈希模型根据第一方面所述的方法训练得到;
12、获取至少一个候选图片;
13、将所述至少一个候选图片输入所述哈希模型,得到所述至少一个候选图片对应的至少一个第二哈希码;
14、根据所述第一哈希码和所述至少一个第二哈希码,在所述至少一个候选图片中确定所述查询图片对应的目标图片。
15、第三方面,本申请实施例提供了一种哈希模型训练装置,包括:
16、获取单元,用于获取训练样本集,所述训练样本集包括n个图片样本;n为大于1的正整数;
17、视觉语言模型,用于获取每个所述图片样本的语义概念信息;其中,所述视觉语言模型根据文本-图像对预训练得到;所述语义概念信息包括图片样本在多个语义概念的语义分布,所述语义概念包括具有同种特性的实体构成的集合;
18、确定单元,用于根据每个所述图片样本的语义概念信息,获取所述n个图片样本间的语义相似性;
19、哈希模型,用于输入所述n个图片样本,得到所述n个图片样本的哈希码;
20、所述确定单元还用于根据所述n个图片样本间的语义相似性和所述n个图片样本的哈希码,确定哈希损失;
21、参数更新单元,用于根据所述哈希损失,对所述哈希模型的参数进行更新,得到训练后的所述哈希模型。
22、第四方面,本申请实施例提供了一种检索装置,包括:
23、获取单元,用于获取查询图片;
24、哈希模型,用于输入将所述查询图片,得到所述查询图片的第一哈希码;其中,所述哈希模型根据如权利要求1-7任一项所述的方法训练得到;
25、所述获取单元还用于获取至少一个候选图片;
26、所述哈希模型还用于输入所述至少一个候选图片,得到所述至少一个候选图片对应的至少一个第二哈希码;
27、确定单元,用于根据所述第一哈希码和所述至少一个第二哈希码,在所述至少一个候选图片中确定所述查询图片对应的目标图片。
28、第五方面,本申请实施例提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面或第二方面中的方法。
29、第六方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时使得计算机执行如第一方面或第二方面中的方法。
30、第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面或第二方面中的方法。
31、第八方面,本申请实施例提供一种计算机程序,计算机程序使得计算机执行如第一方面或第二方面中的方法。
32、通过上述技术方案,本申请实施例通过利用预训练的视觉语言模型挖掘图片中可能存在的语义概念信息,以及依据图片的语义概念信息来定义图片之间的语义相似性,并以该语义相似性为指导信息来指导哈希模型的训练,使得哈希模型能够将图片映射为保留语义相似性的哈希码,能够有助于提升无监督哈希技术的检索精度。
33、进一步的,本申请实施例在面对大规模复杂数据时,能够有助于保障无监督哈希技术的检索精度。
1.一种哈希模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述n个图片样本间的语义相似性和所述n个图片样本的哈希码,确定哈希损失,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述n个图片样本间的语义相似性和所述n个图片样本间的汉明相似性,确定所述哈希损失,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述n个图片样本间的语义相似性和所述n个图片样本间的汉明相似性,确定所述哈希损失,包括:
5.根据权利要求1所述的方法,其特征在于,所述利用视觉语言模型,获取每个所述图片样本的语义概念信息,包括:
6.根据权利要求5所述的方法,其特征在于,所述利用所述视觉语言模型,获取每个所述图片样本在所述m个语义概念的语义分布,包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,所述视觉语言模型包括基于对比文本-图像对预训练clip模型。
8.一种检索方法,其特征在于,包括:
9.一种哈希模型训练装置,其特征在于,包括:
10.一种检索装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有指令,所述处理器执行所述指令时,使得所述处理器执行权利要求1-8任一项所述的方法。
12.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序包括用于执行权利要求1-8中任一项所述的方法。
13.一种计算机程序产品,其特征在于,包括计算机程序代码,当所述计算机程序代码被电子设备运行时,使得所述电子设备执行权利要求1-8中任一项所述的方法。