1.一种基于四元组哈希的遥感图像音频检索方法,其特征在于,包括如下步骤:
步骤1,划分训练数据集和测试数据集;
步骤2,针对训练数据集,利用四重结构模块选择有效的四元组样本;
步骤3,构建整体网络模型,包括一个图像分支网络i和一个音频分支网络s,用于计算图像和音频的特征表示和哈希码:
图像分支网络包括一系列卷积层和两个全连接层,第一个全连接层是深度特征层,它包含n1个节点,并利用sigmoid函数作为激活函数,第二个全连接层是哈希层,包含k个节点,利用tanh函数作为激活函数;哈希层生成k位的类哈希码pn,并通过量化函数生成k位的哈希码xn;使用梅尔频率倒谱系数表示音频,音频分支网络由一系列的卷积层、池化层和两个全连接层组成,全连接层与图像分支网络的深度特征层相同,哈希层生成k位的类哈希码pn,并通过量化函数生成k位的哈希码xn;
步骤4,利用步骤2中得到的四元组样本训练整体网络模型,计算整体网络模型的目标函数并更新整体网络模型的初始参数;
步骤5,使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标map和前n名检索结果。
2.如权利要求1所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤2的具体实现方式如下;
将训练数据集样本划分为n个有效的四元组
3.如权利要求2所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤3中计算得到图像的深层特征表示
4.如权利要求3所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤4中的目标函数由四元组相似项、四元组语义项、四元组正则化项和四元组特征相似项组成,四元组相似项的具体表达公式如下:
其中,‖·‖2表示l2范式,δ和∈表示边界参数,该超参数在训练阶段自行设置,该目标函数旨在保留在原始空间中匹配的图像和音频的跨模态相似性;
四元组语义项的具体表达公式如下:
其中,φ表示交叉熵损失函数,
四元组正则化项的具体表达公式如下:
其中,绝对值函数|x|的近似函数logcoshx,
四元组特征相似项由音频对图像的三重特征相似项和图像对音频的三重特征相似项组成,四元组特征相似项的具体表达公式如下:
其中,‖·‖2表示l2范式,μ和η表示边界参数,,该超参数在训练阶段自行设置;因此,总目标函数的公式表达如下:
其中,α、β和γ是超参数,通过训练模型从而得到网络的权重参数w和偏置参数b。
5.如权利要求4所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:训练整体网络模型时,使用adam算法进行优化,学习率设置为10-3,批量大小设置为64,哈希码的长度k设置为64,图像分支网络的初始权重使用预先训练好的权值,音频分支网络的权重使用glorot分布进行初始化,α和β设置为1,γ设置为0.01,训练大约3000轮迭代,通过训练模型从而得到网络的权重参数w和偏置参数b。
6.如权利要求1所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤1中使用ucm图像音频数据集,选取该数据集的80%作为训练数据集itrain,余下的20%作为测试数据集itest。