基于四元组哈希的遥感图像音频检索方法

文档序号:26484235发布日期:2021-08-31 17:40阅读:来源:国知局

技术特征:

1.一种基于四元组哈希的遥感图像音频检索方法,其特征在于,包括如下步骤:

步骤1,划分训练数据集和测试数据集;

步骤2,针对训练数据集,利用四重结构模块选择有效的四元组样本;

步骤3,构建整体网络模型,包括一个图像分支网络i和一个音频分支网络s,用于计算图像和音频的特征表示和哈希码:

图像分支网络包括一系列卷积层和两个全连接层,第一个全连接层是深度特征层,它包含n1个节点,并利用sigmoid函数作为激活函数,第二个全连接层是哈希层,包含k个节点,利用tanh函数作为激活函数;哈希层生成k位的类哈希码pn,并通过量化函数生成k位的哈希码xn;使用梅尔频率倒谱系数表示音频,音频分支网络由一系列的卷积层、池化层和两个全连接层组成,全连接层与图像分支网络的深度特征层相同,哈希层生成k位的类哈希码pn,并通过量化函数生成k位的哈希码xn;

步骤4,利用步骤2中得到的四元组样本训练整体网络模型,计算整体网络模型的目标函数并更新整体网络模型的初始参数;

步骤5,使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标map和前n名检索结果。

2.如权利要求1所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤2的具体实现方式如下;

将训练数据集样本划分为n个有效的四元组其中分别是数据集中语义相似的成对的遥感图像和音频,为与语义不相似的遥感图像,为与语义不相似的音频。

3.如权利要求2所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤3中计算得到图像的深层特征表示音频的深层特征表示四元组各元素的类哈希码四元组各元素的哈希码

4.如权利要求3所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤4中的目标函数由四元组相似项、四元组语义项、四元组正则化项和四元组特征相似项组成,四元组相似项的具体表达公式如下:

其中,‖·‖2表示l2范式,δ和∈表示边界参数,该超参数在训练阶段自行设置,该目标函数旨在保留在原始空间中匹配的图像和音频的跨模态相似性;

四元组语义项的具体表达公式如下:

其中,φ表示交叉熵损失函数,分别表示四元组中各元素的标签信息;

四元组正则化项的具体表达公式如下:

其中,绝对值函数|x|的近似函数logcoshx,表示类哈希码的第k位,表示哈希码的第k位;

四元组特征相似项由音频对图像的三重特征相似项和图像对音频的三重特征相似项组成,四元组特征相似项的具体表达公式如下:

其中,‖·‖2表示l2范式,μ和η表示边界参数,,该超参数在训练阶段自行设置;因此,总目标函数的公式表达如下:

其中,α、β和γ是超参数,通过训练模型从而得到网络的权重参数w和偏置参数b。

5.如权利要求4所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:训练整体网络模型时,使用adam算法进行优化,学习率设置为10-3,批量大小设置为64,哈希码的长度k设置为64,图像分支网络的初始权重使用预先训练好的权值,音频分支网络的权重使用glorot分布进行初始化,α和β设置为1,γ设置为0.01,训练大约3000轮迭代,通过训练模型从而得到网络的权重参数w和偏置参数b。

6.如权利要求1所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤1中使用ucm图像音频数据集,选取该数据集的80%作为训练数据集itrain,余下的20%作为测试数据集itest。


技术总结
本发明公开了一种基于四元组哈希的遥感图像音频检索方法,主要解决现存方法未能充分捕捉图像和音频的类别级语义及语义信息利用不足的问题。本发明设计了一种新的四元组哈希网络学习图像和声音的相对语义相似性关系和类别级语义信息,利用自适应跨模态遥感图像音频学习策略生成哈希码,最后利用相似度计算来匹配正确的遥感图像‑音频对。本发明提出了一个新的目标函数来进行有效的哈希码学习,新的目标函数不仅捕获了不同模式下哈希码的相对语义相关,学习了深度特征的相对语义相关,而且增强了哈希码的类别级语义,减少了类哈希码和哈希码之间的量化误差。本发明充分利用图像和音频的语义信息,进一步提升检索性能。

技术研发人员:陈亚雄;汤一博;熊盛武;路雄博;荣毅
受保护的技术使用者:武汉理工大学
技术研发日:2021.05.06
技术公布日:2021.08.31
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1