基于在线学习的潜在语义跨媒体哈希检索方法与流程

文档序号：15558428发布日期：2018-09-29 01:40阅读：542来源：国知局

本发明涉及多媒体检索和模式识别领域，尤其是一种基于在线学习的潜在语义跨媒体哈希检索方法。
背景技术：
：近年来，由于哈希方法在大规模数据集上的高效性和有效性，引起了研究者的广泛关注；哈希方法的目标是通过保持数据在原始特征空间或标签的结相似性，将数据映射到汉明空间；数据间的相似性可以通过xor运算高效计算，在保证检索性能的前提下大大加快检索速度；然而，大部分哈希方法只是针对单一模态的应用，随着互联网技术和数字设备的快速发展，网络上多媒体数据越来越多；不同模态的数据可以表示相同语义数据，这限制了单模哈希方法的应用；对于用户而言，用户虽然输入的是单一模态数据，但期望返回各种模态的相似数据；然而，异构数据间的相似性是不能直接度量的，如何度量异构数据的相似度成为一个挑战，跨媒体哈希方法将异构数据映射到一个共享汉明空间，在此空间异构数据的相似度可以高效的计算。最近，研究者提出了多种跨媒体哈希方法，并取得了令人满意的成果；已有成果证明，利用数据的监督信息（例如，类别标签）可以生成基于高层语义保持的哈希码来提高检索性能；但离散标签不能准确地度量数据间的相似度，会导致哈希函数区分能力下降；此外，尽管跨媒体哈希的研究取得了一些进展，但大多数已有方法是基于批量数据的；这类方法需要所有的训练数据在学习哈希函数之前都是可用的，但在实际应用中，网络上的多媒体数据会随时间的推移不断产生，例如每天都有数十亿图像上传到互联网；当新数据产生后，这些方法须利用所有积累的训练数据重新训练哈希函数；这使哈希方法失去了其高效性，尤其是当新数据频繁产生时；另外，随着新数据的不断产生，训练数据集变得非常大；一方面，训练数据占用内存太高，导致无法将所有数据一次性加载到内存中；另一方面，即使内存足够用，通常训练时间也是难以接受的；为了解决以上问题，本发明提出一种基于在线学习的跨媒哈希体检索方法，该方法利用离散标签学习一个连续的潜在语义空间，以更准确地度量数据间的相似度，使返回的检索结果更准确；而且该方法有效地实现了当有新数据产生时，只利用新数据更新训练哈希函数，使哈希函数的训练更高效和减少内存开销。技术实现要素：本发明的目的是提供一种基于在线学习的跨媒哈希体检索方法，其特征在于，该方法包括以下步骤。步骤1：从网络上搜集图像、文本数据对，构建跨模态检索数据库，提取数据库中图像和文本数据的特征并去均值，将数据集分为训练集和测试集。步骤2：将数据的离散标签映射到连续的潜在语义空间，并保持基于此空间的数据间相似性构建目标函数。步骤3：利用基于在线学习的迭代优化算法求解目标函数，使得当有新数据产生时，只利用新数据更新哈希函数。步骤4：根据测试集中数据的模态，利用相应模态哈希函数将数据映射到汉明空间。步骤5：将测试集中某一模态（例如：图像）的数据作为查询集，另一模态（例如：文本）的数据作为目标数据集。步骤6：计算查询集中一个数据与目标数据集中所有数据的汉明距离，并按升序排序，返回前个数据作为跨媒体检索结果。根据权利要求1所述的基于在线学习的监督跨媒体哈希检索方法，其特征在于，所述步骤1包括以下步骤。1）利用网络收集图像和文本数据，并且使图像和文本数据是一一对应的。2）对所有图像数据提取其sift特征点，并对特征点进行k-means聚类，把聚类中心作为视觉单词；然后把所有特征点量化到距离最近的视觉单词，最后与对文本数据的处理相同，利用词频-逆文件频率的方法生成图像的特征表示，图像数据最终被表示为，其中为图像数据表示的维数，为训练数据库文本数据的数量。3）对所有文本数据利用词袋模型生成特征表示，并利用词频-逆文件频率的方法对每个单词加权，最终所有文本数据被表示为，其中为文本表示的维数。4）对生成的图像和文本特征表示进行去均值处理。5）按照一定比例，将数据集划分为训练集和测试集。根据权利要求1所述的基于在线学习的监督跨媒体哈希检索方法，其特征在于，所述步骤2中，包括以下步骤。1）基于所述的训练集中图像和文本数据的特征建立目标函数。2）所述目标函数，定义如下：其中，为所有数据的标签矩阵，和为映射矩阵，为数据的哈希码，分别表示图像和文本模态的哈希函数，和为待定权重参数，表示f-范数。根据权利要求1所述的基于在线学习的监督跨媒体哈希检索方法，其特征在于，所述步骤3中，包括以下步骤。1）把训练数据库中的数据按照收集时间顺序分成个数据块，模拟数据随着时间的推移，新数据不断产生，初始训练集只包含第一个数据块的数据，然后每次向训练集添加一个数据块；2）设定阈值和最大迭代次数，只要满足相邻两次迭代目标函数值之差大于阈值或迭代次数小于最大迭代次数，执行3）--7）；3）固定、、和求解：当第（）次数据产生时，新图像和文本数据分别用，表示，新数据的标签用表示，新数据的哈希码用表示，已有图像和文本数据用，表示，已有数据的标签用表示，已有数据的哈希码用表示；去除常数项，目标函数变为：这个问题可以利用离散循环坐标下降法逐一比特求解，得到，并更新变量；4）固定、、和求解：去除常数项，目标函数可写为：则：其中：其中和为常数项，可以在更新函数前预先计算，存放到内存，因此更新只与新数据有关；5）固定、、和求解：去除常数项，目标函数可写为：则：其中：其中和为常数项，，可以在更新函数前预先计算，存放到内存，因此更新只与新数据有关；6）固定、、和求解：去除常数项，目标函数可写为：则：其中：其中和为常数项，可以在更新函数前预先计算，存放到内存，因此更新只与新数据有关；7）固定、、和求解：与求解类似其中：其中和为常数项，可以在更新函数前预先计算，存放到内存，因此更新与新数据有关。本发明与
背景技术：
相比，具有的有益效果是：本发明提出了一套新的基于内容的跨媒体检索方法；通过将离散标签映射到连续空间，更精确的度量数据间的相似度；提出了一种基于在线学习的优化方法，当有新数据产生时，只需要利用新数据更新哈希函数，在保证算法性能的前提下，提升了算法的效率；该发明将异构数据映射到共享汉明空间，适用于现实中面向流式网络大数据的跨媒体检索。附图说明图1是本发明基于在线学习的监督跨媒体哈希检索方法流程图。图2是根据本发明跨媒体检索方法从图像到文本的检索效果示意图。图3是根据本发明跨媒体检索方法从文本到图像的检索效果示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图对本发明进一步详细说明。本发明将异构数据映射到同一个汉明空间，而且当有新数据产生时，只利用新数据更新不同模态的哈希函数；在学习的共享汉明子空间中度量不同模态的数据的相似性，实现高效跨媒体检索的目的。图1是本发明基于在线学习的潜在语义跨媒体哈希检索方法流程图，本发明提出的一种基于在线学习的潜在语义跨媒体哈希检索方法包括以下几个步骤。步骤1：从网络上搜集图像、文本数据，构建跨模态检索的数据库，提取数据库中图像和文本数据的特征并去均值，将数据集划分为训练集和测试集。所述的提取数据集中图像和文本数据的特征，本发明中，对于图像数据，首先提取尺度不变特征变换（scale-invariantfeaturetransform，sift）特征，然后利用k-means算法对sift特征进行聚类，得到500个聚类中心，最后利用视觉词包（bagofvisualwords，bovw）算法构造图像数据的特征；对于文本数据，选取最具代表性的1000个单词，构造文本数据1000维的bow（bagofwords）特征。所述的将数据集划分为训练集和测试集，可根据实际需要进行划分，例如从数据集中随机选择99%的数据对构成训练数据集，剩余的1%数据构成测试数据集。步骤2：将数据的离散标签映射到连续的潜在语义空间，并保持基于此空间的数据间相似性构建目标函数。所述的目标函数定义如下：其中，为所有数据的标签矩阵，和为映射矩阵，为数据的哈希码，分别表示图像和文本模态的哈希函数，和为待定权重参数，表示f-范数。步骤3：利用基于在线学习的迭代优化算法求解目标函数，使得当有新数据产生时，只利用新数据更新哈希函数。所述的当有新数据产生时，将训练集中的数据特征分成多个数据块，并且每次添加一个数据块与现有的训练数据构成训练集，以模拟数据以数据流的方式产生。所述的将训练集中的数据特征分成多个数据块，可根据实际需求进行划分，例如平均划分为16个数据块。所述的求解目标函数具体包括以下几个步骤。1）当有新数据产生添加到训练集时，设定阈值（例如0.001）和最大迭代次数（例如：50），只要满足相邻两次迭代目标函数值之差大于阈值或迭代次数小于最大迭代次数，执行2）--6）。2）固定其他变量，求解下式更新：这个问题可以利用离散循环坐标下降法逐一比特求解，得到，并更新变量；3）固定其他变量，利用下式更新：其中：。4）固定其他变量，利用下式更新：其中：；5）固定其他变量，利用下式更新：其中：；6）固定其他变量，利用下式更新：其中：。步骤4：根据测试集中数据的模态，利用相应模态哈希函数将数据映射到汉明空间。步骤5：将测试集中某一模态（例如：图像）的数据作为查询数据集，另一模态（例如：文本）的数据作为目标数据集。步骤6：计算查询数据集中一个数据与目标数据集中所有数据的汉明距离，并按升序排序，返回前k个数据作为跨媒体检索结果。为了验证本发明方法的有效性，在公开的标准数据集nus-wide上进行实验；为了使每类有足够的训练样本，从nus-wide数据集中选取数据数量最多的21类，195969个图像、文本对；图像数据用500维的视觉词袋特征表示，文本用1000维的词袋特征表示；随机选取99%的图像、文本对构成训练集，剩余的1%构成测试集，并把训练集数据平均分为16个数据块模拟数据以数据流的方式产生；为了客观地评价本发明方法的性能，使用在检索领域中广泛使用的平均准确率（meanaverageprecision，map）作为评价标准；在nus-wide数据集上，进行了实验，不同哈希编码长r的map实验结果如表1所示。表1在nus-wide数据集上的map结果r=16r=24r=32r=64图像检索文本0.41160.41500.41740.4183文本检索图像0.43230.43700.44610.4478当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姚涛;王刚;苏庆堂;王洪刚;张小峰;岳峻
技术所有人：鲁东大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。