一种基于图像检索的字幕匹配方法和系统的制作方法

文档序号:8473056阅读:375来源:国知局
一种基于图像检索的字幕匹配方法和系统的制作方法
【技术领域】
[0001]本发明涉及图像处理技术领域,特别是一种基于图像检索的字幕匹配方法及其应用该方法的系统。
【背景技术】
[0002]为特定图像匹配合适的影视字幕的最关键点就在于图像检索的效率和准确度,影视字幕的数据资源是非常庞大的,用户很难在浩如烟海的数据中找到真正感兴趣的信息。因此,如何对海量的图像进行快速有效的分析和检索成了一个非常具有挑战性的任务。
[0003]传统的基于内容的图像检索技术往往都是通过提取图像的底层特征进行穷举比对,但因其比较过程的时间复杂度是线性的,无法在大规模网络图像数据上进行扩展和应用,并且由于图像的底层视觉特征动辄成千上万维,许多图像检索应用还会遇到维数灾难的问题,如何对如此庞大的原始数据进行存储也是一个巨大瓶颈。
[0004]近年来,研宄者们对图像的快速检索技术进行了详细研宄。其中,基于哈希编码的图像搜索方法取得了巨大成功。该类算法通过将图像表示成低维的二进制编码向量来完成近似近邻搜索。利用二进制编码进行图像的近似近邻搜索是极其快速的,因为:1)图像的编码向量是高度压缩的,可以将其全部载入内存之中;2)编码之间的汉明(Hamming)距离通过按位的异或操作便可得到,因此该计算过程是非常高效的(如今,一台普通的台式机在几毫秒之内就可以完成数百万汉明距离的计算)。
[0005]目前,传统的图像哈希编码算法主要分为非数据依赖和数据依赖两种方案。其中一种非常著名的非数据依赖哈希算法便是局部敏感哈希(Locality SensitiveHashing, LSH),但是其投影向量的随机性导致其编码效率并不高,它往往需要构建具有很长编码长度的多个哈希表才能获得较为理想的效果。近年来,研宄者们将研宄重点转移到数据依赖的哈希算法上来,试图通过机器学习的方法代替随机投影来寻找更好的数据依赖哈希函数,如基于深度学习网络的限制玻尔兹曼机(Restricted BoltzmannMachines, RBMs)和基于谱图分割的谱哈希(Spectral Hashing, SH)算法等。RBMs算法通过神经网络模型逐层对图像的原始特征进行降维和学习,并最终得到一个紧致的二进制编码。SH算法则通过构建拉普拉斯特征图并利用主成分分析(PCA)方法提取其特征向量对原始图像进行哈希编码。
[0006]但是上述方法都是基于单一的图像底层视觉特征信息进行哈希编码,无法全面地表达图像丰富的内容信息。后续的研宄,如多特征哈希算法(Multiple FeatureHashing, MFH)和多源信息合成哈希算法(Composite Hashing with MultipleInformat1n Sources, CHMIS)等,又在多种特征信息的融合等方面对数据依赖哈希算法进行了相关的拓展。虽然上述哈希算法是针对问题的不同角度提出,都具有各自的一些特点和优越性,但它们往往只在某些特定的设置条件或者数据库上有效,范围扩展性较差,无法应用于图像的自动字幕匹配。

【发明内容】

[0007]本发明为解决上述问题,提供了一种基于图像检索的字幕匹配方法和系统,在保证图像检索效率的前提下,达到快速精准图像字幕匹配的效果。
[0008]为实现上述目的,本发明采用的技术方案为:
[0009]一种基于图像检索的字幕匹配方法,其特征在于,包括以下步骤:
[0010]10:采集样本图像及其对应的字幕内容,并使用样本图像作为ELM自编码网络的训练数据,通过训练得到哈希函数,并使用该哈希函数进行图像二进制编码转换,得到各个样本图像的二进制编码序列;
[0011]20:获取待匹配图像,对待匹配图像使用ELM自编码网络训练得到哈希函数,并使用该哈希函数进行图像二进制编码转换,得到待匹配图像的二进制编码序列;
[0012]30:根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离,并根据该汉明距离通过K近邻法进行相似图像检索,得到与待匹配图像最相似样本图像;
[0013]40:将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像。
[0014]优选的,所述的样本图像主要是指包含字幕内容的影视图像,该影视图像包括电影截图或电视剧截图,各个影视图像都设置有对应的字幕内容和对应的二进制编码序列。
[0015]优选的,所述的步骤10中,将各个样本图像分别应用ELM自编码网络训练得到哈希函数,并使用该哈希函数进行图像二进制编码转换,得到各个样本图像的二进制编码序列,进一步包括以下步骤:
[0016]al.通过获取样本图像作为训练的数据集合,并以该数据集合作为ELM自编码网络的输入,进行哈希函数的训练,得到哈希自编码模型;
[0017]bl.在ELM自编码训练过程中,求解各个样本图像的最佳匹配的哈希函数,并将该最佳匹配的哈希函数作为优化哈希函数;
[0018]Cl.使用所述的优化哈希函数进行图像二进制编码转换,得到各个样本图像的二进制编码序列。
[0019]优选的,所述的步骤20中,对待匹配图像使用ELM自编码网络训练得到哈希函数,并使用该哈希函数进行图像二进制编码转换,得到待匹配图像的二进制编码序列,进一步包括以下步骤:
[0020]a2.将所述的待匹配图像作为ELM自编码网络的输入,求解该待匹配图像的最佳匹配的哈希函数,并将该最佳匹配的哈希函数作为优化哈希函数;
[0021]b2.使用所述的优化哈希函数进行图像二进制编码转换,得到待匹配图像的二进制编码序列。
[0022]优选的,所述的优化哈希函数的计算方法,进一步包括以下步骤:
[0023]bal.预设所述的样本图像作为训练的数据集合是一个包含N个D维向量的数据
XdxN —(X I,…xN);
[0024]ba2.用O或I随机初始化N个L维向量的数据Zm= (z i,…zN),即编码长度为L的样本图像的二进制编码序列,并开始u次迭代;
[0025]ba3.对于Zm中的第I维编码数值,应有ELM的方法解HB = Z N, i,其中,
[0026]H = sigmod (WX+b),且 W,b 使用随机初始化;
[0027]ba4.求解获得 hash 函数,Iiashiu(X) = HB ;
[0028]ba5.对于X中的N个样本中的每个样本η,使用ELM自编码求解Xn= f (Zn),迭代训练直到Z = hash (X)停止,该哈希函数Z = hash (X)即为优化哈希函数。
[0029]优选的,所述的步骤30中,根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离,该汉明距离的计算方法如下:
[0030]d(x,y) =Σ x[i] ? y[i];
[0031]其中,i = 0,1,..n-1,x、y分别代表待匹配图像的二进制编码序列和样本图像的二进制编码序列,?表不异或。
[0032]优选的,所述的步骤30中,根据该汉明距离通过K近邻法进行相似图像检索,主要是对所述的待匹配图像的二进制编码序列,在所述的样本图像的数据集中使用汉明距离遍历寻找与所述的待匹配图像的二进制编码序列最邻近的样本图像的二进制编码序列。
[0033]优选的,所述的步骤40中,将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像,主要是将最相似样本图像的文本形式的字幕内容,按照预设的文本样式添加至待匹配图像的预设位置。
[0034]另外,本发明还根据上述方法提供了一种基于图像检索的字幕匹配系统,其特征在于,其包括:
[0035]数据获取模块,用于获取待匹配图像、样本图像以及样本图像所对应的字幕内容;
[0036]数据处理模块,将采集的样本图像作为ELM自编码网络的训练数据,对待匹配图像及各个样本图像分别使用ELM自编码网络训练得到哈希函数,并使用该哈希函数进行图像二进制编码转换,得到待匹配图像及各个样本图像的二进制编码序列;
[0037]图像检索模块,用于根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离,并根据该汉明距离通过K近邻法进行相似图像检索,得到与待匹配图像最相似样本图像;
[0038]字幕添加模块,用于将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像。
[0039]优选的,所述的数据处理模块进一步包括:
[0040]哈希自编码模型创建单元,其通过获取样本图像作为训练的数据集合,并以该数据集合作为ELM自编码网络的输入,进行哈希函数的训练,得到哈希自编码模型;
[0041]哈希函数优化单元,其通过E
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1