一种基于图像检索的字幕匹配方法和系统的制作方法_2

文档序号：8473056阅读：来源：国知局

LM自编码训练，求解待匹配图像及各个样本图像的最佳匹配的哈希函数，并将该最佳匹配的哈希函数作为优化哈希函数；
[0042]编码单元，其使用所述的优化哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列。
[0043]本发明的有益效果是:
[0044]本发明的一种基于图像检索的字幕匹配方法和系统，其通过获取待匹配图像、样本图像以及样本图像所对应的字幕内容，使用采集的样本图像作为ELM自编码网络训练的数据，对待匹配图像及各个样本图像分别使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列并计算出计算图像之间的汉明距离，根据该汉明距离通过K近邻法进行相似图像检索，得到与待匹配图像最相似样本图像，最后将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像；本发明主要是利用自编码来训练得到哈希函数，输入为图像，不使用人工特征，无需对各个样本图像进行人工标注，极大的减少了人工操作时间，并且降低了人工操作的失误率，提高图像相似检索的精确度，同时使用二进制编码保证了检索的效率，达到快速精准图像字幕匹配的效果。
【附图说明】
[0045]此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中:
[0046]图1为本发明一种基于图像检索的字幕匹配方法的流程简图；
[0047]图2为本发明一种基于图像检索的字幕匹配系统的结构示意图。
【具体实施方式】
[0048]为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0049]极限学习机(Extreme Learning Machine) ELM，是由黄广斌提出来的求解单隐层神经网络的算法。ELM最大的特点是对于传统的神经网络，尤其是单隐层前馈神经网络(SLFNs)，极限学习机只需要设置网络的隐层节点个数，在算法执行过程中不需要调整网络的输入权值以及隐元的偏置，并且产生唯一的最优解；在ELM算法中，一旦输入权重和隐层的偏置被随机确定，隐层的输出矩阵就被唯一确定；因此具有学习速度快且泛化性能好的优点，在保证学习精度的前提下比传统的学习算法速度更快。
[0050]ELM自编码(ELM Autoencode, ELM-AE)可以看做是ELM的一个特例，它的输入等于它的输出，并且其随机产生的权重是正交的。
[0051]如图1所示，本发明的一种基于图像检索的字幕匹配方法，其包括以下步骤:
[0052]10:采集样本图像及其对应的字幕内容，并使用样本图像作为ELM自编码网络的训练数据，通过训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到各个样本图像的二进制编码序列；
[0053]20:获取待匹配图像，对待匹配图像使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像的二进制编码序列；
[0054]30:根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离，并根据该汉明距离通过K近邻法进行相似图像检索，得到与待匹配图像最相似样本图像；
[0055]40:将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像。
[0056]本实施例中，所述的样本图像主要是指包含字幕内容的影视图像，该影视图像包括电影截图或电视剧截图，各个影视图像都设置有对应的字幕内容和对应的二进制编码序列，或者也适用于其他带有字幕的图像。
[0057]所述的步骤10中，将各个样本图像分别应用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到各个样本图像的二进制编码序列，进一步包括以下步骤:
[0058]al.通过获取样本图像作为训练的数据集合，并以该数据集合作为ELM自编码网络的输入，进行哈希函数的训练，得到哈希自编码模型；
[0059]bl.在ELM自编码训练过程中，求解各个样本图像的最佳匹配的哈希函数，并将该最佳匹配的哈希函数作为优化哈希函数；
[0060]Cl.使用所述的优化哈希函数进行图像二进制编码转换，得到各个样本图像的二进制编码序列。
[0061]所述的步骤20中，对待匹配图像使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像的二进制编码序列，进一步包括以下步骤:
[0062]a2.将所述的待匹配图像作为ELM自编码网络的输入，求解该待匹配图像的最佳匹配的哈希函数，并将该最佳匹配的哈希函数作为优化哈希函数；
[0063]b2.使用所述的优化哈希函数进行图像二进制编码转换，得到待匹配图像的二进制编码序列。
[0064]在步骤bl和步骤a2中，所述的优化哈希函数的计算方法，进一步包括以下步骤:
[0065]bal.预设所述的样本图像作为训练的数据集合是一个包含N个D维向量的数据
XdxN —(X I，…xN);
[0066]ba2.用O或I随机初始化N个L维向量的数据Zm= (z i，…zN)，即编码长度为L的样本图像的二进制编码序列，并开始u次迭代；
[0067]ba3.对于Zm中的第I维编码数值，应有ELM的方法解HB = Z N, i，其中，
[0068]H = sigmod (WX+b)，且 W，b 使用随机初始化；
[0069]ba4.求解获得 hash 函数，Iiashiu(X) = HB ；
[0070]ba5.对于X中的N个样本中的每个样本η，使用ELM自编码求解Xn= f (Zn)，迭代训练直到Z = hash (X)停止，该哈希函数Z = hash (X)即为优化哈希函数。
[0071]所述的步骤30中，根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离，该汉明距离的计算方法如下:
[0072]d(x,y) =Σ x[i] ? y[i]；
[0073]其中，i = 0，1，..n-1, x、y分别代表待匹配图像的二进制编码序列和样本图像的二进制编码序列，?表不异或。
[0074]所述的步骤30中，根据该汉明距离通过K近邻法进行相似图像检索，主要是对所述的待匹配图像的二进制编码序列，在所述的样本图像的数据集中使用汉明距离遍历寻找与所述的待匹配图像的二进制编码序列最邻近的样本图像的二进制编码序列。
[0075]所述的步骤40中，将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像，主要是将最相似样本图像的文本形式的字幕内容，按照预设的文本样式添加至待匹配图像的预设位置。
[0076]如图2所示，本发明还根据上述方法提供了一种基于图像检索的字幕匹配系统，其包括:
[0077]数据获取模块A，用于获取待匹配图像、样本图像以及样本图像所对应的字幕内容；
[0078]数据处理模块B，将采集的样本图像作为ELM自编码网络的训练数据，对待匹配图像及各个样本图像分别使用ELM自编码网络训练得到哈希函数，并使用该哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列；
[0079]图像检索模块C，用于根据待匹配图像的二进制编码序列和各个样本图像的二进制编码序列计算图像之间的汉明距离，并根据该汉明距离通过K近邻法进行相似图像检索，得到与待匹配图像最相似样本图像；
[0080]字幕添加模块D，用于将所述的最相似样本图像所对应的字幕内容赋予所述的待匹配图像。
[0081]本实施例中，所述的数据处理模块B进一步包括:
[0082]哈希自编码模型创建单元BI，其通过获取样本图像作为训练的数据集合，并以该数据集合作为ELM自编码网络的输入，进行哈希函数的训练，得到哈希自编码模型；
[0083]哈希函数优化单元B2，其通过ELM自编码训练，求解待匹配图像及各个样本图像的最佳匹配的哈希函数，并将该最佳匹配的哈希函数作为优化哈希函数；
[0084]编码单元B3，其使用所述的优化哈希函数进行图像二进制编码转换，得到待匹配图像及各个样本图像的二进制编码序列。
[0085]需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

完整全部详细技术资料下载

当前第2页1 2 3