多模态图像检索方法

文档序号：9564619阅读：921来源：国知局

多模态图像检索方法
【技术领域】
[0001] 本发明涉及图像处理的检索技术，更具体地说，涉及一种多模态图像检索方法。
【背景技术】
[0002] 图像检索是计算机视觉和模式识别的主要研究热点之一，图像检索技术主要分为两类：基于文本的图像检索技术（Text-based image retrieval，简称TBIR)和基于内容的图像检索技术（Content-based image retrieval，简称 CBIR)。
[0003] 基于文本的图像检索技术的研究始于20世纪70年代，利用文本描述的方式描述图像的特征，如绘画作品的尺寸，流派，年代，作者及画中的实物等。基于文本的图像检索一般以关键词的形式提问查询图像，或根据等级目录的形式查找特征类目下的图像，因此，图像的标记信息直接影响图片的检索效果。显而易见的是，不同的人对同一幅图像可能有不同的理解，从而不可避免的造成了标记信息的多义性。并且，在实际应用中，关键字很难完整的表达图像的本身信息，同时，随着图像的不断增多，人工标注的工作量也会急剧攀升。因此，基于文本的图像检索技术很难满足信息化时代图像检索的要求。
[0004] 基于内容的图像检索技术是一种近些年发展起来的利用图像本身的颜色，纹理，布局等本身特征信息进行图像检索的技术。图像的特征分为低层物理特征（如颜色、纹理、形状、轮廓等）和高层语意特征（如人对图像概念的反应以及人对图片的个人理解）。目前条件下，高层语意特征一般通过人工标注的方法实现，也就是基于文本的图像检索方法。而颜色、纹理、形状等低层物理特征相对比较容易提取，也可客观地反应图像之间的差别。然而，目前的颜色、纹理、形状等低层物理特征都是基于图片的整体统计直方图特征，这种基于统计直方图的特征不可避免的丢失了图片的局部细节特征，在一定程度上减弱了图像之间的差别，进而影响图像的检索效果。

【发明内容】

[0005] 本发明的目的在于，针对现有的基于内容的图像检索技术中，基于统计直方图的特征会丢失图片的局部细节，导致检索结果不够精确的问题，提供一种能够反映图片局部细节特征的多模态图像检索方法。
[0006] 本发明解决上述问题的方案是，提供一种多模态图像检索方法，包括以下步骤：
[0007] S1、输入待检索图像；
[0008] S21、提取待检索图像的颜色特征；
[0009] S22、提取待检索图像的边界角度特征；
[0010] S3、融合颜色特征和边界角度特征，得到多模态特征；
[0011] S4、比较待检索图像与数据库中图像的多模态特征；
[0012] S5、输出检索结果。
[0013] 本发明的多模态图像检索方法，所述步骤S21包括：
[0014] 待检索图像转换成多个通道的图像；
[0015] 对每个通道的图像分割成块；
[0016] 将图像块堆叠成向量集；
[0017] 依据向量集求解转换矩阵；
[0018] 依据转换矩阵计算图像的二维颜色特征。
[0019] 本发明的多模态图像检索方法，所述步骤S22包括：
[0020] 计算各个通道图像的梯度向量；
[0021] 依据所述各个通道图像的梯度向量计算边界角度图像；
[0022] 依据所述边界角度图像得到待检索图像的二维边界角度特征。
[0023] 本发明的多模态图像检索方法，所述待检索图像为RGB图像f(x，y)，所述RGB图像f(x，y)包括3个通道图像f' (x，y)，所述f' (x，y)包括R通道图像&〇^，7)、6通道图像fs(x，y)、B通道图像f B(x，y)。
[0024] 本发明多模态图像检索方法，所述步骤S21包括：
[0025] 将;T (X，y)的图像分割成 P1Xp2 块；X' = {f' p f 2, · · ·，f J 为 f (X， y)的子图像集；
[0026] 取Γ中的任意元素进行堆叠，形成向量集；
[0027] 求解最优化方程
[0028] 其中，J(W)为关于W的目标函数，W是最大化目标函数得到的降维变换矩阵，E是每个元素都是1的矩阵，I是单位矩阵，trace是矩阵的迹函数；
[0029] 由W和= W1X14得到关于的颜色特征。
[0030] 本发明的多模态图像检索方法，所述步骤S22包括：
[0031] 对三个通道fR(x, y)、fG(x, y)、fB(x, y)的图像进行梯度运算；
[0032] 像素 p(x，y)的角度 Θ (X，y)为：
[0040] 依据Θ (X，y)得到待检索图像的二维边界角度特征。
[0041] 本发明的多模态图像检索方法，所述步骤S4还包括：
[0042] 引入多模态相似度量：
其中，λ「λ 4为检索参数，Y1R、Yp Y1B、Y10为待检索图像的R通道颜色特征、G通道颜色特征、B通道颜色特征和边界角度特征；Y2R、Yp Y2B、Y20为数据库中被比较图像R通道颜色特征、G通道颜色特征、B通道颜色特征和边界角度特征。
[0044] 本发明的多模态图像检索方法，还包括进行完检索后，将图像的相关参数保存到数据库中。
[0045] 实施本发明的多模态图像检索方法，将图像分成子图像，通过不同的通道进行颜色和角度特征的提取，从而实现了在保持图片细节的前提下提取图片的颜色、纹理以及形状特征。尤其适用于布料和时装图像的检索。
【附图说明】
[0046] 以下结合附图对本发明进行说明，其中：
[0047] 图1为本发明多模态图像检索方法一则优选实施例的流程图；
[0048] 图2为本发明待检索图像分解为RGB通道图像的TK意图；
[0049] 图3为本发明多模态图像检索方法中颜色特征提取方法的流程图；
[0050] 图4为本发明多模态图像检索方法中边界角度特征提取方法的流程图。
【具体实施方式】
[0051] 本发明针对现有的图像检索方法会在统计直方图的特征时丢失图片细节，导致检索结果不够精确的缺陷，提供一种基于多模态局部PCA特征描述算子，在保持图片细节的前提下提取图片的颜色、纹理或形状特征，提高检索的准确性。
[0052] 以下将结合附图和【具体实施方式】，详细说明基于本发明的思想，如何进行图像的检索。
[0053] 如图1所示为本实施例的图像检索方法流程图。首先在步骤Sl中，输入一个待检索的图像，对于这个平面图像，将其数值化处理。例如，在计算机系统中，图像可以以不同的格式输入，例如bmp图像，jpg图像等。为了方便在计算机系统中对图像进行描述，以下均以f(x，y)的函数形式来表述图像，其中（x，y)分别表示X坐标和Y坐标。由于现在的图像通常以不同的通道来表述图像，例如常见的有RGB、CMYK等，若在RGB图像中，对于给定的一点（x，y)，其f(x，y) -般包括3个分量，分别表示R、G、B的数值。
[0054] 对于转换好，并以f(x，y)形式表示的图像，分别在步骤S21提取其颜色特征和在步骤S22提取边界角度特征。为了直观地显示如何提取出颜色特征和边界特征，现在以一个RGB图像为例进行说明。
[0055] 首先提取出图像的颜色特征，其步骤如图3所示。对于一个尺寸为mXη的如图2 所示RGB图像，该待检索图像100可以用数学表示成：f(x，y) e RmXnX3,该公式表示f(x， y)在一个mXnX3的实数范围内取值，若考虑到每一个R、G、B通道，则有：fR(x，y) e RmXn， fc(X，y) eRmXn，fB(X，y) ERmxn，分别对应图中的R通道图像l〇l、G通道图像102、B通道图像103 ;在本实施例中，对R通道图像fR(x，y)进行处理，阐述如何提取该通道图像的颜色特征。
[0056] 将fR(x，y)的图像分割成p = P1Xp2的小块，其中PpP2分别是行和列对应的子块数，记
的子图像集，这里
其中 IIi1 = m/pp Πι = n/p2。
[0057] 然后取Xr中的任意

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄伟强;崔燕;
技术所有人：香港理工大学;
我是此专利的发明人

上一篇：图片处理方法及装置的制造方法
上一篇：一种查询信息的方法和终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。