一种基于isa模型的rgb-d图像的多通道融合特征提取方法

文档序号:9787813阅读:1496来源:国知局
一种基于isa模型的rgb-d图像的多通道融合特征提取方法
【技术领域】:
[0001]本发明涉及图像处理领域,尤其涉及一种对RGB-D图像进行特征提取的方法,可广 泛用于互联网和安防等领域。
【背景技术】:
[0002] 在计算机视觉和机器学习领域,近几年不断涌现出了许多新进展。从神经科学出 发,对图像进行多层次特征抽取,进行线性或非线性转换,并建立区域层次结构对特征进行 提取。在机器人自主导航领域,使用多种传感器后进行多特征融合已经是该领域的研究热 点问题并且取得了良好的效果。
[0003] 本发明利用深度学习理论提取RGB-D图像的多层次特征。深度学习理论的动机在 于模拟人脑解释如图像、声音和文本等数据。随着深度学习理论的逐渐成熟,基于深度学习 的语音和图像识别在识别精度和效率上有了很大突破。
[0004] 常用于针对RGB图像的特征提取方法有分梯度SIFT(尺度不变特征转换)、PCA-SIFT(主成分分析-尺度不变特征转换)和GL0H等。针对深度图像的特征提取算法则并不多 见,实际中的算法多使用彩色图像。独立子空间分析ISA是在独立分量分析ICA基础上建立 起来的,比ICA更能反映出数据的本质特征,所提取的特征具有更好的不变性,并且模型训 练速度更快。

【发明内容】

[0005] 本发明的目的是提出一种新的基于RGB-D图像的多通道融合特征提取方法,充分 挖掘彩色和深度信息。应用深度学习理论,对异质图像进行特征学习,并运用有效融合手 段,设计出基于RGB-D图像的特征提取方法,对RGB-D图像进行有效描述。
[0006] 为了实现上述目的,本发明首先使用Kinect获取RGB-D图像,通过图像增强技术, 得到彩色可见光图,彩色深度图与灰度深度图作为三通道图像。分别进行分块和预处理,采 用两层堆栈ISA模型实现多层次特征提取。最后再使用度量学习构造融合空间,对三通道特 征进行融合,从而得到RGB-D图像的特征描述子。本发明的具体步骤描述如下。
[0007] (1)输入所有RGB-D图像(用于训练的数据和用于特征提取的数据),彩色图和深度 图均设置为320*240,30f bps。其中彩色图直接使用,将深度图的深度值转为彩色深度图和 灰度深度图并用RGB模型表示,得到三通道图像。
[0008] (2)对所有数据都分块,分块可以根据实际情况选择时间和空间维度是否重叠。
[0009] (3)对所有数据零均值化和白化,得到处理好的用于训练和用于提取特征的三通 道数据。
[0010] ⑷分别对三通道用于训练的数据随机选取,训练堆叠ISA网络。先训练第一层,之 后固定第一层,输入相同的数据,得到输出后零均值化和白化,输入第二层网络进行训练。 得到该通道训练好的堆叠ISA网络。共进行3次,对每一通道专门训练各自的网络。
[0011] (5)使用度量学习方法构造转换矩阵。输入用于训练的数据,使用训练好的三通道 堆叠ISA网络,将其输出作为样本,对于相同RGB-D视频的三通道高层特征作为相似样本,对 于不同RGB-D视频的特征作为非相似样本,使用凸优化全局度量学习算法构造融合空间,训 练转换矩阵M。在融合空间内将三通道特征合并。
[0012] (6)进行特征提取。对于用于特征提取的视频,进过(1)到(3)的处理,得到三通道 数据,使用(4)中训练好的网络,得到三通道特征,使用(5)中得到的矩阵,得到融合特征。
[0013] 本发明与现有方法相比,具有以下优点:
[0014]由于本发明使用特征学习方法,因此可以根据三种不同图像的不同特点进行特征 提取。
[0015] 由于本发明使用了特征融合方法,使得最终提取出来的特征包含了三个通道两种 模式下的图像信息。
[0016] 由于本发明使用了深度学习方法,可以使用海量无标签互联网数据训练网络,并 且对数据进行多层转换,使特征提取更为有效。
【附图说明】:
[0017] 图1是本发明的流程图。
[0018] 图2是具体的分块示意图。
[0019] 图3是两层ISA算法训练框图。
[0020] 图4是ISA算法特征提取框图。
[0021]图5是度量学习算法框图。
【具体实施方式】:
[0022]步骤1:将获取的RGB-D图像增强为彩色可见光图,彩色深度图和灰度深度图。
[0023] la)获取彩色和深度数据:
[0024]从3D体感摄影机Kinect直接获取的是彩色和深度图,也就是RGB-D图像,其中深度 数据流设置为图像分辨率320*240,30fps。设置最小探测范围常量和最大探测范围常量,分 别为900和4095,Kinect直接传来每个像素的深度值是视场中物体离摄像机的距离。深度数 据流中深度帧的每个像素占16位、2个字节,每个像素的深度值占用了该16位中的13位。每 个像素的深度值存储在第3至15位中,需要将人物索引位移除,得到深度数据,即:I Depth = FDepth>>3,其中FDepth表示传回的深度数据,I Depth表示深度帧中每个像素的深度值;
[0025] lb)获取灰度深度图Igdepth:
[0026] 将彩色影像的格式转化为BGR32类型,其中BGR32类型的每个像素占32位,R、G、B分 别占8位,剩余8位留用。分别对深度帧的R、G、B三个通道的每个像素的深度值进行转换:
[0027] IGrey=(lDepth/4095)X255,
[0028] 其中1(^#表示灰度深度图Ig(fepth单个通道的每个像素的灰度值;
[0029] lc)获取彩色深度图Icdepth。先将深度数据值IGrey转换为色调和饱和度HSI模型,之 后转换为RGB模式显示深度数据。任何不在范围内的都设置为白色。
[0030] 将深度值除以深度探测最大值4095,然后乘以255,赋值给H。即H=(IDepth/4095)X 255。之后将HSI模型转为RGB模型,设S、I分量的值在[0,1]内,R、G、B分量的值也在[0,1]内, 则由HSI模型向RGB模型的转换公式如下:
[0031] (1)当0。<H<120。时,
[0041 ] R = 3I-(B+R)
[0042] G = I(1-S)
[0043] Id)获取彩色可见光图像IccliOT,设置为与深度图相同的320*240,30fps。
[0044] 步骤2:对视频进行分块。
[0045] 2a)对视频进行分块时总体上分为时间维度和空间维度。参见图2,其中时间维度 为一维,空间维度为2维,将视频分成16 X 16 X 10的小块。对于视频每一帧长宽在分块后有 剩余的情况,则将剩余部分舍弃;
[0046] 2b)分块可以根据实际情况选择在时间和空间上是否重叠,重叠越多,精度越高, 但是训练和测试时间就越长;
[0047] 可以选择:
[0048] 1、时间维度和空间维度都不重叠,如图2(a);
[0049] 2、空间维度重叠而时间维度不重叠,如图2(b);
[0050] 3、时间维度重叠,而空间维度不重叠,如图2(c);
[0051] 4、时间维度和空间维度均重叠,如图2(d)。
[0052] 2c)分别对彩色可见光图Iccllcir,彩色深度图Icdepth,灰度深度图I gdepth进行取块,并 将每一个图像块拉成列向量XER25'依次存放在矩阵中,其中V表示取块的数 目,v = 30000 ~60000。
[0053] 步骤3:对视频数据预处理。
[0054] 3a)求矩阵f的去均值矩阵X:
[0055] 义=义-2 ,
[0056] 其中表示矩阵1的列均值矩阵,X表示矩阵X的去均值矩阵,f每一列 的值为矩阵X对应列的均值;
[0057] 3b)采用PCA白化算法求得矩阵X的白化矩阵X p
[0058] 步骤4:利用X训练堆叠ISA网络。
[0059] 4a)从Y中分离出彩色可见光图训练集X。。:!。!·,彩色深度图训练集Χ。-*,灰度深度 图训练集X gdepth,并对每一训练集分别进行4b)到4e)的操作,训练相应的ISA网络权值W;
[0060] 4b)利用训练集训练第一层ISA网络的权值W,W通过解决以下优化问题得到:
[0062] 其中,X)表示相应训练集第j的行,第t列的值,Wqj表示ISA网络权值矩阵WeRkx256() 第q行,第j列的值,k表示ISA网络简单单元的数量,Vlq表示ISA网络矩阵VERmX1^i行,第q 列的值,m是ISA网络复杂单元的数量,T表示训练集的列数,I表示单位矩阵。优化问题通过 梯度下降算法求解。
[0063] 4c)将相应训练集输入ISA网络,得到ISA网络的第一层输出值YISA1,并重复步骤3 进行零均值和白化操作;
[0064] 4d)拼接k个块的输出Yisai组成第二层的输入向量,XISA2= [yisAi;yisA2. · .yisAk],其 中k = 3~5,根据视频长度而定;
[0065] 4e)重复步骤4b),利用MSA2,训练第二层ISA网络权值矩阵W2;
[0066] 步骤5:训练度量学习算法。
[0067] 5a)构造相似标签集合S
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1