一种基于多通道字典的物体识别方法与流程

文档序号:14555574阅读:99来源:国知局
一种基于多通道字典的物体识别方法与流程
本发明涉及物体识别领域,具体涉及一种基于多通道字典的物体识别方法。
背景技术
:基于rgb-d信息的物体识别在计算机视觉和机器视觉领域是一个很重要的课题,并且有了相关应用比如人脸识别,手势识别,文字识别和车辆识别。hmp(hierarchicalmatchingpersuit)算法是一种高效的基于rgb-d(红色,绿色,蓝色,深度)等信息的物体识别算法,但是hmp算法有在特征信息的获取和算法的结构上有一定的局限性:第一,hmp算法将rgb三种颜色特征训练成一个字典,这样会导致一部分特征信息的损失,这些特征信息指角点,形状,梯度和纹理等,使得物体识别的准确率低。技术实现要素:针对上述问题,本发明的目的在于提供一种基于多通道字典的物体识别方法,以提高对物体识别的准确率。为实现上述目的,本发明采用的技术方案是:一种基于多通道字典的物体识别方法,其包括以下步骤:步骤1、获取多通道字典对rgb-d数据库中的图片进行采样,采样时对红色、绿色、蓝色三个通道进行独立采样;然后设定初始字典,根据采样信息得到初始稀疏编码,采用svd算法进行迭代,不断缩小样本值与稀疏编码之间的误差,直到收敛为止,得到多通道字典,即红色字典、绿色字典和蓝色字典;步骤2、构建多通道字典算法步骤2.1、将待识别物体的图像进行多通道字典学习,得到物体图像的其中一个颜色字典,基于该颜色字典,采用omp算法获取相应颜色通道的像素稀疏编码矩阵;步骤2.2、基于稀疏编码矩阵在k*k像素上进行最大池化处理得到单元特征,将m*m个单元特征按列串联起来得到块连接特征,多个块链接特征形成块链接特征矩阵;步骤2.3、将块链接特征矩阵再次学习多通道字典,得到与步骤3中的颜色通道相对应的新颜色字典,基于该新颜色字典,采用omp算法获取该颜色通道的块链接特征矩阵的稀疏编码矩阵;步骤2.4、对块链接特征矩阵的稀疏编码矩阵进行简化的金字塔池化处理得到相应颜色通道的图像级别特征;其中,金字塔将块链接特征矩阵划分为三层,第一层将块链接特征矩阵划分为1*1个子区域,第二层将块链接特征矩阵划分为2*2个子区域,第三层将块链接特征矩阵划分为3*3个子区域,共14个子区域;然后对每个子区域的块链接特征进行最大池化处理,得到子区域特征,将每个子区域特征按列串联得到相应通道的图像级别特征;步骤2.5、重复步骤2.1至步骤2.4,获取其他两个颜色通道的图像级别特征,然后将三个颜色通道即红色通道、绿色通道和蓝色通道的图像级别特征按列串联起来形成物体的图像特征;步骤3、构建物体特征模型将从rgb-dobject数据库的每一类物体中随机选择一个物体的所有图片作为测试集,其他的都作为训练集;采用步骤2中的多通道字典算法对测试集和训练集中的图片进行处理,得到测试集的图像特征和训练集的图像特征,将训练集的图像特征通过linear-svm分类器进行训练得到物体特征模型;然后采用测试集的图像特征与物体特征模型比较计算准确率并得到最后的分类结果;步骤4、物体识别将待识别物体通过步骤2中的多通道字典学习算法获取带识别物体的图像特征,将该待识别物体的图像特征与步骤3中的物体特征模型进行比较,得到识别结果。所述块链接特征的尺寸为4,即m等于4。采用上述方案后,本发明将待识别物体图像进行rgb多通道字典学习,得到三个颜色通道的像素稀疏编码矩阵,对稀疏编码矩阵进行最大池化处理得到块链接特征矩阵,将块链接特征矩阵进行多通道字典学习获取三个颜色通道的稀疏编码矩阵,将然后对块链接特征矩阵的稀疏编码矩阵进行简化的金字塔池化处理得到物体图像特征;将该物体图像特征与训练好的特征模型进行匹配,得出物体识别结果。本发明多通道字典学习具有更好的适应性,可以学的更多的特征信息,提高物体识别的准确率;本发明的物体识别方法在块链接特征基础上进行,采用块链接特征进一步提高了物体识别的准确率,而且本发明在块链接特征基础上再次学习多通道字典,获得物体更为抽象的特征,或者说提取更多的泛化特征,同时增加物体类别间的差异性,从而提高物体识别的准确率。附图说明图1为本发明多通道字典算法流程图;图2为本发明多通道字典示意图;图3为本发明块链接特征计算示意图;图4为本发明块链接特征矩阵进行多通道字典学习示意图;图5为本发明块链接特征的金字塔池化处理示意图;图6为为本发明基于不同块链接特征尺寸的物体识别准确率对比图。具体实施方式参照图1至图6所示,本发明揭示了一种基于多通道字典的物体识别方法,其包括以下步骤:步骤1、对rgb-d数据库中的图片进行采样,采样时对红色、绿色、蓝色三个通道进行独立采样。首先设定初始字典,再根据采样信息得到初始稀疏编码,然后采用svd算法进行迭代,不断缩小样本值与稀疏编码之间的误差,直到收敛为止,得到多通道字典,即红色字典、绿色字典和蓝色字典。其中,y代表样本矩阵,x代表对应的稀疏编码矩阵,d是学得的多通道字典,||.||f代表f范数,||.||2代表每个字的二范数等于1,||.||0代表每个稀疏编码的稀疏度。优化目标函数,可以得到最终的误差最小的多通道字典。步骤2、构建多通道字典算法步骤2.1、将待识别物体的图像进行多通道字典学习,得到物体图像的其中一个颜色字典,基于该颜色字典,采用omp算法获取相应颜色通道的像素稀疏编码矩阵;步骤2.2、基于稀疏编码矩阵在k*k像素上进行最大池化处理得到单元特征,将m*m个单元特征按列串联起来得到块连接特征,多个块链接特征形成块链接特征矩阵;步骤2.3、将块链接特征矩阵再次学习多通道字典,得到与步骤3中的颜色通道相对应的新颜色字典,基于该新颜色字典,采用omp算法获取该颜色通道的块链接特征矩阵的稀疏编码矩阵;步骤2.4、对块链接特征矩阵的稀疏编码矩阵进行简化的金字塔池化处理得到相应颜色通道的图像级别特征;其中,金字塔将块链接特征矩阵划分为三层,第一层将块链接特征矩阵划分为1*1个子区域,第二层将块链接特征矩阵划分为2*2个子区域,第三层将块链接特征矩阵划分为3*3个子区域,共14个子区域;然后对每个子区域的块链接特征进行最大池化处理,得到子区域特征,将每个子区域特征按列串联得到相应通道的图像级别特征;步骤2.5、重复步骤2.1至步骤2.4,获取其他两个颜色通道的图像级别特征,然后将三个颜色通道即红色通道、绿色通道和蓝色通道的图像级别特征按列串联起来形成物体的图像特征;步骤3、构建物体特征模型将从rgb-dobject数据库的每一类物体中随机选择一个物体的所有图片作为测试集,其他的都作为训练集;采用步骤2中的多通道字典算法对测试集和训练集中的图片进行处理,得到测试集的图像特征和训练集的图像特征,将训练集的图像特征通过linear-svm分类器进行训练得到物体特征模型;然后采用测试集的图像特征与物体特征模型比较计算准确率并得到最后的分类结果;步骤4、物体识别将待识别物体通过步骤2中的多通道字典学习算法获取带识别物体的图像特征,将该待识别物体的图像特征与步骤3中的物体特征模型进行比较,得到识别结果。下面对多通道字典算法进行详述,以详尽本
发明内容。在构建多通道字典算法时,首先,将物体的图像进行多通道字典学习,得到物体图像的红色字典,基于红色字典采用omp算法获取红色通道的像素稀疏编码矩阵,该稀疏编码矩阵中的稀疏编码firf是一个75维的向量。基于稀疏编码矩阵将4*4个像素定义为一个单元,4*4个单元定义为一个块,即k=4,m=4。然后将最大池化算法应用到单位内所有像素的稀疏编码,最终保留下每一个维度的最大值作为单元特征,即f=max{|firfi,1|,|firfi,2|,...|firfi,u|}(2)其中,i代表稀疏编码firf的维度,i=1,2,3,...,75;u代表一个单元中像素的个数,u=1,2,3,...,16;fi,u表示像素在单元中一个像素在第i个维度的稀疏编码的数值。将一个块中的单元特征按列串联起来得到块链接特征g,即g={|f1|,|f2|,...,|fv|}(3)其中,v表示一个块中的单元个数,本实施例中v=16。如图4所示,将块链接特征矩阵再次学习多通道字典,得到新的红色字典,基于该新的红色字典采用omp算法获取红色通道的块链接特征矩阵的稀疏编码矩阵,该稀疏编码矩阵中的系数编码secf是一个1000维的向量。接着,对块链接特征矩阵进行简化金字塔池化处理,如图5所示,图中每一个点对应一个块链接特征,金字塔将图像的块链接特征划分为三层分别是由3×3,2×2和1×1个子区域。第一层将图像所有的块链接特征划分为一个子区域,第二层将图像所有的块链接特征划分为四个子区域,第三层将图像所有的块链接特征划分为九个子区域。将最大池化应用到子区域内的所有块链接特征上得到子区域特征hd==max{|secfc,1|,|secfc,s|,…,|secfc,s|},d=1,2,…,14(4)其中c代表稀疏编码secf的维度,c=1,2,3,...,1000;s代表每个子区域的块链接特征稀疏编码的个数。上述形成的14个子区域特征共同形成了红色通道的图像级别特征hred。按照上述步骤分别获取绿色通道的图像级别特征和蓝色通道的图像级别特征,红绿蓝三种通道的图像级别特征组成了物体的图像特征,即t={hred,hgreen,hblue},其中我们对每一个通道的图像级别特征使用进行归一化处理,ε=0.001以防止分母为零。该多通道字典算法,在由kinect采集的rgb-d数据库上运行,rgb-d数据库是按照与imagenet相类似的上下文语义关系建立起来的,一共有51类300生活常见物品,每一类包含几种物体比如苹果包含品红的,红色的,绿色的和黄色的苹果。这个数据库最大的挑战性在于他同时包含大量高纹理物体,同时要考虑旋转,光照还有尺度等因素。rgb-dobject数据库包含了51类300个日常常见物品共有200000张图片。在进行物体识别时,我们从每一类中随机选择一个物体的所有图片作为测试集,其他的都作为训练集。再根据算法得到所有的物体特征后,将训练集特征用linear-svm进行训练得到51个模型,最后用测试集与模型比较得到最后的分类结果并计算准确率。将上面这个过程重复十次求均值,我们称之为map(meanaverageprecision)。如图2所示,本发明对比了不采用块链接特征以及采用不同范围的块链接特时的物体识别准确率,图中块链接尺寸中2、3、4、5分别代表块是基于2×2,3×3,4×4和5×5个单元,尺寸1则表示不采用块链接特征。从图中可知,与不采用块链接特征相比,采用块链接特征时的物体识别准确率要高两个百分点以上;而采用不同尺寸的块链接特征,物体识别的准确率都有不同,当块链接特征的尺寸为4时,准确率最高,所以块链接特征的尺寸为4*4个单元时,物体的识别准确率最高。本发明将基于单字典的物体识别与基于多通道字典物体识别进行比较,其中两个识别过程中的图像级别特征都是将金字塔池化算法应用到尺寸为4的块链接特征之上得到的,两者的识别准确率如下表所示。准确率单字典76.1±2.1多通道字典84.8±2.4表1如表1所示,基于多通道字典的物体识别准确率要比基于单字典的物体识别准确率高,也就是说,与单字典相比,多通道字典可以获取更多的有用的特征信息。将本发明基于多通道字典的物体识别方法与基于hmp算法的物体识别方法进行比较,其物体识别准确率如下表所示。methodshmpourworkcategory82.4±3.184.8±2.4表2从表2中可以看出,与基于hmp算法的物体识别方法相比,本发明的物体识别方法准确率提高了2.4个百分点。本发明的关键在于,本发明将待识别物体图像进行rgb多通道字典学习,得到三个颜色通道的像素稀疏编码矩阵,对稀疏编码矩阵进行最大池化处理得到块链接特征矩阵,将块链接特征矩阵进行多通道字典学习获取三个颜色通道的稀疏编码矩阵,将然后对块链接特征矩阵的稀疏编码矩阵进行简化的金字塔池化处理得到物体图像特征;将该物体图像特征与训练好的特征模型进行匹配,得出物体识别结果。本发明多通道字典学习具有更好的适应性,可以学的更多的特征信息,提高物体识别的准确率;本发明的物体识别方法在块链接特征基础上进行,采用块链接特征进一步提高了物体识别的准确率,而且本发明在块链接特征基础上再次学习多通道字典,获得物体更为抽象的特征,或者说提取更多的泛化特征,同时增加物体类别间的差异性,从而提高物体识别的准确率。以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1