一种基于支持向量回归的视觉映射方法与流程

文档序号:11920834阅读:340来源:国知局

本发明属于计算机视觉技术领域,涉及视觉映射技术,主要应用于姿态估计,视线跟踪和年龄估计和身体姿态估计等视觉问题中。



背景技术:

在计算机视觉中,视觉映射是指学习输入图像特征与输出变量之间映射函数的过程,以便在输入新图像时,估计该输入图像对应的目标输出值。具体来讲,视觉映射包括:人体姿态估计、头部姿态估计、视线估计和物体跟踪等。详见参考文献:O.Williams,A.Blake,and R.Cipolla,Sparse and Semi-Supervised Visual Mapping with the S3GP,in IEEE Conference Computer on Computer Vision and Pattern Recognition,pp.230-237,2006.

作为计算机视觉的一个重要分支,视觉映射改变了许多场合下由人逐一根据图像内容估计目标输出的情况。取而代之,由计算机根据输入图像内容,通过已有视觉映射函数预测输出,从而实现由摄像机和电脑代替人眼和大脑对图像进行全自动分析和估计。目前,该技术已开始被应用于与人们生活密切相关的多个产业。其中,头部姿态估计被应用于汽车安全驾驶产业,视线估计和人体姿态估计被应用于智能人机接口及游戏产业,物体跟踪被应用于智能交通等产业,人体姿态估计被应用于人机交互领域。相信随着计算机硬件处理能力的不断提高和视觉映射中关键技术问题的逐步解决,其应用前景将更加广阔。

解决视觉映射问题的模型很多,包括:局部线性模型、高斯过程回归模型、深度回归模型和支持向量回归模型等等。支持向量回归模型是所有上述模型中最简单高效的,适用于训练样本有限的情况。即便实在深度模型广泛应用的情况下,支持向量回归由于对训练样本数量的要求很低,并且求解方便,而依然有广泛的应用。



技术实现要素:

本发明提供了一种基于支持向量回归的视觉映射方法。首先对采集到的图像并进行特征提取(原始灰度、HOG、SIFT和Harr等),并记录对应的目标值(年龄、姿态角度和视线方向等);之后,在输入特征和目标值数据之间建立支持向量回归模型。对于新的测试图片,提取图像特征,再利用已学到的支持向量回归模型,将提取的图像特征映射到目标值。该发明专利解决了小数量训练样本情况下,视觉映射已有方法估计效果欠佳的问题。

为了方便地描述本发明内容,首先对一些术语进行定义。

定义1:视觉映射。即将视觉特征回归到目标值。

定义1:输入特征。在视觉估计问题中,常常需要对原始图像提取视觉特征,例如梯度方向直方图特征、局部二值特征等。

定义2:目标值。在视觉估计问题中,常常需要根据输入特征估计对应的输出值,例如根据面部图像估计年龄,根据头部图像估计头部角度偏转,这里的年龄和头部角度偏转即是目标值。

定义3:梯度方向直方图。梯度方向直方图特征。利用像素强度梯度或边缘的方向分布描述一幅图像中的物体的表象和形状的视觉特征提取方法。其实现方法先将图像分成小的叫做方格单元的连通区域;然后采集方格单元中各像素点的梯度方向或边缘方向直方图;最后把这些直方图组合起来就可以构成特征描述子。为了提高精确度,还可以把这些局部直方图在图像的更大的区间(block)中进行对比度归一化(contrast-normalized),此方法通过先计算各直方图在这个区间(block)中的密度,然后根据这个密度值对区间中的各个方格单元做归一化。通过该归一化能对光照变化和阴影有更强的鲁棒性。

定义4:线性主成分分析方法。将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。

定义5:线性回归。已知N个输入观测向量x1,x2,...,xN和其对应的输出观测值y1,y2,...yN,线性回归假设输入与输出之间存在下述关系:

yn=wTxn+b+εn

w=[w1,w2,...,wN]T为权向量,b为偏差,εn为噪声,线性回归设定w,b的最优解使得以下目标式取值最小,

定义6:支持向量机回归。已知N个输入观测向量x1,x2,...xN和其对应的输出观测值y1,y2,...yN,支持向量机回归假设输入与输出之间存在下述关系:

w=[w1,w2,...,wN]T为权向量,w0为偏差,εn为噪声,k(xn,xi)为度量xn和xi之间距离的核函数,支持向量机回归规定在给定阈值∈的情况下,w,w0的最优解满足式以下目标式的取值最小,

其中函数E(y(xn)-yn)的表达式为:

定义7:核函数。在机器学习中,核函数通常用于计算在变换后特征空间中两个向量的内积,它避免了在高维空间或者无限维数空间的计算。常用的核函数包括:

线性核函数:k(x,x′)=xTx′,

RBF核函数:k(x,x′)=exp(-τ‖x-x′‖2),

其中x,x′为两个原空特征间中的输入特征,τ为高斯核函数的参数。

定义8:LIBSVM是中国台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(Cross Validation)的功能。

本发明详细技术方案如下:一种基于支持向量回归的视觉映射方法:

步骤1:根据实际问题采集N幅输入图像(见图1),并根据采集每幅图像时标定各图像对应的目标值,以头部姿态估计为例,N幅输入图像即为N幅头部图像,标定值则为头部姿态yn,yn的第一维表示俯仰角,第二维表示倾斜角,第三维表示旋转角,下标n表示第n幅图像对应的姿态;在实际应用中,如果是身体姿态估计问题,输入图像为身体图像,目标值为身体各部分之间的角度,如果是视线估计问题,输入图像为眼部图像,目标值为视线方向(水平方向角度和垂直方向角度);

步骤2:将步骤1中得到的图像提取视觉特征,并记任意第n幅图像对应的视觉特征向量D表示视觉特征向量的维数;同样以头部姿态为例,视觉特征一般为提取梯度方向直方图特征,则表示第n幅图像的梯度方向直方图特征;

步骤3:将所有N幅图像对应特征向量按顺序排列可以得到输入数据矩阵X,即X=[x1,x2,…,xN];

步骤4:将N幅图像对应的目标值向量按顺序排列为数据矩阵y,即Y=[y1,y2,…yN];

步骤5:为了方便叙述,假设yn为一维的情况下,介绍支持向量回归模型,当实际输入yn为高维时,则依次按维数建立支持向量回归模型;具体来讲,支持向量机回归假设输入与输出之间存在下述关系:

w=[w1,w2,...,wN]T为权向量,w0为偏差,εn为噪声,k(xn,xi)为度量xn和xi之间距离的核函数,支持向量机回归规定在给定阈值∈的情况下,w,w0的最优解满足以下目标式的取值最小,

其中C表示向量回归中控制回归误差容忍程度的参数,函数E(y(xn)-yn)的表达式为:

∈表示根据实际情况设定的阈值;

步骤6:建立步骤3和4中得到的所有图像的视觉特征及其对应估的目标值之间的回归模型,利用LIBSVM工具包求解回归参数w和w0(参见定义8),在求解时所使用的核函数类型为RBF类型;

步骤7:对于测试图像,我们按照步骤2中的方法对其进行梯度方向直方图特征提取,最后利用步骤6中得到的参数w和w0估计目标值

k(·,·)为RBF核函数。

进一步的,所述步骤1中,如果为头部姿态估计问题,N幅输入图像即为N幅头部图像,标定值则为头部姿态yn,yn的第一维表示俯仰角,第二维表示倾斜角,第三维表示旋转角,下标n表示第n幅图像对应的姿态;如果是身体姿态估计问题,输入图像为身体图像,目标值为身体各部分之间的角度,如果是视线估计问题,输入图像为眼部图像,目标值为视线方向:水平方向角度和垂直方向角度。

本发明公开了一种基于支持向量回归的视觉映射方法,对于新的测试图片,提取图像特征,再利用已学到的支持向量回归模型,将提取的图像特征映射到目标值。该发明专利解决了小数量训练样本情况下,视觉映射已有方法估计效果欠佳的问题。

附图说明

图1是视觉映射示意图,头部姿态估计、身体姿态估计和视线估计。

具体实施方式

实现语言:Matlab,C/C++

硬件平台:Intel core2 E7400+4G DDR RAM

软件平台:Matlab2012a,VisualStdio2010

根据本发明的方法,首先明确需要解决的视觉映射问题,并采集相关图像(头部图像、身体图像和面部图像等)并标定目标值(头部姿态角度,身体姿态角度和年龄)。根据本发明专利,首先利用Matlab或者C语言编写程序学习图像到目标值的支持向量回归模型;之后对输入的待估计图像进行视觉映射,估计目标值。本发明的方法可以用于各种计算机视觉中的视觉映射问题,能解决实际应用中训练样本有限的问题。

一种基于支持向量回归的视觉映射方法:

步骤1:根据实际问题采集N幅输入图像(见图1),并根据采集每幅图像时标定各图像对应的目标值,以头部姿态估计为例,N幅输入图像即为N幅头部图像,标定值则为头部姿态yn,yn的第一维表示俯仰角,第二维表示倾斜角,第三维表示旋转角,下标n表示第n幅图像对应的姿态;在实际应用中,如果是身体姿态估计问题,输入图像为身体图像,目标值为身体各部分之间的角度,如果是视线估计问题,输入图像为眼部图像,目标值为视线方向(水平方向角度和垂直方向角度);

步骤2:将步骤1中得到的图像提取视觉特征,并记任意第n幅图像对应的视觉特征向量D表示视觉特征向量的维数;同样以头部姿态为例,视觉特征一般为提取梯度方向直方图特征,则表示第n幅图像的梯度方向直方图特征;

步骤3:将所有N幅图像对应特征向量按顺序排列可以得到输入数据矩阵X,即X=[x1,x2,...,xN];

步骤4:将N幅图像对应的目标值向量按顺序排列为数据矩阵y,即Y=[y1,y2,...yN];

步骤5:为了方便叙述,假设yn为一维的情况下,介绍支持向量回归模型,当实际输入yn为高维时,则依次按维数建立支持向量回归模型;具体来讲,支持向量机回归假设输入与输出之间存在下述关系:

w=[w1,w2,...,wN]T为权向量,w0为偏差,εn为噪声,k(xn,xi)为度量xn和xi之间距离的核函数,支持向量机回归规定在给定阈值∈的情况下,w,w0的最优解满足以下目标式的取值最小,

其中C表示向量回归中控制回归误差容忍程度的参数,函数E(y(xn)-yn)的表达式为:

∈表示根据实际情况设定的阈值;

步骤6:建立步骤3和4中得到的所有图像的视觉特征及其对应估的目标值之间的回归模型,利用LIBSVM工具包求解回归参数w和w0(参见定义8),在求解时所使用的核函数类型为RBF类型;

步骤7:对于测试图像,我们按照步骤2中的方法对其进行梯度方向直方图特征提取,最后利用步骤6中得到的参数w和w0估计目标值

k(·,·)为RBF核函数。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1