一种基于短基线立体成像的人手及其对象交互跟踪方法与流程

文档序号:13005585阅读:854来源:国知局
一种基于短基线立体成像的人手及其对象交互跟踪方法与流程

本发明涉及肢体动作分析领域,尤其是涉及了一种基于短基线立体成像的人手及其对象交互跟踪方法。



背景技术:

在计算机视觉领域中,人类手部动作与姿态的三维视图恢复具有重要的意义。人们无论在与物理世界打交道或者是与人类沟通都需要一直用到手部,并且使用方式多样且各不相同。因此,一种准确、稳健且实时的对于手部动作分析与跟踪的方法对人类来讲有重要影响,并且在许多领域有巨大的商业潜力或实用价值,例如物联网的人机交互、医学肢体康复、手语动作分析等,都亟待开发研究。此外,在安检领域的手持物体姿态分析、指挥系统的远程手势识别、智能机器人的拟人仿真及替代人类在危险或不适工作环境中的动作设计等方面都有极大应用前景。

三维手部姿态的跟踪仍然具有挑战性。由于形状复杂、细节丰富、姿势多变,对手型的建模并不容易。同时在细节方面,因为多关节结构的不确定性及其长短程度的不统一性,在取景时往往出现模糊不清的姿势和自遮挡的现象,并且动作的急缓、轻重也对姿态的建模带来不良影响,因此在对手型建模的脉络填充过程带来困难。

本发明提出了一种基于随机优化求解最优参数的新框架。对输入成对人手立体彩色图像进行辨识度匹配图的计算,然后进行带皮肤质地的人手建模,在基于粒子群算法的基础上求解模型的参数,并且计算其区域延续性按评价结果排列,得分最高的模型用于预测跟踪,并叠加到实际场景中进行投影。本发明可以处理不同程度弯曲和姿态的手型建模,提供了基于粒子群算法的参数求解方法,准确并有效地对人手及其对象交互进行跟踪。



技术实现要素:

针对解决在复杂场景中进行人手及其对象跟踪的问题,本发明的目的在于提供一种基于短基线立体成像的人手及其对象交互跟踪方法,提出了一种基于随机优化求解最优参数的新框架。

为解决上述问题,本发明提供一种基于短基线立体成像的人手及其对象交互跟踪方法,其主要内容包括:

(一)场景建模;

(二)辨识图建模;

(三)模型评价;

(四)随机优化。

其中,所述的场景建模,给定输入的成对立体彩色人手图像,1)使用人手特征数据库自动并可视化地仿真人手,使用22根骨头进行对右手带有皮肤特质的模拟,同时,对该仿真右手进行类似血脉的网丝状物填充,共相互连接1491个节点,并且该手腕具有26个自由度;每只手由27个参数控制,分别为:3个参数表征手的位置、4个参数用于四次元数表征手体转动以及五根手指各使用4个参数表征弯曲角度;2)对于与人手交互作用的对象其场景建模则使用7个参数,3个参数表征对象位置及4个参数用于四次元数表征对象转动,该对象具有6个自由度;综上,可用多维度数组管理所有参数用于建立独特的人手及其对象模型。

所述的辨识图建模,包括辨识度划分和适度响应分类和辨识度统计。

所述的辨识度划分,根据信息论中不确定熵含有信息量大于确定熵的原理,在检查彩色图像中颜色的延伸性可用此原理测定仿真性程度,具体为:对于图像中的每个像素p,使用局部自相关公式计算以其为中心的近邻b×b的主曲率λ1和λ2,同时不失一般性,假设λ1≥λ2且b=3,当λ1和λ2都处于较小值时说明颜色区域较为统一,当λ1和λ2都较大时说明出现颜色的拐角,而当λ1比λ2要大得多时,则说明像素p的近邻是边缘区域,因此辨识度可用哈里斯角点检测方程定义为:

ch=λ1·λ2-k(λ1+λ2)2(1)

其中,k标准取值为0.04。

所述的适度响应建立,对于不同的颜色延续性给予不同的响应,即对于像拐角的像素区域给予低响应,对像边缘的像素区域给予高响应,对均衡区域给予零响应,此外,在每张图像中都对辨识度进行相对测量,向量(λ1,λ2)量级d定义为:

对数用于改变比例,接着,对整张图像计算d的中值md=d/2。

所述的辨识度统计,利用激活函数进行回归计算,识别不同程度的响应,其激活函数为:

接着,定义变量a,来测量λ1和λ2之间的差异,同样地用ma表示a的中值,有:

根据公式(3)(4),某个像素点的相关辨识度有:

其中阈值wt由具体实验值决定,根据公式(5),对输入的成对立体人手图的左、右两图每个像素值取c值,则可以得到两个辨识度匹配图cl和cr。

所述的模型评价,包括颜色连续性评价和场景建模评价。

所述的颜色连续性评价,对于输入的成对立体人手图像il和ir,根据公式(5)计算得到其辨识度匹配图cl和cr,假设仿真的人手场景为h,包含位置、方向、弯曲程度等信息在内,其三维坐标为ph=(x,y,z),则可计算出其二者投影视图pl和pr;此外,利用上述信息,还可定义pl和pr视图中颜色点的连续性s(pl,pr):

由公式(6),全局颜色延续性可以被定义为:

其中,β是控制指数步数增长的参数。

所述的场景建模评价,对于成对输入的人手图像中,其仿真图像若只能对应其中一幅输入图像,则该仿真被剔除,因此,当一个投影pl出现在一幅图像中,要使得另一幅输入图像也具有匹配的投影pr,具体为,对于某像素点,若在3毫米范围内无法得到相同的投影,则该像素点被排除,因此场景评价取全局颜色连续性的最大值:

h*=argmax{sh(il,ir)}(7)

其中,sh由公式(7)计算得到。

所述的随机优化,将像素视为粒子,基于粒子群算法,每个像素都保持现状,但作为整体其保留一个最佳位置pg,其值由粒子群共享,则粒子的速度vt与位置xt通过公式(8)和(9)进行迭代更新,在每一时间t有:

vt=k(vt-1+c1r1(pi-xt-1)+c2r2(pg-xt-1))(8)

xt=xt-1+vt(9)

其中,k是压缩因子常量,c1是感知成分,c2交互成分,r1、r2是零一之间统一分布的随机样本值,此外,c1+c2>4恒成立,这里设置c1为2.8,c2为1.3,令ψ=c1+c2,则有因此求解出27个最终参数的值,可成功仿真人手的动作并跟踪其与对象交互的痕迹。

附图说明

图1是本发明一种基于短基线立体成像的人手及其对象交互跟踪方法的系统流程图。

图2是本发明一种基于短基线立体成像的人手及其对象交互跟踪方法的人手检测图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于短基线立体成像的人手及其对象交互跟踪方法流程图。主要场景建模;辨识图建模;模型评价;随机优化。

其中,场景建模,给定输入的成对立体彩色人手图像,1)使用人手特征数据库自动并可视化地仿真人手,使用22根骨头进行对右手带有皮肤特质的模拟,同时,对该仿真右手进行类似血脉的网丝状物填充,共相互连接1491个节点,并且该手腕具有26个自由度;每只手由27个参数控制,分别为:3个参数表征手的位置、4个参数用于四次元数表征手体转动以及五根手指各使用4个参数表征弯曲角度;2)对于与人手交互作用的对象其场景建模则使用7个参数,3个参数表征对象位置及4个参数用于四次元数表征对象转动,该对象具有6个自由度;综上,可用多维度数组管理所有参数用于建立独特的人手及其对象模型。

辨识图建模,包括辨识度划分和适度响应分类和辨识度统计。

辨识度划分,根据信息论中不确定熵含有信息量大于确定熵的原理,在检查彩色图像中颜色的延伸性可用此原理测定仿真性程度,具体为:对于图像中的每个像素p,使用局部自相关公式计算以其为中心的近邻b×b的主曲率λ1和λ2,同时不失一般性,假设λ1≥λ2且b=3,当λ1和λ2都处于较小值时说明颜色区域较为统一,当λ1和λ2都较大时说明出现颜色的拐角,而当λ1比λ2要大得多时,则说明像素p的近邻是边缘区域,因此辨识度可用哈里斯角点检测方程定义为:

ch=λ1·λ2-k(λ1+λ2)2(1)

其中,k标准取值为0.04。

适度响应建立,对于不同的颜色延续性给予不同的响应,即对于像拐角的像素区域给予低响应,对像边缘的像素区域给予高响应,对均衡区域给予零响应,此外,在每张图像中都对辨识度进行相对测量,向量(λ1,λ2)量级d定义为:

对数用于改变比例,接着,对整张图像计算d的中值md=d/2。

辨识度统计,利用激活函数进行回归计算,识别不同程度的响应,其激活函数为:

接着,定义变量a,来测量λ1和λ2之间的差异,同样地用ma表示a的中值,有:

根据公式(3)(4),某个像素点的相关辨识度有:

其中阈值wt由具体实验值决定,根据公式(5),对输入的成对立体人手图的左、右两图每个像素值取c值,则可以得到两个辨识度匹配图cl和cr。

模型评价,包括颜色连续性评价和场景建模评价。

颜色连续性评价,对于输入的成对立体人手图像il和ir,根据公式(5)计算得到其辨识度匹配图cl和cr,假设仿真的人手场景为h,包含位置、方向、弯曲程度等信息在内,其三维坐标为ph=(x,y,z),则可计算出其二者投影视图pl和pr;此外,利用上述信息,还可定义pl和pr视图中颜色点的连续性s(pl,pr):

由公式(6),全局颜色延续性可以被定义为:

其中,β是控制指数步数增长的参数。

场景建模评价,对于成对输入的人手图像中,其仿真图像若只能对应其中一幅输入图像,则该仿真被剔除,因此,当一个投影pl出现在一幅图像中,要使得另一幅输入图像也具有匹配的投影pr,具体为,对于某像素点,若在3毫米范围内无法得到相同的投影,则该像素点被排除,因此场景评价取全局颜色连续性的最大值:

h*=argmax{sh(il,ir)}(7)

其中,sh由公式(7)计算得到。

随机优化,将像素视为粒子,基于粒子群算法,每个像素都保持现状,但作为整体其保留一个最佳位置pg,其值由粒子群共享,则粒子的速度vt与位置xt通过公式(8)和(9)进行迭代更新,在每一时间t有:

vx=k(vt-1+c1r1(pi-xt-1)+c2r2(pg-xt-1))(8)

xt=xt-1+vt(9)

其中,k是压缩因子常量,c1是感知成分,c2交互成分,r1、r2是零一之间统一分布的随机样本值,此外,c1+c2>4恒成立,这里设置c1为2.8,c2为1.3,令ψ=c1+c2,则有因此求解出27个最终参数的值,可成功仿真人手的动作并跟踪其与对象交互的痕迹。

图2是本发明一种基于短基线立体成像的人手及其对象交互跟踪方法的人体检测图。如图所示,可以观察到有三列图像,其中左一列图像为单手追踪结果,中间一列图像为人手与铅笔盒的交互追踪结果,右一列图像为两只人手相互作用的追踪结果,从图上可以看出,每一幅图像都一分为二,左侧为真实人手姿态,右侧为仿真姿态,可以看出其模型效果非常接近真实状态。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1