一种无标记运动捕捉及场景重建方法及装置的制作方法

文档序号:6373086阅读:174来源:国知局
专利名称:一种无标记运动捕捉及场景重建方法及装置的制作方法
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于多手持深度相机的无标记运动捕捉及场景重建方法及装置。
背景技术
人体运动捕捉是计算机视觉中的重要以及难点问题。近几年来,运动捕捉已经成为商业电影虚拟人物制作的重要手段,但这种方法对采集环境要求十分苛刻。首先,表演者必须穿着带有特殊标志物的表演服,算法需要通过对这些标志物的跟踪才能重建出人体运动。其次,整个系统需要将相机固定在背景是绿幕布的摄影棚内,这些严格的局限性阻碍了其更广泛更自由的应用。
未解决上述缺陷,学者们将注意力转移到无标记运动捕捉技术的研究上。通过对算法的改进,表演者可以穿着日常着装进行表演。但是对绿幕布的需求依旧存在,因为普通彩色相机很难分割前景背景,需要绿幕布作为先验信息提供分割依据。深度相机是近年来逐渐开始普及的感知三维世界的新方式,对于环境中的每个点,深度相机不但可以返回其颜色信息,还可以返回该点距离深度相机光心平面的垂直距离。这一开创性的技术发明为一般场景的无标记运动捕捉技术提供了可能性。

发明内容
本发明旨在至少解决上述技术问题之一。为此,本发明的目的在于提供一种利用多台手持深度相机拍摄到的点云跟踪人体运动参数以及相机位姿参数,同时实现人体运动捕捉以及背景环境三维重建的方法及对应的装置。根据本发明的基于多手持深度相机的无标记运动捕捉及场景重建方法包括以下步骤:A.提供人体模型和地板模型;B.提供多个深度相机,以非固定的手持方式进行拍摄,获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频;C.根据所述深度图和所述深度相机的内参矩阵,进行空间变换得到三维点云集合,并将三维点云点记为P ;D.对同一所述深度相机的相邻帧的所述彩色图进行匹配,提取二维空间的场景特征点,并在所述三维点云集合中找到对应的三维空间的场景特征点S ;E.根据所述人体模型中的表面网格点V、所述地板模型中的地板点G和所述三维空间的场景特征点S的信息,定义联合优化模型;F.根据所述深度图和所述彩色图的信息,将三维点云点P与表面网格点V进行匹配,得到P-V匹配结果;和6.将所述P-V匹配结果对引入所述联合优化模型,进行求解和变换,得到运动捕捉结果和场景重建结果。根据本发明实施例的基于多手持深度相机的无标记运动捕捉及场景重建方法,不但实现了准确鲁棒的运动参数估计,还同时实现了相机参数的恢复以及三维场景的实时重建。将所述的优化模型进行线性化变形,即可快速求解所有参数,算法准确、鲁棒,真实感强,运行速度快,系统成本低,可以在普通PC机或工作站等硬件系统上实现,拥有广阔的应用前景。
根据本发明的基于多手持深度相机的无标记运动捕捉及场景重建装置包括以下部分人体模型输入模块,用于输入人体模型;地板模型输入模块,用于输入地板模型;多视角的深度相机,用于非固定的手持方式进行拍摄,获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频;点云转换模块,用于根据所述深度图和所述深度相机的内参矩阵,进行空间变换得到三维点云集合,并将三维点云点记为P ;特征点提取模块,用于对同一所述深度相机的相邻帧的所述彩色图进行匹配,提取二维空间的场景特征点,并在所述三维点云集合中找到对应的三维空间的场景特征点S ;匹配模块,用于根据所述深度图和所述彩色图的信息,将三维点云点P与表面网格点V进行匹配,得到P-V匹配结果;联合优化模型计算模块,用于定义联合优化模型,并将所述P-V匹配结果对引入所述联合优化模型,通过线性化为一最小二乘问题进行求解,得到骨架参数X和所述手持相机的外参矩阵Y ;运动捕捉模块,用于根据所述骨架参数X,描述运动追踪结果,以实现运动捕捉;和场景重建模块,用于根据所述外参矩阵Y,结合所述内参矩阵,将所述手持相机获得的点云点进行坐标变换,即得到Ty (P),将变换后的点云增加到原场景点云中,以实现场景重建。根据本发明实施例的基于多手持深度相机的无标记运动捕捉及场景重建装置,不但实现了准确鲁棒的运动参数估计,还同时实现了相机参数的恢复以及三维场景的实时重 建。将所述的优化模型进行线性化变形,即可快速求解所有参数,算法准确、鲁棒,真实感强,运行速度快,系统成本低,可以在普通PC机或工作站等硬件系统上实现,拥有广阔的应用前景。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。


本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图I是根据本发明一个实施例的基于多手持深度相机的无标记运动捕捉及场景重建方法的流程图;以及图2是根据本发明一个实施例的基于多手持深度相机的无标记运动捕捉及场景重建装置的结构框图。
具体实施例方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。下面参考附图描述根据本发明实施例的基于多手持深度相机的无标记运动捕捉及场景重建方法及装置。图I是根据本发明一个实施例的基于多手持深度相机的无标记运动捕捉及场景重建方法的流程图。如图I所示,该方法包括下述步骤
步骤S101,提供人体模型和地板模型。其中,人体模型由骨架模型和表面网格构成,骨架有31个关节点组成的运动学链条组成,每个关节的位置、自由度以及转轴方向均为手工指定。表面网格被骨架模型拖动变形,模拟真实人体运动情况。在本发明的一个实施例中,人体模型符合骨架驱动表面规律,即满足骨架驱动表面规律的定义公式=TxV=V5其中V为表面网格点,TxV为表面网格点在关节转角X下变形Tx得到的目标位置,a为关节序号,N为关节数目,θ α ξ a为关节旋转参数。此外,为了限制相机运动自由度,在联合优化中,需要加入地板平面约束。在本发明的一个实施例中,地板模型为圆形平面模型,地板模型用于提供地板平面约束。步骤S102,提供多个深度相机,以非固定的手持方式进行拍摄,获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频。需要说明的是,非固定的手持方式进行拍摄,意味着相机的外参矩阵为未知。由于 人体骨架参数以及相机外参矩阵均为未知,本发明实际上提出一种联合优化模型同时求解骨架参数及相机外参矩阵,从而实现运动捕捉和场景重建。步骤S103,根据深度图和深度相机的内参矩阵,进行空间变换得到三维点云集合,并将三维点云点记为P。在本发明的一个实施例中,根据深度图和深度相机的内参矩阵,进行空间变换得到三维点云集合的空间变换公式为P= Kj^m,n,d(m,其中P为三维点云集合中的三维点云点,(m, η)为深度图中的像素点,m、η表示像素点(m,η)的坐标,d(m, η)表示像素点(m, η)的深度值。步骤S104,对同一深度相机的相邻帧的彩色图进行匹配,提取二维空间的场景特征点,并在三维点云集合中找到对应的三维空间的场景特征点S。在本发明的一个实施例中,对同一深度相机的相邻帧的彩色图进行匹配的方法为尺度不变特征转换(SIFT)特征匹配。步骤S105,根据人体模型中的表面网格点V、地板模型中的地板点G和三维空间的场景特征点S的信息,定义联合优化模型。在本发明的一个实施例中,联合优化模型为
权利要求
1.一种基于多手持深度相机的无标记运动捕捉及场景重建方法,其特征在于,包括以下步骤 A.提供人体模型和地板模型; B.提供多个深度相机,以非固定的手持方式进行拍摄,获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频; C.根据所述深度图和所述深度相机的内參矩阵,进行空间变换得到三维点云集合,并将三维点云点记为P ; D.对同一所述深度相机的相邻帧的所述彩色图进行匹配,提取ニ维空间的场景特征点,并在所述三维点云集合中找到对应的三维空间的场景特征点S ; E.根据所述人体模型中的表面网格点V、所述地板模型中的地板点G和所述三维空间的场景特征点S的信息,定义联合优化模型;F.根据所述深度图和所述彩色图的信息,将三维点云点P与表面网格点V进行匹配,得到P-V匹配结果;和 G.将所述P-V匹配结果对引入所述联合优化模型,进行求解和变换,得到运动捕捉结果和场景重建结果。
2.如权利要求I所述的基于多手持深度相机的无标记运动捕捉及场景重建方法,其特征在于,其中,所述人体模型符合骨架驱动表面规律,即满足所述骨架驱动表面规律的定义公式Τχν=Π; =(^>φ(θ‘)ν;其中V为表面网格点,TxV为表面网格点在关节转角X下变形Tx得到的目标位置,α为关节序号,N为关节数目,θ α ξ α为关节旋转參数。
3.如权利要求2所述的基于多手持深度相机的无标记运动捕捉及场景重建方法,其特征在于,所述地板模型为圆形平面模型,所述地板模型用于提供地板平面約束。
4.如权利要求3所述的基于多手持深度相机的无标记运动捕捉及场景重建方法,其特征在于,所述根据所述深度图和所述深度相机的内參矩阵,进行空间变换得到三维点云集合的空间变换公式为P =η,d(m,η))Τ,其中P为所述三维点云集合中的三维点云点,(m, η)为所述深度图中的像素点,m、η表示所述像素点(m, η)的坐标,d(m,n)表示所述像素点(m,n)的深度值。
5.如权利要求4所述的基于多手持深度相机的无标记运动捕捉及场景重建方法,其特征在于,所述对同一所述深度相机的相邻帧的所述彩色图进行匹配的方法为尺度不变特征转换(SIFT)特征匹配。
6.如权利要求5所述的基于多手持深度相机的无标记运动捕捉及场景重建方法,其特征在于,所述联合优化模型为 argmm^ll^W) - 7;仍)|| + ^\\Gj - Ty(Pj)W + _ W)|| i j k 其中,X表示骨架參数,表示姆个关节的转动角度,Y = (RcItc}表示所述手持相机的外參矩阵,R。表示旋转矩阵,t。表示平移向量,V表示所述人体模型的表面网格点,Tx (V)表示在骨架參数X的牵引下对表面点V进行拖动后的位置,P为空间变换得到的所述三维点云点,Ty (P)表示在所述手持相机在所述外參矩阵Y下进行观测到的三维点云点P在真实世界坐标系下的位置,G为真实世界的地板点,S为三维空间的场景特征点,下标i表示所述三维点云点P和表面网格点V的序号,j表示所述地板点G的序号,k表示所述场景特征点S的序号。
7.如权利要求6所述的基于多手持深度相机的无标记运动捕捉及场景重建方法,其特征在于,所述步骤F进ー步包括遍历地计算所述三维点云点P与各个表面网格点V的匹配度量函数F (V, P),并选取能使所述度量函数具有最大值的所述V点作为所述P点匹配成功的点,即 Vi = arg maxvevF(v, Pi),其中,所述匹配度量函数 F(v, ρ) = Δ (| | Iv-Ip , Q1)Δ (I I χν-χρ I I, Θ X)max(nvnp,0),其中运算符 Δ 表示 Δ(人 B) = max (I -^,0 ), xv,nv, Iv 分别表示所述表面网格点V的位置信息值、法向信息值及颜色信息值,xp, np, Ip分别表示所述身体点云点P的位置信息值、法向信息值及颜色信息值,θ χ表示顔色信息的最大允许差值,θ χ表示位置信息的最大允许差值。
8.如权利要求7所述的基于多手持深度相机的无标记运动捕捉及场景重建方法,其特 征在于,所述步骤G进ー步包括 将所述P-V匹配结果对引入所述联合优化模型,通过线性化为ー最小ニ乘问题进行求解,得到骨架參数X和所述手持相机的外參矩阵Y ; 根据所述骨架參数X,描述运动追踪結果,以实现运动捕捉; 根据所述外參矩阵Y,结合所述内參矩阵,将所述手持相机获得的点云点进行坐标变换,即得到Ty (P),将变换后的点云増加到原场景点云中,以实现场景重建。
9.如权利要求8所述的基于多手持深度相机的无标记运动捕捉及场景重建方法,其特征在于,所述步骤F还包括对所述人体模型进行拉普拉斯表面变形,以使所述追踪结果更接近实际情况,其中,所述拉普拉斯表面变形的计算公式为:ai\min{||LV-響+A||CV-q|p},其中I lLV-δ I I2为拉普拉斯坐标系表面几何约束,I |CV-q| 12为运动约束,入为表面R份变形权重。
10.一种基于多手持深度相机的无标记运动捕捉及场景重建装置,其特征在于,包括以下部分 人体模型输入模块,用于输入人体模型; 地板模型输入模块,用于输入地板模型; 多视角的深度相机,用于非固定的手持方式进行拍摄,获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频; 点云转换模块,用于根据所述深度图和所述深度相机的内參矩阵,进行空间变换得到三维点云集合,并将三维点云点记为P ; 特征点提取模块,用于对同一所述深度相机的相邻帧的所述彩色图进行匹配,提取ニ维空间的场景特征点,并在所述三维点云集合中找到对应的三维空间的场景特征点S ; 匹配模块,用于根据所述深度图和所述彩色图的信息,将三维点云点P与表面网格点V进行匹配,得到P-V匹配结果; 联合优化模型计算模块,用于定义联合优化模型,并将所述P-V匹配结果对引入所述联合优化模型,通过线性化为ー最小ニ乘问题进行求解,得到骨架參数X和所述手持相机的外參矩阵Y ; 运动捕捉模块,用于根据所述骨架參数X,描述运动追踪結果,以实现运动捕捉;和场景重建模块,用于根据所述外參矩阵Y,结合所述内參矩阵,将所述手持相机获得的点云点进行坐标变换,即得到Ty (P),将变换后的点云増加到原场景点云中,以实现场景重建。
11.如权利要求10所述的基于多手持深度相机的无标记运动捕捉及场景重建装置,其特征在于,其中,所述人体模型符合骨架驱动表面规律,即满足所述骨架驱动表面规律的定义公式
12.如权利要求11所述的基于多手持深度相机的无标记运动捕捉及场景重建装置,其特征在于,所述地板模型为圆形平面模型,所述地板模型用于提供地板平面約束。
13.如权利要求12所述的基于多手持深度相机的无标记运动捕捉及场景重建装置,其特征在于,所述根据所述深度图和所述深度相机的内參矩阵,进行空间变换得到三维点云集合的空间变换公式为
14.如权利要求13所述的基于多手持深度相机的无标记运动捕捉及场景重建装置,其特征在于,所述对同一所述深度相机的相邻帧的所述彩色图进行匹配的方法为尺度不变特征转换(SIFT)特征匹配。
15.如权利要求14所述的基于多手持深度相机的无标记运动捕捉及场景重建装置,其特征在于,所述联合优化模型为
16.如权利要求15所述的基于多手持深度相机的无标记运动捕捉及场景重建装置,其特征在于,所述匹配模块的匹配方法为遍历地计算所述三维点云点P与各个表面网格点V的匹配度量函数F(V,P),并选取能使所述度量函数具有最大值的所述V点作为所述P点匹配成功的点,即Vi = arg maxv e VF(v, Pi),其中所述匹配度量函数 F (V, ρ) = Δ (I I Iv-Ip II,Θ J Δ (I I Xv-Xp II, θ x) max (nvnp, O),其中运算符 Δ 表示
17.如权利要求16所述的基于多手持深度相机的无标记运动捕捉及场景重建装置,其特征在于,还包括优化模块,所述优化模块用于对所述人体模型进行拉普拉斯表面变形,以使所述追踪结果更接近实际情况,其中,所述拉普拉斯表面变形的计算公式为=argJninCIILV-δ|12+AIICV-q| j,其中I lLV-δ I I2为拉普拉斯坐标系表面几何约束,I |CV-q| |2为运动约束,入为表面网格 变形权重。
全文摘要
本发明提出一种基于多手持深度相机的无标记运动捕捉及场景重建方法及装置,其中该方法包括步骤提供人体模型和地板模型;通过多个深度相机手持地拍摄;将相机返回的深度图进行空间变换得到三维点云集合;从对同一深度相机的相邻帧的彩色图中提取场景特征点;根据人体模型中的表面网格点、地板模型中的地板点和三维空间的场景特征点的信息,定义联合优化模型;将三维点云点与表面网格点进行匹配;和将匹配结果对引入联合优化模型进行求解和变换,得到运动捕捉结果和场景重建结果。本发明的方法,无需借助笨重的标志物,能够更加灵活便捷地进行运动捕捉和场景重建,具有运动参数准确鲁棒、场景复原程度高、算法运行速度快、系统成本低的优点。
文档编号G06T17/00GK102842148SQ20121023781
公开日2012年12月26日 申请日期2012年7月10日 优先权日2012年7月10日
发明者戴琼海, 叶亘之, 刘烨斌 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1