基于rgb-d图像的手势检测方法

文档序号：6539147阅读：1386来源：国知局

基于rgb-d图像的手势检测方法
【专利摘要】本发明提供了一种基于RGB-D图像的手势检测方法，其包括：第一步，获取RGB-D图像；第二步，从背景中分割手部；第三步，识别手势；第四步，寻找手势的最优分割。本发明提供的RGB-D图像的手势检测方法能有效地分割出人手区域，具有分割准确，即使在手部发生部分自遮挡或者背景中有其他人干扰时也能得到好的手势分割，且算法鲁棒性好。
【专利说明】基于RGB-D图像的手势检测方法
【技术领域】
[0001]本发明涉及数字图像处理【技术领域】，尤其涉及一种基于RGB-D图像的手势检测方法。
【背景技术】
[0002]人机交互接口需要尽可能直观和自然。用户与机器进行交互，不需要繁琐的设备(如彩色标记或手套)或装置像遥控器、鼠标和键盘。手势可提供一个与机器智能相结合的简单沟通方式。可以发现，在各种研究和工业领域都有成功应用的手势系统。例如:游戏控制、虚拟环境、智能家居和手语识别等等。
[0003]手势分割的好坏直接影响后续的手势特征提取、跟踪、识别的精度和准确度。近年来，国内外研究人员在手势分割的研究中提出了多种方法，主要包括模版匹配法、差分法、肤色分割法和约束限制法等。模版匹配法是建立在手型数据库的基础上，在数据库中将手势图像和手型数据中的模版比对。手型是一个非刚性的物体，比对的过程计算量大，困难较大，难以满足实时性要求。约束限制法是通过佩戴不同颜色的手套，或者突出手部与背景的对比，以此来简化对手势区域(前景)和背景进行划分。但这些约束限制了手势数据交流的方便性和自由性。图像差分法是通过运动的手势图像和静止的背景图像相减来进行手势分割，该方法的缺陷是无法克服图像上对应像点偏移的发生。肤色分割法是根据肤色的聚类特性来进行手势分割，它会因为手势相对于光源的角度不同而使肤色受到较大影响。对于要求快捷、方便、实用的基于视觉的手势识别，单独的使用这些方法都有一定的局限性，无法精确实时的对手势进行有效分割，严重地影响了分割效果。专利CN103226708A在手势分割中，也采用了深度图像与彩色图像相结合的方法，但它的前提是假定人手位于人体的最前面。另外，也有人提出了采用了类似方法，但它要求首先对RGB相机和Depth相机进行标定，这增加了算法的复杂性和繁琐性。

【发明内容】

[0004]本发明所要解决的技术问题是在于克服上面提到的手势检测方法中存在的各种缺陷，提供一种基于RGB-D图像的手势检测方法，其能有效地分割出人手区域，具有分割准确，即使在手部发生部分自遮挡或者背景中有其他人干扰时也能得到好的手势分割，且算法鲁棒性好。
[0005]为解决上述技术问题，本发明提供了一种基于RGB-D图像的手势检测方法，其包括:
[0006]第一步，获取RGB-D图像；
[0007]第二步，从背景中分割手部；
[0008]第三步，识别手势；
[0009]第四步，寻找手势的最优分割。
[0010]所述第一步具体为利用深度传感器获取彩色图像(RGB Image)流和深度图像(Depth Image)流，即RGB-D图像数据流，并将其转换成一帧帧的图像以便于后续的图像处理。
[0011]所述第二步具体为通过骨骼图和深度图像的像素比，将手部位置映射到深度图像，利用深度图像信息将手部从背景中予以分割。
[0012]所述第三步具体为利用凸函数来优化分割RGB-D的手势图像，从而快速准确地识别手势。
[0013]所述第四步具体为利用最小化函数及其函数约束,通过Split Bregman快速算法解出模型，对RGB-D图像寻找最优分割。
[0014]本发明的有益效果:
[0015]本发明提供的RGB-D图像的手势检测方法能有效地分割出人手区域，具有分割准确，即使在手部发生部分自遮挡或者背景中有其他人干扰时也能得到好的手势分割，且算法鲁棒性好。
[0016]附图标记
[0017]图1a-1e为基于彩色图像/深度图像/ RGB-D图像分割结果；其中，图1a彩色图像；图1b深度图像；图1c彩色图像分割结果；图1d深度图像的分割结果；图1e RGB-D图像分割结果；
[0018]图2a_2e为另一种情况下基于彩色图像/深度图像/ RGB-D图像分割结果；其中，图2a彩色图像；图2b深度图像；图2c彩色图像分割结果；图2d深度图像的分割结果；图2e RGB-D图像分割结果。
【具体实施方式】
[0019]本发明提供了一种基于RGB-D图像的手势检测方法，其包括:
[0020]第一步，获取RGB-D图像；
[0021]第二步，从背景中分割手部；
[0022]第三步，识别手势；
[0023]第四步，寻找手势的最优分割。
[0024]所述第一步具体为利用深度传感器获取彩色图像(RGB Image)流和深度图像(Depth Image)流，即RGB-D图像数据流，并将其转换成一帧帧的图像以便于后续的图像处理。
[0025]利用深度传感器可以同时获取深度图像和RGB彩色图像数据，能够支持实时的全身和骨骼追踪，同时可以识别一系列的姿态、动作，在本申请中利用它来获取手势数据信
肩、O
[0026]手势检测的目的是从原始图像中有效地分割手部区域，也就是把图像中的人手区域(前景)与其它(背景区域)区分开来，是手势识别一项很重要的基础工作。深度传感器具有分析深度数据和探测人体或者游戏者轮廓的功能。通过它可以获取颜色和深度数据流并将其转换成一帧帧的图像以便于后续的图像处理。对输入的图像，要求RGB图像与D印th深度图像在像素上对齐且时间同步。在获得了满足上述条件的图像对后，对输入图像进行预处理，如滤波等，达到抑制噪声的目的。
[0027]所述第二步具体为通过骨骼图和深度图像的像素比，将手部位置映射到深度图像，利用深度图像信息将手部从背景中予以分割。
[0028]彩色图像和深度图像都可以用来进行手势分割。彩色图像的优点是清晰，但它仅包含二维信息，且抗干扰性比较弱。而深度图像在分辨率上没有彩色图像高，但它包含了三维信息，且抗干扰性强。由于骨骼图能追踪人体手部的坐标位置，因此很容易确定手部在骨骼图中的具体位置。然后通过骨骼图和深度图像的像素比，将手部位置映射到深度图像，利用深度图像信息将手部从背景中予以分割。由于深度图像分辨率低且易受深度值相同物体的干扰，分割的效果并不理想。因此，在本申请中提出了结合深度图像和彩色图像的检测方法。
[0029]所述第三步具体为利用凸函数来优化分割RGB-D的手势图像，从而快速准确地识别手势。
[0030]对于分割优化过程，我们定义这个问题的图像分割为一个最小化的泛函:
[0031]E(U)= / Ωf (X) u (X) dx+ f Ω | Du (χ)(I)
[0032]其中，u e BV(IRd ； {O, I})是一个指示函数上的二元函数的有界变差，U=I和U=O表示在表面IRd的内部和外部，即在二维图像分割情况下的一组封闭边界或在三维分割情况下的一组封闭曲面。公式(I)中第二部分是全变差。其中Du表示分布导数，可微函数u归结为Afx) = vmMa。通过松弛二进制约束，函数u的值在O和I之间。该优化问题变为在凸集BV(IRd; [0，I])中求得最小化凸公式(I)。
[0033]通过凸优化和阈值，在空间上连续设置泛函的形式，可以实现全局优化。这个域值定理确保解决方案u*分解问题对原始二进制标记问题保持全局最优。计算公式(I)的全局最小值如下:在凸集BV(IRd ;[0，1])，Θ e (0,1)任何值时，计算公式(I)中全局最小值u*和大于最小值u*的阈值。
[0034]由于从RGB-D图像获取到额外的深度信息，所以边界长度可以在绝对值域IDu(X) I而不是在图像域d(x)中进行测量。泛函⑴可以推广到:
[0035]E(u)= f Ω f (χ) u (χ) dx+ f Ω?(χ) |Du(x)(2)
[0036]深度值(1:Ω —IR，公式⑵补偿了操作过程中引起的不良效果(由于透视投影，对象越远，相机出现较小的图像)。
[0037]所述第四步具体为利用最小化函数及其函数约束,通过Split Bregman快速算法解出模型，对RGB-D图像寻找最优分割。
[0038]对于RGB-D图像的函数约束，我们将利用深度信息来约束分割的矩，同时将说明这些约束条件怎么样影响内嵌的凸优化函数对应的集合点。我们用定义在Β=Βν(Ω ;[0，I])的凸函数表示定义在整个图像区域QcIRd的有界变差二值标记函数。面积约束:0阶矩的对应区域u的形状，可以通过公式(3)计算
[0039]Area(U):= f Ω?2 (x) u (x) dx(3)
[0040]其中d(x)给出了像素χ的深度。假设d(x) =KD(X)，K是相机的焦距，D(X)是测量出的像素的深度。令d2(x)为对应的像素在3D空间中投影的大小，整体的空间是表面积而不是图像中的投影区域。采用与文献的(Grenander, U.，Chow, Y.，Keenan, D.Μ.:Hands:APattern Theoretic Study of Biological Shapes.Springer, New York (1991))方法，以同样的方式处理所有的像素。
[0041]形状U的绝对面积被限制在常量C1 ( C2之间，通过在公式(4)集合中约束u来实现:
[0042]C0= {u ∈ β |C1 ≤ Area (u) ≤ c2}
[0043](4)
[0044]集合C0线性依赖于U，因此凸常量C2≥C1≥O。
[0045]通常，通过设置C1=C2或施加上界和下界的区域来确定准确的面积，或者施加一个软区域约束，通过公式(5)提升泛函(I)如下:
[0046]
【权利要求】
1.一种基于RGB-D图像的手势检测方法，其特征在于，包括: 第一步，获取RGB-D图像；第二步，从背景中分割手部；第三步，识别手势；第四步，寻找手势的最优分割。
2.如权利要求1所述的手势检测方法，其特征在于:所述第一步具体为利用深度传感器获取彩色图像(RGB Image)流和深度图像(Depth Image)流，即RGB-D图像数据流，并将其转换成一帧帧的图像以便于后续的图像处理。
3.如权利要求1或2所述的手势检测方法，其特征在于:所述第二步具体为通过骨骼图和深度图像的像素比，将手部位置映射到深度图像，利用深度图像信息将手部从背景中予以分割。
4.如权利要求1至3所述的手势检测方法，其特征在于:所述第三步具体为利用凸函数来优化分割RGB-D的手势图像，从而快速准确地识别手势。
5.如权利要求1至4所述的手势检测方法，其特征在于:所述第四步具体为利用最小化函数及其函数约束，通过Split Bregman快速算法解出模型,对RGB-D图像寻找最优分割。
【文档编号】G06K9/54GK103810480SQ201410073064
【公开日】2014年5月21日申请日期:2014年2月28日优先权日:2014年2月28日
【发明者】张维忠, 丁洁玉, 赵志刚, 张峰, 李明, 王青林申请人:青岛大学, 青岛广电无线传媒集团有限公司, 青岛广电动画有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张维忠;丁洁玉;赵志刚;张峰;李明;王青林
技术所有人：青岛大学;青岛广电无线传媒集团有限公司;青岛广电动画有限公司
我是此专利的发明人

上一篇：一种实时现场总线控制调度方法
上一篇：面向家居建材行业的o2o电子商务系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。