一种基于节体对象的动作识别方法与流程

文档序号：12468144阅读：来源：国知局

技术特征：

1.一种基于节体对象的动作识别方法，其特征在于，主要包括预处理和获得初始姿态(一)；姿态估计(二)；跟踪(三)；动作识别(四)。

2.基于权利要求书1所述的预处理和获得初始姿态(一)，其特征在于，假设在输入深度图像或补丁中存在一个且只有一个节体对象，从图像中提取感兴趣对象的点，通过设置这些姿势作为基础关节对象的主姿态来获得初始姿态；对于每个初始姿态，通过从(-π,π)上的均匀分布扰动平面内基础关节的方向来生成对象的初始取向。

3.基于权利要求书1所述的姿态估计(二)，其特征在于，包括测试和训练。

4.基于权利要求书3所述的测试过程，其特征在于，给定一组n_t个训练图像，定义

$<mrow> <mover> <mrow> <msub> <mi>Δθ</mi> <mi>j</mi> </msub> </mrow> <mo>&OverBar;</mo> </mover> <mo>:</mo> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>n</mi> <mi>i</mi> </msub> </mfrac> <munder> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <msub> <mi>Δ</mi> <msub> <mi>θ</mi> <mi>j</mi> </msub> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

为J个关节集合的第j个关节的训练图像的平均偏差；偏差Δθj表示估计姿态和地面真实姿态之间的变化量；全局误差函数可以被定义在评估来自平均偏差的和的一组示例中，例如以下形式

$<mrow> <munder> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>J</mi> <mo>)</mo> </mrow> </mrow> </munder> <mo>|</mo> <mo>|</mo> <mover> <mrow> <msub> <mi>Δθ</mi> <mi>j</mi> </msub> </mrow> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

其中，‖·‖₂是欧氏空间中的标准向量范数；

假设每个J关节有C个循环或迭代，给定测试图像和初始姿态估计，对于来自基本关节的长度J的运动链，每个关节j∈{1,…,J}，在当前循环c∈{1,…,C}处，关节的当前姿态将由lie群动作纠正，其中扭曲r_j^(c)是本地回归者的输出换句话说，表示速记符号和可以通过以下的左组动作

$<mrow> <msubsup> <mi>g</mi> <msub> <mover> <mi>θ</mi> <mo>~</mo> </mover> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>:</mo> <mo>=</mo> <msubsup> <mi>g</mi> <mrow> <msub> <mover> <mi>θ</mi> <mo>~</mo> </mover> <mn>1</mn> </msub> <mo>:</mo> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mrow> <mi>c</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> </msubsup> <msup> <mi>e</mi> <msubsup> <mi>r</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

来更新第j个关节空间坐标，其中是最近的组元素，用于进一步校正在循环c的第c个关节的空间位置；

在测试运行时，为每个输入图像生成多个初始姿态，通过逆运动学回归，产生相应的候选姿势；这些输出姿态将通过度量来筛选，挑选其中最佳姿态将作为最终估计姿态。

5.基于权利要求书3所述的训练过程，其特征在于，在训练阶段，以与测试阶段相同的方式获得输入图像的一组K个初始姿态；训练数据集的每个示例由一个实例组成：一对姿态包括估计姿态和地面真实姿态以及其标记：估计与地面真实的偏差θ_j，如

$<mrow> <msub> <mi>Δθ</mi> <mi>j</mi> </msub> <mo>=</mo> <mi>log</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <msub> <mover> <mi>θ</mi> <mo>~</mo> </mover> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>:</mo> <mi>c</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </msubsup> <mo>,</mo> <msub> <mi>gθ</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

对于第一关节j＝1(运动链中的基本关节)和第一个循环c＝1，示例的标签将是从初始姿态的第一关节到地面真实的第一关节的变化量；然后在所有循环c通过执行当前部分运动学模型直到前一个循环c-1获得其对应的初始姿态。

6.基于权利要求书1所述的跟踪(三)，其特征在于，粒子滤波器可以解决跟踪问题，考虑离散的时间步长t，并且使用x表示潜在随机变量，用y观察它；跟踪对象的状态(即，在时间t的估计姿态)被表示为x_t，并且其函数关系为x_1:t＝(x₁,…,x_t)；类似地，当前观察被表示为y_t，其函数关系被表示为y_1:t＝(y₁,…,y_t)；基本的一阶时间马尔可夫链诱导条件独立性，其定义为p(x_t|x_1:t-1)＝p(x_t|x_t-1)；遵循这种状态空间动态模型的典型因式分解，有

$<mrow> <mtable> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <munderover> <mi>Π</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>$

以及

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Π</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>$

我们还需要用于滤波的后验概率p(x_t|y_1:t)，定义为

p(x_t|y_1:t)∝p(y_t|x_t)p(x_t|y_1:t-1) (7)

以及

p(x_t|y_1:t-1)＝∫p(x_t|x_t-1)p(x_t-1|y_1:t-1)dx_t-1 (8)

即通过递归方式，用来自先前时间步长的后者p(x_t-1|y_1:t-1)进行评估；

粒子过滤器范例的实现涉及选择-传播-测量的三步概率推理过程，其用作粒子过滤器中的一个时间步长更新规则；特别地，在当前时间步骤t的处理对应于选择标准测量三元组步骤的执行：先前时间步骤的输出包含一组Kr加权粒子

$<mrow> <msub> <mi>S</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>:</mo> <mo>=</mo> <msubsup> <mrow> <mo>{</mo> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>π</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>}</mo> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mi>r</mi> </msub> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>$

这里每个粒子i，对应唯一确定姿态的切向量参数集合其中每个向量连接到运动链之后的关节；粒子与其重量相关；总体上，这组加权粒子被认为是后验分布p(x_t-1|y_1:t-1)的近似；选择步骤通过从p(x_t-1|y_1:t-1)的累积分布函数(CDF)进行均匀采样操作，以产生具有相等权重的一组新粒子K_r。

7.基于权利要求书6所述的传播步骤，其特征在于，使用公式(11)的基于流形的布朗运动采样来实现p(x_t|x_t-1)，即基于与先前时间步长的离散布朗运动偏差获得新状态；该布朗运动采样仅在基本联合上执行，而剩余关节通过直接执行与姿态估计算法中的公式(3)相同的推理过程来获得；样本集构成了对于p(x_t|y_1:t-1)的预测分布函数的近似。

8.基于权利要求书7所述的布朗运动，其特征在于，布朗运动可认为是高斯随机变量在流形上的泛化，其中增量是独立的并且是高斯分布的，布朗运动的发生器是拉普拉斯-贝尔拉米算子；令表示连续变量，δ>0是一个小步长；令表示从正态分布中采样的随机向量，对于k＝0,1,…，是协方差矩阵；具有起点g(0)∈SE(3)的左不变布朗运动可近似于

$<mrow> <mi>g</mi> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> <mi>δ</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>g</mi> <mrow> <mo>(</mo> <mi>k</mi> <mi>δ</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mo>{</mo> <msqrt> <mi>δ</mi> </msqrt> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </msubsup> <msubsup> <mi>ξ</mi> <mi>k</mi> <mi>i</mi> </msubsup> <msub> <mo>∂</mo> <mi>i</mi> </msub> <mo>}</mo> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>$

此外，这些采样点可以通过测地学来内插以形成连续的采样路径，即对于有

$<mrow> <mi>g</mi> <mrow> <mo>(</mo> <mover> <mi>t</mi> <mo>~</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mi>g</mi> <mrow> <mo>(</mo> <mi>k</mi> <mi>δ</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mo>{</mo> <mfrac> <mrow> <mover> <mi>t</mi> <mo>~</mo> </mover> <mo>-</mo> <mi>k</mi> <mi>δ</mi> </mrow> <msqrt> <mi>δ</mi> </msqrt> </mfrac> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </msubsup> <msubsup> <mi>ξ</mi> <mi>k</mi> <mi>i</mi> </msubsup> <msub> <mo>∂</mo> <mi>i</mi> </msub> <mo>}</mo> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>$

公式如上所示。

9.基于权利要求书6所述的测量步骤，其特征在于，为每个粒子提供如下的更新的权重令是通过应用我们学习的度量获得的第i个粒子的预测误差值；因此，重量被评价为

$<mrow> <msubsup> <mi>π</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msqrt> <mrow> <mn>2</mn> <mi>π</mi> </mrow> </msqrt> <mi>σ</mi> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <msubsup> <mi>m</mi> <mi>t</mi> <msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msubsup> <mrow> <mn>2</mn> <msup> <mi>σ</mi> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>$

在获得所有K_r权重之后，每个权重被进一步标准化为

$<mrow> <msubsup> <mi>π</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>&LeftArrow;</mo> <mfrac> <msubsup> <mi>π</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <msubsup> <mi>Σ</mi> <mrow> <msup> <mi>i</mi> <mo>′</mo> </msup> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mi>r</mi> </msub> </msubsup> <msubsup> <mi>π</mi> <mi>t</mi> <mrow> <mo>(</mo> <msup> <mi>i</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>$

更新的样本集合现在共同近似在时间t的对应的后验分布p(x_t|y_1:t)；

加权粒子集合表示整个分布；最终姿态估计，(即在时间t的)，通过对这组粒子进行加权平均来产生

$<mrow> <msubsup> <mi>x</mi> <mi>t</mi> <mo>*</mo> </msubsup> <mo>&LeftArrow;</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mi>r</mi> </msub> </msubsup> <msubsup> <mi>π</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>S</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>$

公式如上所示。

10.基于权利要求书1所述的动作识别(四)，其特征在于，考虑学习预测器，提取将要描述的专用特征，并且输出预测的动作类别。

完整全部详细技术资料下载

当前第2页1 2 3