用于姿势识别的部位和状态检测的制作方法_3

文档序号：9332718阅读：来源：国知局

部位组合，那么将状态和部位的交叉产品用作类来训练随机决策森林是计算上昂贵的。
[0053] 在此描述的各示例中，单个像素级标记（部位标记）和整个图像级标记（状态标记）在单个框架中的混合使用允许对图像的快捷且高效的部位和状态标记用于姿势识别。
[0054] 在用于在每一个分割节点处做出决定的过程中，图像中的图像元素可从根到叶节点地被推动通过随机决策森林中的各个树。根据图像元素的特性以及测试图像元素的特性来做出该决定，测试图像元素从图像元素位移达分割节点处的参数所指定的空间偏移。在分割节点处，图像元素沿着根据决定的结果来选择的分支向下前进至树的下一层。随机决策森林可使用如下文更详细地描述的递归或归类。在训练期间，学习参数值（也被称为特征）以供在分割节点处使用，并且在叶节点处累积包括部位和状态标记表决的数据。
[0055] 在训练期间在叶节点处存储所有累积数据可以是非常存储器密集的，因为通常使用大量训练数据来用于实际应用。在一些实施例中，数据被聚集以使其可以按紧凑方式存储。可使用各种不同聚集过程。
[0056] 决策树t的每个叶节点可存储经学习的跨各部位和各状态c的概率分布Pt (c I u)。这些分布可接着跨树（例如通过平均）被聚集，以到达如以下等式所示的最终分布
[0058] 其中P(c|u)被解释为逐个图像元素表决，其手部为图像元素所属的并且手状态被编码。T是森林中的树的总数量。
[0059] 在测试时间，将先前未看见的图像输入到经训练的森林以使其图像元素被加标记。输入图像中的每一个图像元素可通过经训练的随机决策森林中的每一颗树以及从叶获取的数据来发送。以此方式，部位和状态标记表决可通过将每一个图像元素与从该图像元素位移达所习得的空间偏移的测试图像元素进行比较来做出。每一个图像元素可以作出多个部位和状态标记表决。这些表决可根据各种不同的合计方法来合计以给出所预测的部位和状态标记。测试时间过程因此可以是将输入图像应用于经训练的随机决策森林以直接获得所预测的部位和状态标记的单阶段过程。该单阶段过程可以按快速且有效的方式执行以便实时给出高质量结果。
[0060] 如上所述，在训练期间在叶节点处存储累积数据可以是非常存储器密集的，因为通常使用大量训练数据来用于实际应用。这特别是部位和状态标记两者都要被预测的情况，因为部位和状态标记的可能组合的数量可能是高的。因此在一些实施例中，针对可能部位的子集来预测状态标记，如现在参考图6描述的。
[0061] 图6是图5的随机决策森林之一的示意图，示出在叶节点510处累积的数据600，其中数据600以直方图形式存储。该直方图包括多个柱并示出了柱计数或每个柱的频率。在这个示例中，随机决策树将图像元素分类到三个可能的部位和四个可能的状态标记。三个可能的部位是手腕、指尖和手掌。四个可能的状态是：上、下、打开和闭合。在此示例中，状态标记对手掌图像元素而不是其它部位的图像元素可用。例如，这是因为训练数据包括手部图像，其中手指、前臂和手掌被上色且其中手掌的颜色基于当前手状态来改变。因为状态标记对至少一个但不是全部部位可用，可能的组合的数量被减少，并且数据可被比以其他方式可能的形式更紧凑的形式存储。
[0062] 图7是图5的随机决策森林之一的示意图，示出在叶节点510处累积的数据700，其中数据700以两个直方图形式存储。一个直方图存储状态标记频率且其它直方图存储部位标记频率。这允许相比于图6的示例而言更多的组合被呈现，但不会不恰当地增加存储容量的要求。在该情况中，训练数据可包括针对每个部位的状态标记。另一选项是在每个叶处使用单个直方图来代表状态和部位标记的全部可能的组合。再次，训练数据可包括针对每个部位的状态标记。
[0063] 图8是另一个实施例的示意图，其中第一阶段随机决策森林800被用来将图像元素分类到各部位并给出部位分类802。部位分类802被用来选择多个第二阶段随机决策森林804、806、808之一。可存在针对每个可能的部位分类（诸如图8的示例中的手腕、手掌、指尖）的第二阶段随机决策森林。一旦第二阶段随机决策森林被选择，那么测试图像元素可被输入到所选第二阶段森林以获得测试图像的状态810分类。尽管标记不同，第一和第二阶段森林可使用相同图像来训练，以反映第一和第二阶段的标记方案。
[0064] 图9示出了用于使用已用针对部位和状态两者标记的训练图像进行训练过的决策森林来预测先前未见的图像中的部位和状态标记的过程的流程图。参考以下图10描述的训练过程是示例性的。首先，接收未见图像900。图像被称作"未见"以将其与部位和状态标记已指定的训练图像相区分。注意未见图像可用被预处理到一程度，例如以标识前景区域，其减少了要被决策森林处理的图像元素的数量。然而，预处理以标识前景区域是不必要的。在一些示例中，未见图像是轮廓图像、深度图像或彩色图像。
[0065] 来自未见图像的图像元素被选择902。来自决策森林的经训练的决策树也被选择 904。通过所选择的决策树推动所选图像元素906,以使得在一节点处对照经训练的参数进行测试，然后取决于该测试的结果而将其传递到适当的子，并且该过程重复直到该图像元素到达叶节点。一旦图像元素到达叶节点，（来自训练阶段的）与这个叶节点相关联的累积的部位和状态标记表决针对该图像元素被存储908。部位和状态标记表决可以具有如参考图6和7描述的直方图的形式，或可以具有另一个形式。
[0066] 如果确定910该森林中存在更多决策树，则新决策树被选择904,推动906图像元素通过该树并存储累积的表决908。重复此过程，直到对于该森林中的所有决策树都执行了该过程。注意，用于推动图像元素通过决策树林中的多个树的过程还可以并行执行，而不是如图9所示按序列执行。
[0067] 接着确定912未见图像中是否存在其他未分析的图像元素，并且如果存在则选择另一图像元素并且重复该过程。一旦未见图像中的全部图像元素已被分析，那么针对全部图像元素的部位和状态标记表决被获得。
[0068] 当图像元素被推动通过决策森林中的树时，表决累积。针对给定图像元素，累积的表决跨森林中的树聚集914,以形成针对每个图像元素的总的表决聚集。可选地，可以采用表决的采样用于聚集。例如，随机选取N个表决，或通过采用最高的N个加权了的表决，并且接着聚集过程仅仅应用到那些N个表决。这允许针对速度来权衡准确度。
[0069] 至少一组部位和状态标记可接着被输出916,其中标记可被置信加权。这帮助任何随后的姿势识别算法（或其它过程）评估提议是否是好的。一组以上的部位和状态标记可被输出，例如，其中存在不确定性。
[0070] 每个部位的重心可被计算918。例如，这可通过使用均值移位过程来计算每个部位的重心来获得。也可使用其他方法来计算重心。逐图像元素状态分类也可跨全部相关图像元素来聚集。例如，相关图像元素可以是在上面描述的示例中描绘手掌的那些。逐图像元素状态分类的聚集可以以各种方式实现，包括手掌（或其它相关区域）中的每个图像元素作出针对全局状态的表决，或每个图像元素基于概率作出软（概率）表决，或仅仅一些图像元素作出表决（如果它们对它们的表决足够自信）。
[0071] 图10是用于训练决策森林以向图像的图像元素分配部位和状态标记的过程的流程图。这也可被认为是生成图像的图像元素的部位和状态标记表决。决策森林使用训练图像集来训练，如上参考图4所描述的。
[0072] 参考图10,为了训练决策树，首先接收1000上述训练集合。选择1002将在随机决策森林中使用的决策树的数量。随机决策森林是决定性决策树的集合。决策树可以在归类或递归算法中使用，但是可能遭受过拟合，即糟糕的泛化。然而，许多经随机训练的决策树的全体（随机森林）产生改进的泛化。在训练过程期间，树的数量是固定的。
[0073] 下面的注释被用于描述训练过程。图像I中的图像元素由其坐标X = (X，y)限定。森林由被标记为ΨηΚ，Ψ,，Κ，个树构成，其中t索引每个树。
[0074] 在操作中，每个树的每个根和分割节点对输入数据执行二元测试并基于其结果来将数据导向左侧或右侧的子节点。叶节点不执行任何动作；它们存储累积的部位和状态标记表决（以及可任选的其他信息）。例如，可存储表示所累积的表决的概率分布。
[0075] 现在描述选择每个分割节点所使用的参数的方式以及可如何

完整全部详细技术资料下载

当前第3页1 2 3 4 5