一种多维加权的3d动态手势识别方法
【专利摘要】本发明公开了一种多维加权的3D动态手势识别方法,在训练阶段,首先对标准手势进行分割,获得标准手势的特征向量,然后进行坐标系转换、归一化处理、平滑处理、降采样以及差分处理,得到一个标准手势的特征向量集以及其中各关节点的权值和元素各维的权值,这样构建出标准手势样本库。在识别阶段,采用多维加权动态时间规整算法计算待识别手势的特征向量集分别与标准手势样本库中的各个标准手势的特征向量集c=1,2,…,C的动态规整距离,在计算代价矩阵C第(m,n)个元素s(m,n)时,考虑关节点的权值以及元素中各维的权值,去掉了对手势识别无贡献的关节点和坐标维数,有效去掉了关节抖动、人体误动作对手势识别造成的干扰,提高了算法的抗干扰能力,最终提高的手势识别的正确率和实时性。
【专利说明】一种多维加权的3D动态手势识别方法
【技术领域】
[0001] 本发明属于模式识别与智能系统、计算机视觉与人机交互【技术领域】,更为具体地 讲,涉及一种多维加权的3D动态手势识别方法。
【背景技术】
[0002] 人机交互领域经历过两次革命,第一次是1983年鼠标的出现,让人们从基于键盘 的一维命令行进入到了基于鼠标的二维图形界面。第二次是触摸屏技术的产生,将显示和 输入融为一体,使人们逐渐熟悉多点触控的交互方式。触摸屏技术的发展,也带动了其他新 型交互方式和设备的探索和研究。
[0003] 可以认为,人机交互方式的转变与科技进步和社会的发展是密切联系的。从传统 遥控器、鼠标、键盘输入方式到现在的手写、触摸屏和语音输入方式,再到最新的体感输入 方式,这些趋势告诉我们,由人适应计算机的工作方式已逐渐转变为以人为中心,让计算机 去获得视觉感知的能力,从而"理解"用户的意图,做出正确的响应。
[0004] 手势作为一种人类基本的交互手段,使用手势进行人机交互会更加自然、直观、友 好、符合人类心理。目前,能识别手势的传感设备主要有:智能手环、智能手机、T0F摄像机、 Kinect等。但现有的手势识别系统存在手势识别率不高的问题。
【发明内容】
[0005] 本发明的目的在于克服现有技术的不足,提供一种多维加权的3D动态手势识别 方法,以提高手势识别的正确率和实时性。
[0006] 为实现上述发明目的,本发明多维加权的3D动态手势识别方法,其特征在于,包 括以下步骤:
[0007] (1)、训练阶段
[0008] 1.1)、手势分割
[0009] 从图像输入设备提供的连续人体动作视频(训练视频)中获取标准手势的关节点 数据,并跟踪左右手、左右手腕、左右手肘这6个关节点的位置,当检测到手处于伸出状态 即手的Z坐标值在跟踪的六个关节点的Z坐标值中最小时,并且手的移动速度在接下来的 连续的若干帧图像中由〇增加到某一阈值,认为手势开始;当该手部的移动速度在连续的 若干帧图像中逐渐减小到某一阈值,则认为手势结束;
[0010] 1. 2)、获取手势特征向量
[0011] 手势分割结束后,根据跟踪的6个关节点的连续坐标信息,就可以得到描述该标 准手势的运动轨迹;
[0012] 对于每一帧图像,6个关节点的位置信息:
[0013]
【权利要求】
1. 一种多维加权的3D动态手势识别方法,其特征在于,包括以下步骤: (1)、训练阶段 1.1) 、手势分割 从图像输入设备提供的连续人体动作视频(训练视频)中获取标准手势的关节点数 据,并跟踪左右手、左右手腕、左右手肘这6个关节点的位置,当检测到手处于伸出状态即 手的Z坐标值在跟踪的六个关节点的Z坐标值中最小时,并且手的移动速度在接下来的连 续的若干帧图像中由〇增加到某一阈值,认为手势开始;当该手部的移动速度在连续的若 干帧图像中逐渐减小到某一阈值,则认为手势结束; 1.2) 、获取手势特征向量 手势分割结束后,根据跟踪的6个关节点的连续坐标信息,就可以得到描述该标准手 势的运动轨迹; 对于每一帧图像,6个关节点的位置信息:
其中,t为图像帧序号,为第t帧图像中第i个关节点的三维坐标,这 些关节点分别为右手、右手腕、右手肘、左手腕、左手肘、左手;Γ可以看成是一个包含6个 元素的特征向量,而其中的每个元素是三维的,c表示这个特征向量所属的标准手势类别; 一个标准手势就是上述特征向量的集合,一个标准手势需要N帧的时间完成,则它对 应的特征向量集为:
,N为标准手势持续的巾贞数; 1.3) 、坐标系转换 以肩部中心这一关节点为基准,把每一巾贞获取的关节点的坐标系转换为以肩部中心为 原点的用户坐标系: 肩部中心的坐标为(Cx,Cy,Cz),第t帧图像中关节点i的坐标为
,i e [1,6] 转换完之后的坐标为则
经过处理之后,关节点所参考的坐标系就变成了以肩部中心这个关节点为原点的用户 坐标系;这样对应的特征向量具有平移不变性,不受手离图像输入设备的距离以及手势起 始位置的影响; 1.4) 、归一化处理 记特征向量集合F。中,X,y,z三个坐标分量的最大值、最小值分别为XMax,XMin,Y Max,YMin, ZMax,ZMin,对每一维坐标采用线性函数进行如下处理:
第C类标准手势经过预处理之后的特征向量集为:
经过归一化之后的特征向量具有尺度不变性; 1. 5)、对特征向量集进行平滑处理 考虑到本方法时间序列相邻帧变化缓慢的特点,最终选择移动平均滤波器对关节点的 每一维数据进行平滑滤波; 移动平均滤波基于统计规律,将连续的图像帧看成一个长度固定为N的队列,然后对 这个队列进行算术运算,并将其结果作为本次滤波的结果; 平滑处理的步骤为: 将特征向量集#;中,第一个关节点的第一维坐标按帧进行平滑滤波,滤波的窗口宽度 为5,即:
每一个关节点的每一维坐标都按上述方法进行平滑处理,经平滑处理之后,关节点的 抖动被很好的处理了; 1.6) 、降采样 为了降低手势特征向量集&的元素数,对特征向量集进行二元采样,每隔一个元素 提取一个元素,从而得到一个降采样特征向量集之; 1.7) 、差分处理 对降采样之后的特征向量集爲的每一个特性向量的每一维进行一阶差分处理,用一阶 差分的结果替换坐标值来描述手势随时间变化的位置特征趋势,差分如下:
式中,无,无,I;分别表示经过前面七步处理之后的特征向量集第t帧方的第i个关 节点的X,y,z坐标; 第c类标准手势经过预处理之后的特征向量集为:
1. 8)、计算特征向量集處中各关节的权值 选择逻辑斯蒂函数来为每个关节点计算它在标准手势中的权值:
为关节点位移.
,i e [1,6]中的最大值,h为单位距离,根据实际情况确定; 1. 9)、计算特征向量集之中元素各维的权值 选取特征向量集A中权值最大的三个关节点α,β,Y各帧对应的三维坐标组成一个 新的特征向量集:
分别计算特征向量集合Τ。里每个关节点对应的X,y,ζ三维坐标的方差,其中,关节点 α,β,Y的X维坐标的方差为:
丨表示关节点α,β,γ在第t巾贞坐标的X维数据,表示特征向量集 合T。中关节点α,β,Y各自对应的所有X维坐标的平均值;
匀小于阈值时,表示在标准手势中X维坐标是次要的,权值<为 〇
中有大于阈值的情况时,表示在标准手势中X维坐标是主要的,权 值?为1 ; 对于y、ζ维坐标,采用同样的方法,得到其权值%、Μ ; 1. 10)、构建标准手势样本库 按照步骤1. 1)?1.9)的方法,构造每个标准手势的特征向量集以及其中各关节点的 权值、元素各维坐标的权值,生成标准手势样本库; (2)、识别阶段 2. 1)、采用步骤1. 1)?1. 7)的方法,从待识别视频中获取待识别手势的特征向量集
2. 2)、采用多维加权动态时间规整(MDW-DTW)算法,计算出待识别手势的特征向量集 iti分别与标准手势样本库中的各个标准手势的特征向量集之》c = 1,2,…,C的动态规整 距离(相似度),并进行比较,与待识别手势的特征向量集合动态规整距离
最 短(相似度最高)的特征向量集處对应的标准手势类别即为待识别手势的类别,C标准手 势类别总数; 其中,多维加权动态时间规整算法中,代价矩阵C第(m,η)个元素 s(m,η)的计算公式 为:
./η/,./)为待识别手势特征向量集中第m帧图像中第i个关节点对应坐标的第j维坐 标,./;:仏刀为标准手势样本库中标准手势C的特征向量集中第η帧图像中第i个关节点对 应坐标的第j维坐标,j = 1,2, 3分别代表X,y, z ; 其中,动态规整距离
其中,L为规整路径的长度,(mk,nk )为代价矩阵C中规整路径上的第k个元素坐标, 分别代表待识别手势特征向量集中第mk帧,标准手势样本库中标准手势c的特征向量集中 第nk帧。
2.根据权利要求1所述的多维加权的3D动态手势识别方法,其特征在于,步骤1. 9所 述的阈值为〇. 1。
【文档编号】G06F3/01GK104123007SQ201410366945
【公开日】2014年10月29日 申请日期:2014年7月29日 优先权日:2014年7月29日
【发明者】康波, 李云霞, 孙琴, 蔡会祥 申请人:电子科技大学