一种基于深度信息的手语识别方法

文档序号:9288583阅读:1402来源:国知局
一种基于深度信息的手语识别方法
【技术领域】
[0001] 本发明涉及一种基于深度信息的手语识别方法,属于智能感知与智能计算技术领 域。
【背景技术】
[0002] 手语(sign language)是用手势比量动作,根据手势的变化模拟形象或者音节以 构成一定意思或词语,它是听力障碍的人互相交际和交流思想的一种语言,它是"有声语言 的重要辅助工具",而对于听力障碍的人来说,它则是主要的交际工具。手语主要分为手指 语和手势语。手指语是用手指的指示变化代表字母,按拼音顺序依次拼出词语的语言表达 形式,有单手指语和双手指语之分。手势语是以手的动作和面部表情表达思想,进行交际交 流。我国目前聋哑人的数量为2000多万,他们主要以手语进行交流,但与没有手语学习基 础的人进行交流存在严重的障碍,所以研究一种智能、高效的手语识别方法尤为重要。
[0003]目前手语识别的方法主要是基于数据手套和基于计算机视觉。基于数据手套的方 法要求用户佩戴特殊的手套,手套上的传感器将采集到的位置、速度等信息反馈给计算机 进行手势识别。该方法的优点是可以精确地追踪目标的位置和轨迹,实时性强;缺点是设备 昂贵,用户需要佩戴专用的手套,削弱了人机交互的自然性,所以难以在现实生活中推广 使用。基于计算机视觉的方法对摄像机拍摄的图像或视频进行分析,分割目标区域,然后提 取特征进行分类识别。该方法的优点是设备相对便宜,而且用户不需要佩戴专用的设备,便 于在现实生活中推广使用。但该方法容易受到光照等因素的影响,而且在目标追踪和分割 上要复杂很多,涉及到数字图像处理领域的诸多关键技术。
[0004] 为了克服传统的手语识别方法存在的缺点,实现聋哑人之间、聋哑人与正常人之 间的交流,我们有必要设计一种智能、高效、实用的手语识别系统。

【发明内容】

[0005] 针对现有技术的不足,本发明公开了一种基于深度信息的手语识别方法;
[0006] 本发明的目的在于利用Kinect摄像头可以获取用户深度数据和骨骼数据的优 势,开发一种抗干扰能力强、便捷实用的手语识别方法。该方法包括:(1)单个手势的识别: 将手语分为手形和运动轨迹,采用基于深度信息的多阈值手势分割对手势进行多阈值分 害J,然后利用改进的SURF的算法获取手形的特征值,利用基于角速度和距离的运动轨迹特 征获取运动轨迹的特征值,并将提取的手形的特征值及运动轨迹的特征值作为BP神经网 络的输入,进行手势识别;(2)手势序列的校正:根据上下文信息,即已经识别的手势,通过 贝叶斯算法对未能正确识别或者存在多义性的手势进行自动推理校正。
[0007] 本发明的技术方案为:
[0008] 术语解释:
[0009] BP(Back Propagation)神经网络,是 1986 年由 Rumelhart 和 McCelland 为首的 科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神 经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭 示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断 调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层 (input)、隐层(hidden layer)和输出层(output layer)。
[0010] 一种基于深度信息的手语识别方法,具体步骤包括:
[0011] (1)基于深度信息的多阈值手势分割:利用Kinect摄像头获取用户深度数据和骨 骼数据,对手势进行多阈值分割,得到尺度变换后的右手的二值图;与此同时,分别提取右 手、右手食指、右手手腕及右肩四个骨骼点的骨骼空间坐标;
[0012] (2)利用5X5窗口对步骤⑴中获取的右手的二值图进行中值滤波和形态学上的 闭运算,即进行平滑处理,并利用近邻法提取手势轮廓;
[0013] (3)基于改进的SURF算法,获取手形的特征值;
[0014] (4)基于角速度和距离的运动轨迹特征提取:利用步骤(1)提取的右手、右肩的骨 骼空间坐标,获取右手的运动角速度、右手与右肩的距离,即运动轨迹的特征值;
[0015] (5)将步骤(3)获取的手形的特征值、步骤(4)获取的运动轨迹的特征值作为BP 神经网络的输入,进行手势识别;
[0016] (6)根据步骤(5)识别后的手势,通过贝叶斯算法对未能正确识别或者存在多义 性的手势进行自动推理校正。
[0017] 根据本发明优选的,所述基于深度信息的多阈值手势分割,具体步骤包括:
[0018] a、利用Kinect摄像头获取的用户深度数据与PlayerIndexBitmask做与运算, PlayerlndexBitmask的默认值为7,得到用户索引值,根据用户索引值的不同,将人体与背 景进行分割;
[0019] b、当有多个人体在Kinect摄像头的有效视距内时,Kinect摄像头的有效视距为 I. 2m-3. 5m,选择阈值T对步骤a分割后的深度图像进一步分割,阈值T为2. 5m-3. 5m ;
[0020] c、经过步骤b处理后的深度图像中,如在阈值T内仍有多个人体,计算每个人体的 深度数据平均值,选择深度数据平均值最小的人体作为识别对象;
[0021] d、利用Kinect摄像头获取的所述识别对象的右手骨骼点的骨骼空间坐标,对所 述识别对象的右手进行定位,该骨骼空间坐标系是右手螺旋的,以Kinect摄像头为原点,z 轴与Kinect摄像头的朝向一致,y轴正半轴向上延伸,从Kinect摄像头的视角来看,X轴正 半轴向左延伸;
[0022] 对右手的骨骼空间坐标设定X、Y、Z方向阈值α、β、γ,α的取值范围为 50mm-150mm,β的取值范围为100mm-150mm,γ的取值范围为50mm-100mm,分割出右手,最 终获得右手的二值图;
[0023] e、在步骤d得到的右手的二值图中,定义右手为一个矩形,所述矩形为ηΧη,η取 值为200mm-300mm,基于不变性,对所述右手进行尺度变换,尺度变换公式如式(I )、式 (II )所示:
[0024]
[0025]
CID
[0026] 式(I )、式(II )中,Wr表示每个像素的大小;d表示右手与Kinect摄像头的实 际距离;Dwlth表示二值图中的像素宽度,D wlth的默认值为320mm ; ω表示尺度变换后的右手 范围。
[0027] 根据本发明优选的,所述步骤a中,所述用户索引值由2个字节16位组成,其中, 高13位表示用户至Kinect摄像头的距离,低3位表示用户索引值,将二进制用户索引值转 换为十进制,值为0-7 ;用户索引值为0,该像素点为背景,若用户索引值为1到7,该像素点 为人体。
[0028] 根据本发明优选的,所述步骤(2)中利用近邻法提取手势轮廓,具体是指:
[0029] f、对平滑处理后深度图像中的每个像素点进行如下操作:如果一个白色点的8个 相邻像素点全部为白色点,则该白色点为内部点;否则,则该白色点为轮廓点;
[0030] g、将步骤f得到的所有内部点设为背景点,完成手势轮廓的提取。
[0031] 根据本发明优选的,所述步骤(3)中,基于改进的SURF算法,获取手形的特征值, 具体步骤包括:
[0032] h、获取掌心位置,确定关键点:
[0033] ①以步骤⑴获取的右手骨骼点的骨骼空间坐标为圆心,以步骤(2)提取的手势 轮廓为边界作内切圆;
[0034] ②将步骤①得到的内切圆向右手腕骨骼点方向移动;
[0035] ③将步骤②所述内切圆与步骤(2)提取的手势轮廓的任三个面相切,获取多个内 切圆,取所述多个内切圆中半径最大的内切圆,该内切圆圆心为掌心位置,即关键点;
[0036] i、根据步骤(1)获取的右手、右手食指、右手腕的骨骼空间坐标和步骤h获取的掌 心坐标,判断主方向:
[0037] 求取右手食指坐标与掌心坐标的距离,若右手食指坐标与掌心坐标距离大于阈值 δ,δ的取值范围为6cm_10cm,即右手食指伸直,则以右手食指坐标与右手腕坐标的方向 向量逆时针旋转角度α为主方向;否则,即右手食指弯曲,则以右手腕坐标与掌心坐标的 方向向量为主方向;角度α是右手食指坐标和右手腕坐标的方向向量与右手骨骼点坐标 和右手腕坐标的方向向量的夹角;
[0038] j、以步骤h获取的关键点为核心,以步骤i获取的主方向为主方向,计算特征值:
[0039] ④取边长为20s*20s的正方形区域,s是指关键点所在的尺度,将该正方形区域划 分为4*4,共16个子区域;
[0040] ⑤在步骤④得到的每个子区域内,计算Harr小波响应dx、dy;
[0041] ⑥通过高斯函数进行加权,形成4*4*4 = 64维的手形的特征向量,加权公式如式 (III)所示:
[0042] C=IXGdx, Xdy, Σ |dx|,Σ |dy|) (III)
[0043] 式(III)中,C表示四维向量;I表示高斯加权系数;Σ(1Χ表示水平方向值之和; Sdy表示垂直方向值之和;Σ IdxI表示水平方向绝对值之和;Σ IdyI表示垂直方向绝对值 之和。
[0044] 根据本发明优选的,所述步骤(4)中,基于角速度与距离的运动轨迹的特征提取, 具体步骤包括以下步骤:
[0045] k、利用Kine
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1