一种基于微惯导信号和模式识别的手语翻译方法

文档序号:6600158阅读:590来源:国知局
专利名称:一种基于微惯导信号和模式识别的手语翻译方法
技术领域
本发明涉及一种基于微惯导信号和模式识别的肢体语言翻译方法,尤指一种手语翻译方法,可应用于需要对人的各种手语动作进行翻译的各类场合,属于传感技术和图像处理技术领域。

背景技术
手语动作的模式识别可以应用在多个领域,诸如手语翻译系统、3D游戏制作、虚拟游戏系统等领域。现在用得较多的手语翻译系统的模式识别都是基于视觉识别的。这种识别方式主要是用多个相机同时从各个视角拍下手语动作,然后进行图像帧的底层特征提取,接着进行帧间的特征联系,最终识别出手语动作。但这种基于视觉的手语动作的模式识别是有缺陷的,其比较明显的有两点1,对于复杂的手语动作,用图像进行处理和识别难以精确;2,用图像进行处理和识别很容易受环境的影响,比如在光线很暗的情况下就很受影响。
随着现代技术的不断发展,微机电系统以其体积小、重量轻、功耗低、成本低、可靠性高等优点,在军用市场和民用市场均得到了广泛的应用。特别是惯性传感器,已经在航空航天、汽车、电子设备保护、娱乐等领域取得了非常引人注目的应用,开创了微型汽车安全气囊传感器等新的产业。随着技术的发展和深入,继承多种惯性微机电系统传感器是目前的研究热点,在生物医学、环境监控、消费电子等领域有着十分广阔的应用前景。特别值得一提的是现在微机电系统研究和发展的一个重要方向,也即微型惯性测量组合(uIMU),它在生物医学、工业自动化、智能建筑、航空航天、环境监控、消费电子等领域前景巨大。
微惯导是微惯导测量组合的简称,它由一定数量的三维加速度计和三维角速度计组成,它的测量原理是经典力学中的牛顿运动定律,它通过三维加速度计和三维角速度计测量车辆、飞机、导弹、舰艇、人造卫星等物体的质心运动和姿态运动,从而对物体进行控制和导航。基于MEMS三维加速度计和三维角速度计的微惯性测量系统具有体积小、重量轻、可靠性高、易集成、能大批量生产、价格低廉等优点,从而在军用、民用领域有广阔的应用前景。
基于微惯导技术的这些卓越的特性,能否将其结合到图像识别技术用于对人体动作的翻译,以及如何结合,为本领域技术人员开拓了一条崭新的思路。


发明内容
本发明旨在开发一种全新的人体动作尤其是手语翻译方法,不仅可以实现听力和语言障碍的人士与正常人群的对话和交流,而且能应用到更广泛的领域中,比如3D游戏制作、虚拟游戏系统等;与传统的基于视觉信号和模式识别的手语翻译方法相比,该方法更精确,尤其对应用环境的依赖性更小,即使在环境光线暗弱的情况下也可以正常实施,且实施该方法所需的系统成本更小,系统体积小便于携带。
为了解决上述问题,本发明公开了一种基于微惯导信号和模式识别的手语翻译方法,采用的技术方案如下 一种基于微惯导信号和模式识别的手语翻译方法,其特征在于,所述方法包括如下步骤1)了解手语基本动作,并按照手语动作的要求,建立一传感器网络布局;2)选取多个样本,并完成样本的手语动作的数据采集、预处理、特征提取,建立一个具有普便适用性和完备性的手语动作数据库;3)用HMM模型训练该手语动作数据库,形成手语动作的HMM分类器;4)用测试样本测试所述HMM分类器;5)进行各手语动作的模式识别,并完成后续的翻译动作; 优选地,步骤1)所述的传感器网络布局包括多个传感器,均安装在对手语动作敏感的不同位置,例如是双手的2个拇指上各1个传感器,其余的8个手指上每个手指上2个传感器,双手的2个手臂各1个传感器,头部1个传感器,总计21个传感器组成传感器网络; 优选地,步骤1)所述的传感器网络布局中的每个传感器都集成了加速度计和角速度计; 优选地,步骤2)所述的手语动作的预处理是指用卡尔曼滤波器对手语动作数据进行去噪处理; 优选地,步骤2)所述的手语动作的特征提取是通过采用先验知识和数据关联分析的方法,分析各种人体运动姿态的典型特征,研究人体各种基本运动姿态的时域、频域特征,通过数据变换方式减少或者去除信息冗余,且所述数据变换优选为FFT变换、PCA变换、DCT变换中的至少一种。
优选地,步骤2)所述的具有普便适用性和完备性的手语动作数据库是指该手语动作数据库包含多个基本手语动作,这些动作是由多个人体样本得到的,所述人体样本包含不同年龄、不同性别、不同职业,例如手语老师、手语学员和普通聋哑人等;优选地,该数据库包含500个基本手语动作,这500个动作是由1000个样本得到的; 优选地,所述手语动作数据库包括训练部分和测试部分; 优选地,所述步骤5)中的完成后续的翻译动作是指识别完成并确定手语动作所代表的手语,匹配相应的音频系统,用声音表达这个手语动作。
本发明还公开了一种基于微惯导信号和模式识别的人体/动物体的肢体动作翻译方法,其特征在于,所述方法包括如下步骤1)了解所述肢体的基本动作,并按照该肢体动作的要求,建立一传感器网络布局;2)选取多个样本,并完成样本的肢体动作数据的采集、预处理、特征提取,建立一个具有普适性和完备性的肢体动作数据库;3)用HMM模型训练该肢体动作数据库,形成肢体动作的HMM分类器;4)用测试样本测试所述HMM分类器;5)进行各肢体动作的模式识别,并完成后续的翻译动作。
本发明的优点是,提供了一种应用领域更广、对应用环境的依赖性更小的手语、肢体语言翻译方法,且对实施方法所需系统的成本和体积进行了有效的缩减。



图1为本发明的基于微惯导信号和模式识别的手语翻译方法的流程框架图。

具体实施例方式 下面,结合附图1,以案例的方式详细说明本发明的基于微惯导信号和模式识别的手语翻译方法,以及实施该方法的系统组成。
本案例的系统构建包括一个完整的传感器网络,各传感器优选为集成了加速度计和角加速度计,且各传感器均安装在对手语动作敏感的不同位置,例如其布局如下 头部1个 两个大拇指2个(每个大拇指1个,优选设置在指关节位置) 八个其它手指16个(每个手指2个,优选设置在各指关节位置) 两个手臂2个(每个手臂1个,优选设置在肘关节位置) 传感器间的网络通信蓝牙通信 数据处理中心DSP 本案例实施的具体过程如下 ●首先,了解手语基本动作,并按照手语动作的要求,建立一个良好的传感器网络布局; ●其次,广泛地选取样本,并完成样本的手语动作数据的采集、预处理、特征提取,建立一个具有普适性和完备性的手语动作数据库; ●然后,用HMM模型训练手语动作数据库,形成手语动作的HMM分类器; ●接着,在形成HMM分类器之后,用测试样本测试这个分类器; ●最后,在完成HMM分类器的测试后,便可以进行手语动作的模式识别并完成后续的翻译动作。
本发明主要分为五个部分,分别是传感器网络布局、手语动作的预处理和特征提取、手语动作数据库的建立、HMM分类器的形成和测试、手语动作的模式识别及后续翻译。下面,对各部分内容中的工作流程和基本原理进行详细说明。
(1)传感器网络布局 整个系统的传感器的布局是在双手的手指、两个手臂、头部安装传感器。具体传感器数目和设置位置如下双手的2个大拇指指关节上各设置1个传感器,其余的8个手指上每个手指指关节上设置2个传感器,双手的2个手臂的肘部各设置1个传感器,头部设置1个传感器,总计21个传感器。这21个传感器组成一个传感器网络,并用蓝牙进行通信,其中每个传感器中都集成了加速度计和角加速度计。
(2)手语动作的预处理和特征提取 对手语动作的预处理主要是进行去噪处理。去噪主要是用卡尔曼滤波器实现的。卡尔曼滤波基本方程如下 ●随机线性离散系统的卡尔曼滤波基本方程 设随机线性离散系统的方程(不考虑控制作用)为 Xk=Φk,k-1Xk-1+Γk.k-1Wk-1 Zk=HkXk+Vk 式中Xk是系统的n维状态向量,Zk是系统的m维观测序列,Wk是p维系统过程噪声序列,Vk是m维观测噪声序列,Φk,k-1是系统的n×n维状态转移矩阵,Γk.k-1是n×p维噪声输入矩阵,Hk是m×n维观测矩阵。
关于系统过程噪声和观测噪声的统计特性,我们假定如下 E[Wk]=0,E[Vk]=0, 其中Qk是系统过程噪声Wk的p×p维对称非负定方差矩阵,Rk是系统观测噪声Vk的m×m维对称正定方差阵,而δkj是Kronecker-δ函数。
下面直接给出随机线性离散系统基本Kalman滤波方程。
状态一步预测 状态估计 滤波增益矩阵 或 一步预测误差方差阵 估计误差方差阵 或Pk=[I-KkHk]Pk.k-1,或
上述式即为随机线性离散系统Kalman滤波基本方程。只要给定初值

和P0,根据k时刻的观测值Zk,就可以递推计算得k时刻的状态估计
●随机线性连续系统的卡尔曼滤波基本方程 系统状态方程为 式中,X(t)是系统的n维状态向量,W(t)是p维零均值白噪声向量,A(t)是n×n维系统矩阵,F(t)是n×p维干扰输入矩阵。
观测方程为 Z(t)=H(t)X(t)+V(t) 式中,Z(t)是m维观测向量,H(t)是m×n维观测矩阵,V(t)是m维零均值的白噪声向量。
W(t)和V(t)互相独立,它们的协方差阵分别为 E[W(t)WT(τ)]=Q(t)δ(t-τ) E[V(t)VT(τ)]=R(t)δ(t-τ) E[W(t)VT(τ)]=0 式中,δ(t-τ)是狄拉克δ函数,Q(t)为非负定对称阵,R(t)为对称正定矩阵,Q(t)和R(t)都对t连续。
●连续卡尔曼滤波基本方程 K(t)=P(t)HT(t)R-1(t) 其中,t≥t0,并且初始条件为

P(t0)=var[X(t0)]=Px(t0)。
分析各个样本的手语动作的典型特征,采用先验知识(PrioriKnowledge)和数据关联分析的方法,找出多个手语动作的典型特征(先验知识作为现有技术,在此不再赘述)。而典型特征的提取的一个关键点就是找到有效的特征提取算法。我们将运用空间坐标变换、时频变换、数据关联特性等方法实现对手语动作的特征提取,以及通过实际采集的人体运动姿态数据获取特征参数的典型域值。这样我们可以从高维的、非线性的、时变的手语动作原始数据信号中有效地提取表征不同手语动作的特征向量,从而完成手语动作的特征提取。这些算法是基于FFT变换、PCA变换、DCT变换实现的。具体的算法在现有技术中很多,在此也不再赘述。
(3)手语动作数据库的建立 手语动作数据库要求具有普遍适应性和完备性,要求涵盖不同的样本。这个手语动作数据库选取1000个人(可以更多)作为采样样本,这1000个人涵盖各个年龄段,各个性别,并且既有手语老师也有手语学员还有普通的聋哑人。每个人做500个(可以更多)基本常用的手语的动作,完成手语动作的数据采集、预处理、特征提取并建立手语动作数据库。1000人的样本中,500人的样本用来进行训练形成HMM分类器,500人的样本用来测试形成的HMM分类器。
(4)HMM分类器的形成和测试 对于时变信号的处理,隐马尔科夫模型(HMM)是非常合适的。HMM的状态是不确定的,只有通过观测序列的随机过程才能表现出来,且通过一组概率分布来联系事件与状态的对应关系。在这个基于微惯导信号和模式识别的手语翻译方法中,用HMM模型来训练手语动作数据库是有效的。HMM的算法描述如下 HMM可记为λ=(N,M,π,A,B),或者简写为λ=(π,A,B); 其中,N表示模型中Markov链状态数目;记N个状态为θ1,θ2,…,θN,记t时刻Markov链所处状态为qt,显然qt∈(θ1,θ2,…,θN); M表示每个状态对应的可能的观察值数目;记M个观察值为V1,V2,…,VM,记t时刻观察到的观察值为Qt,其中Qt∈(V1,V2,…,VM); π表示初始状态概率矢量,π=(π1,π2,…,πN);其中, πi=P(q1=θi),1≤i≤N; A表示状态转移概率矩阵,A=(aij)N×N;其中,aij=P(qt+1=θj/qt=θi),1≤i,j≤N; B表示观察值概率矩阵,B=(bjk)N×M;其中,bjk=P(Qt=Vk/qt=θi),1≤i≤N,1≤k≤M。
建立HMM模型之后,我们就用建立的HMM模型来训练手语动作数据库,充分训练之后形成HMM分类器,然后用数据库中的测试样本对这个HMM分类器进行测试,当测试的成功率为80%以上时,我们就认为这个HMM分类器是有效的,不然我们就修改HMM模型中的参数重新对数据库进行训练,直到所得到的HMM分类器达到测试的指标。
(5)手语动作的模式识别及后续翻译 手语动作经过特征提取之后,通过已测试达标的HMM分类器便可以完成模式识别,然后通过后续相关动作,完成手语的翻译。比如,我们可以建立一个对应的音频系统,当手语动作完成特征提取之后,便通过HMM分类器进行识别,识别完成并确定这个手语动作所代表的手语,然后匹配相应的音频系统,用声音表达这个手语动作。
与传统的基于视觉信号和模式识别的手语翻译方法相比,基于微惯导信号和模式识别的手语翻译方法具有以下优点 1)该方法适用环境更多,应用范围更广; 2)应用该方法的整个系统更加简单,价格更加低廉; 3)应用该方法的整个系统具有安装简便、无线蓝牙传感、可移动性强、适应范围不受空间限制、低功耗等优点; 4)应用该方法的整个系统可以直接对传感器采集到的人体运动信号进行处理和特征提取,数据处理量较基于视觉的数据量小很多。
需要指出的是虽然本发明实施例中以手语翻译方法为例,但只是为了表述的便利,本领域技术人员应该理解,该翻译方法实质上并不限于对手语的翻译,它同样适用于对其它人体乃至动物体的肢体语言进行翻译,只要在相应的位置配置相应的传感器即可,例如在人体/动物体的头部、面部、腿部各自的多个部位安装传感器,可以分别对人体/动物体的头部语言、面部表情语言、腿部语言进行翻译;本领域技术人员应该明白,该方法可以采用与上述手语翻译方法各步骤对应的步骤来实现,只要将手语换为肢体动作即可,因此有关肢体动作翻译方法的详细内容在此也不再赘述。
本发明的应用广泛,例如是1)应用于听力和语言障碍的人士与正常人群的对话和交流;2)应用于影视、动漫制作和游戏开发,尤其可应用于三维动漫产业中的三维运动的实时捕捉和重构;3)应用于人体姿态安全的预警保护系统,用来实时测试和判断高危人群的危险动作并发出相应的警告信号;4)应用于婴儿睡姿检测系统,检测分析婴儿的睡觉取向,当处于危险睡姿时,发出警告信号;5)应用于ECG-uIMU同步系统,实现对ECG信号和人体活动数据进行同步数据分析。
上面以举例方式对本发明进行了说明,但本发明不限于上述具体实施例,凡基于本发明所做的任何改动或变型均属于本发明要求保护的范围。
权利要求
1.一种基于微惯导信号和模式识别的手语翻译方法,其特征在于,所述方法包括如下步骤
1)了解手语基本动作,并按照手语动作的要求,建立一传感器网络布局;
2)选取多个样本,并完成样本的手语动作的数据采集、预处理、特征提取,建立一个具有普遍适用性和完备性的手语动作数据库;
3)用HMM模型训练该手语动作数据库,形成手语动作的HMM分类器;
4)用测试样本测试所述HMM分类器;
5)进行各手语动作的模式识别,并完成后续的翻译动作。
2.根据权利要求1所述的手语翻译方法,其特征在于,步骤1)所述的传感器网络布局包括多个传感器,均安装在对手语动作敏感的不同位置。
3.根据权利要求1所述的手语翻译方法,其特征在于,步骤1)所述的传感器网络布局中的每个传感器都集成了加速度计和角速度计。
4.根据权利要求1所述的手语翻译方法,其特征在于,步骤2)所述的手语动作的预处理是指用卡尔曼滤波器对手语动作数据进行去噪处理。
5.根据权利要求1所述的手语翻译方法,其特征在于,步骤2)所述的手语动作的特征提取是通过采用先验知识和数据关联分析的方法,分析各种人体运动姿态的典型特征,研究人体各种基本运动姿态的时域、频域特征,通过数据变换方式减少或者去除信息冗余。
6.根据权利要求5所述的手语翻译方法,其特征在于,所述数据变换为FFT变换、PCA变换、DCT变换中的至少一种。
7.根据权利要求1所述的手语翻译方法,其特征在于,步骤2)所述的具有普遍适用性和完备性的手语动作数据库是指该手语动作数据库包含多个基本手语动作,这些动作是由多个人体样本得到的,所述人体样本包含不同年龄、不同性别、不同职业。
8.根据权利要求1所述的手语翻译方法,其特征在于,所述手语动作数据库包括训练部分和测试部分。
9.根据权利要求1所述的手语翻译方法,其特征在于,所述步骤5)中的完成后续的翻译动作是指识别完成并确定手语动作所代表的手语,匹配相应的音频系统,用声音表达这个手语动作。
10.一种基于微惯导信号和模式识别的人体/动物体的肢体动作翻译方法,其特征在于,所述方法包括如下步骤
1)了解所述肢体的基本动作,并按照该肢体动作的要求,建立一传感器网络布局;
2)选取多个样本,并完成样本的肢体动作数据的采集、预处理、特征提取,建立一个具有普适性和完备性的肢体动作数据库;
3)用HMM模型训练该肢体动作数据库,形成肢体动作的HMM分类器;
4)用测试样本测试所述HMM分类器;
5)进行各肢体动作的模式识别,并完成后续的翻译动作。
全文摘要
本发明涉及基于模式识别技术和传感技术的肢体动作翻译方法,属于传感技术和惯性信号处理技术领域,特指一种基于微惯导信号和模式识别的手语翻译方法,可对人的各种手语动作进行翻译。首先,依据手语动作的要求,建立一个完好的传感器布局;其次,整个传感器网络完成手语动作数据的采集、预处理、特征提取,建立一个完备的、普适的手语动作数据库,该数据库包括两个部分,分别为训练部分和测试部分;然后,用HMM模型训练这个数据库,形成HMM分类器,并用测试样本测试这个HMM分类器;最后,通过HMM分类器进行模式识别,从而完成后续的翻译动作。
文档编号G06K9/62GK101819635SQ20101013901
公开日2010年9月1日 申请日期2010年4月2日 优先权日2010年4月2日
发明者时广轶, 金玉丰, 雷惊昊, 何阳 申请人:北京大学软件与微电子学院无锡产学研合作教育基地
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1