一种基于Hu矩的手语视频帧序列分类方法

文档序号：8544021阅读：485来源：国知局

一种基于Hu矩的手语视频帧序列分类方法
【技术领域】
[0001] 本发明设及计算机视觉的视频处理领域，特别是设及一种基于化矩的手语视频帖序列分类方法
【背景技术】
[0002] 随着计算机对现代社会的影响日益扩大，人机交互正成为人们日常生活中越来越重要的一部分。如今的人机交互方式大多数是通过键盘和鼠标等比较单一的输入工具，使用人体语言的输入方式与它们相比则要快捷方便的多。手语识别作为智能人机交互领域中的一个重要组成部分，其目的是通过计算机提供一种有效且准确的机制，将手语翻译成文本或语音。该一技术不仅使聋人和听力正常人之间的交流变得更加方便，而且在人机互动领域也有积极的意义和应用价值。
[0003] 传统的手语识别包括基于数据手套的手语识别和基于视觉的手语识别。其中，基于数据手套的手语识别，用户需要佩戴数据手套，计算机通过数据手套获取人手部的运动信息并实时的处理，并将结果实时显示出来从而实现人机交互。而基于视觉的手语识别则通过数字摄像设备获取人的手部图像，对获取的图像进一步的处理，进而识别出相应的手语信息。总的来说，基于数据手套的方法的优点是输入数据少和识别度高，但是数据手套设备昂贵及佩带厚重，不利于自然的人机交互。而基于计算机视觉的方法则可W实现更为自然的人机交互，同时价格较低、投入成本小，但是该方法主要存在着如下两大问题：
[0004] (1)在单目视觉的情况下复杂背景下的手势分割是非常困难的，由于背景各种各样，环境因素不可预测，不仅没有成熟的理论作为指导，而且现有的方法实现困难，计算复杂度高，效果也不是很理想。目前常见的解决方法是增加限制，如使用黑色或白色的墙壁、深色的服装等简化背景，或要求人手戴特殊颜色的手套等强调前景，来简化手区域与背景区域的划分。
[0005] (2)在手语的进行过程中，手作为非刚性物体在手语实现过程中会无规律的发生形变，因此，动态手语视频的识别中一个关键问题就就是如何进行视频帖序列的分类，识别出该动态手语序列的语义。常规的跟踪算法在跟踪记录手的运动轨迹中将极容易丢失跟踪目标，而又难W重新找回。
[0006] 几何矩是由Hu(Visualpatternrecognitionbymomentinvariants)在 1962 年提出的，具有平移、旋转和尺度不变性。化利用二阶和S阶中屯、矩构造了走个不变矩Ml~ M7,它们在连续图形条件下可保持平移、缩放和旋转不变，其相关定义也被本发明采用。实际上，在对图片中物体的识别过程中，只有Ml和M2不变性保持的比较好，其他的几个不变矩带来的误差比较大。

【发明内容】

[0007] 鉴于W上内容，有必要提供一种能够提高手语视频的正确识别率，具有较好的鲁椿性，有效改善手语视频识别效果的手语视频帖序列的分类方法。
[000引为实现上述目的，本发明提供一种基于化矩的手语视频帖序列分类方法，包括w下步骤：
[0009] 步骤1 ;获取待识别的彩色手语视频；
[0010] 步骤2 ;对该彩色手语视频进行帖采样，获得帖序列；
[001U 步骤3 ;将彩色图像的帖序列转换为二值图像的帖序列；
[0012] 步骤4 ;将手部与背景分割；
[0013] 步骤5 ;提取分割后的手部图像序列的化矩中的Ml和M2矩得到手部图像的特征向量；
[0014] 进一步地，不变矩Ml和M2定义如下；
【主权项】
1. 一种基于Hu矩的手语视频帧序列分类方法，其特征在于，包括以下步骤：步骤1 :获取待识别的彩色手语视频；步骤2 :对该彩色手语视频进行帧采样，获得帧序列；步骤3 :将彩色图像的帧序列转换为二值图像的帧序列；步骤4 :将手部与背景分割；步骤5 :提取分割后的手部图像序列的Hu矩中的Ml和M2矩得到手部图像的特征向量；不变矩Ml和M2定义如下：
步骤6:计算每一帧手部图像与前一帧手部图像的特征向量之间的欧式距离，并进行自适应阈值判决，贴数字标签，进行初步分类；步骤7 :根据标签进行帧序列精分类，去除过渡帧，顺序输出分类后的标签序列。
2. 如权利要求1所述的基于Hu矩的手语视频帧序列分类方法，其特征在于，所述步骤 5中用Ml和M2矩将图像从像素空间映射到特征向量空间，即：
其中，fi(x，y)为第i帧的图像函数，.月为对应的特征向量。
3. 如权利要求1所述的基于Hu矩的手语视频帧序列分类方法，其特征在于，所述步骤 6中用自适应阈值thre判决两个帧图像特征向量的欧几里得度量，进行初步分类： P函数的定义如下：
./：为第i帧图像的特征向量，Li为第i帧图像的数字标签，设L1= 1 ; 在采样率满足前两帧的采样间隔足够小的前提下，能近似地认为前两帧内做的手语都是同一类的手语，因此可以设定= 实现鲁棒性更强的自适应阈值判定。
4. 如权利要求1所述的基于Hu矩的手语视频帧序列分类方法，其特征在于，所述步骤 7中包括：步骤71，取得新的帧采样图像的标签；步骤72,通过步骤71的标签判断该帧是否为过渡手势动作；若是，将该帧图像去除；若否，将该帧与同一标签的帧归为一类；步骤73，按照帧序列顺序输出分类结果，分类结果用数字标签表示，同一数字标签的帧序列表示它们为同一手语动作的视频片段采样帧集合。
5. 如权利要求4所述的基于Hu矩的手语视频帧序列分类方法，其特征在于，步骤7利用数字标签去除过渡手语帧，具体包括：假设目标视频序列总共有N帧图像，I < i < N，若对第i帧图像的数字标签Li满足：L i =Ι^η+Ι&Μ^= L i+1-l，则该帧为过渡手势动作，需要移除该帧，即：对于任意的第k帧图像，当k彡i时，令L k= Lk-I ;其中，Lk为第k帧图像的数字标签。
6. 如权利要求1所述的基于Hu矩的手语视频帧序列分类方法，其特征在于，所述步骤 3进一步包括以下步骤：步骤31，取得步骤2得到的帧采样图像；步骤32,遍历该图像所有的像素点，判断其是否可能为手部区域的像素点，若是，将其设为白色，若否，将其设为黑色；步骤33,输出二值图像。
7. 如权利要求1所述的基于Hu矩的手语视频帧序列分类方法，其特征在于，步骤4进一步包括以下步骤：步骤41，取得步骤3得到的帧二值图像；步骤42,遍历该图像所有的轮廓，判断其是否为手部区域的轮廓，若是，继续步骤43,若否，重复步骤42直到遍历结束退出；步骤43,将该手部区域与背景分割；步骤44,输出该手部区域图像。
【专利摘要】本发明公开一种基于Hu矩的手语视频帧序列分类方法，包括以下步骤：步骤1：获取待识别的手语视频；步骤2：对该手语视频进行帧采样，获得帧序列；步骤3：将彩色图像的帧序列转换为二值图像的帧序列；步骤4：将手部与背景分割；步骤5：提取分割后的手部图像的Hu矩得到手部图像的特征向量；步骤6：计算每一帧与前一帧的特征向量之间的欧式距离，判决，贴数字标签，进行初步分类。步骤7：根据标签进行帧序列进一步分类，去除过渡动作帧，顺序输出分类后的标签序列。本发明计算复杂度较低，且对于手语图像的旋转、缩放和平移具有很好的鲁棒性，可直接应用于手语视频识别系统。
【IPC分类】G06K9-00
【公开号】CN104866825
【申请号】CN201510254121
【发明人】倪浩淼, 徐向民, 裘索, 黄爱发, 李兆海
【申请人】华南理工大学
【公开日】2015年8月26日
【申请日】2015年5月17日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：倪浩淼;徐向民;裘索;黄爱发;李兆海;
技术所有人：华南理工大学;
我是此专利的发明人

上一篇：一种基于knn和像素比梯度特征的静态手语识别方法
上一篇：一种基于Leap Motion的手语字母识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。